úterý 28. června 2005

Fulltextový vyhledávač pro komunitní server

Jsou online služby, které se bez integrace fulltextového vyhledávání neobejdou. Na jednom projektu vyvstala potřeba prozkoumat možnosti integrace search enginu třetí strany. Jedná se o komunitní server, kde je vyhledávání jednou z klíčových vlastností. Zkusil jsem si udělat takový malý průzkum jehož součástí je i tenhle spot.

Základní předpoklad je ten, že daný nástroj bude mít webový crawler, který se pustí na daný server a provede vybudování indexu. Nejedná se tedy o to, že by bylo potřeba indexovat nějaké lokální dokumenty či tak podobně. Omezující faktore je to, že není možné využít vyhledávání třetích stran s vloženou reklamou jako Addwords či tak podobně.

Základní požadavky (se5ayeno podle důležitosti)

  • relevantnost výsledků
  • rychlost vyhledávání
  • podpora vyhledávání v různých jazycích
  • snadná integrace
  • custimizace výsledků vyhledávání
  • dobrá cena

Pro mě osobně je synonymem hledání Google a proto vedly moje první kroky na Google Mini.

Google Mini

Výhody

  • prověřená kvalita vyhledávání
  • jednoduchá instalace (plug&play) a administrace (webové rozhraní)
  • technická podpora Google

Nevýhody

  • žádná možnost si to otestovat (pokud člověk pomine měsíční garanci na vrácení peněz)
  • omezení na 100 000 dokumentů
  • relativne nákladnější $2,995

Dalším na řadě byl engine Apache Lucene, na který mě navedl článek Diona Almera I Love Lucene (diskuse TSS).

Apache Lucene

Výhody

  • je to úplně zdarma a open source
  • žádná omezení indexace
  • pokročilé možnosti integrace skrze API

Nevýhody

  • absolutně neprověřené
  • složitá konfigurace (nutnost programovat)
  • chybějící web crawler

Kdybych to zjednodušil tak, Lucene ja takový polotovar, který je třeba opracovat, než jej bude možné nasadit. Avšak existují velké množství softwaru, který Lucene využívá, z těch známějších JIRA (issue tracker), Eclipse nebo Roller (obdoba Bloggeru). Na Lucene jsou rovněž přímo založeny dva webové vyhledávače Nutch a Red-Piranha, oba dva open source a oba odstraňující problém webového crawleru.

Protože jsme patriot, napadlo mě Jyxo resp jeho Jyxo Data, které osobně používám pokud selže Google při vyhledávání ryze českého obsahu.

Jyxo

Výhody

  • relativně prověřená kvalita vyhledávání
  • žádná omezení indexace
  • jednoduchá integrace skrze XML

Nevýhody

  • podpora jiných jazyků (angličtina, francouzština
  • neznámá cenová politika

Velice bych uvítal v diskusi Vaše zkušenosti, postřehy a názory.