BLOG

04. 11. 2008

Přednáška o fulltextu Seznam.cz

Dnes jsem zavítal na jednu z přednášek pořádaných Seznamem.cz, tentokrát na téma fulltextové vyhledávání. Přednášel Petr Nevrlý - již 3 roky je člen fulltextového týmu. Přečtěte si o čem se mluvilo.

Ve zhruba dvouhodinovém bloku Petr Nevrlý shrnul základní informace: co je fulltextové vyhledávání, jak funguje jeho architektura, jak pracuje robot a samotné vyhledávání, došlo i na pár informací o hodnocení relevance stránek a řazení výsledků a ke konci jsme se dozvěděli i pár čísel.

V publiku seděli jak studenti tak samozřejmě i SEO optimalizátoři, kteří si přišli ucelit znalosti a zjistit, co je ve fulltextu nového. Díky tomu, že se v průběhu přednášky rozvinula poměrně zajímavá diskuze, dostalo se i na několik snad i užitečných informací.

Kdo snad očekává, že se zde dozví, jak Seznam fulltext řadí výsledky a jak funguje rovnice pro výpočet vah, toho zklamu :), na to skutečně nedošlo a Petr se snažil těmto informacím úspěšně vyhýbat. Celý průběh semináře zde nemá smysl vypisovat, zkusím shrnout v bodech, co zhruba bylo řečeno.

Pro mnoho z vás to budou známé věci, ale opakování je matka moudrosti :)

Shrnutí informací v bodech

Robot fulltextu častěji navštěvuje stránky, které jsou často aktualizovány
Aktualizací stránky se rozumí například změna TITLE tagu, existují ovšem i změny, které nejsou pro robota zajímavé (například jsou-li na webu hodiny ukazující i vteřiny)
Robot navštíví všechny stránky v indexu znovu nejdéle za 200 dní
Potřebujete-li přidat novou stránku webu do fulltextu, urychlíte to přidávacím formulářem
Petr naznačil, že rank webu má vliv na pozici v SERP (zatím jsem se setkal převážně s názory, že rank ukazuje pouze frekvenci návštěvy robota - to Petr nevyvracel)
SRank je závislý nejen na počtu odkazů na web ale zejména na kvalitě - pozor tedy na patičky, skutečně kvalitní odkaz je něco jiného.
Mezi hlavní kritéria, na základě kterých Seznam řadí výsledky, jsou TITLE, obsah a URL
Pokud máte klíčová slova v URL adrese, nesejde na tom, kde je v adrese máte
Používejte sitemapy - nastavujte priority stahování stránek a také frekvenci - usnadníte tak robotovi práci
Seznam umí hledat mimo v HTML souborech také v PDF, DOC a nově i v RTF

Na závěr trochu čísel

Seznam nyní zná cca 250 milionů dokumentů
Umí zpracovat na 400 stránek za vteřinu
Průměrná stránka v indexu Seznamu má 10Kb (zdrojový kód)
Na seznamu je denně zaznamenáno na 15 milionů hledání
Zpracuje přibližně 3 miliony unikátních dotazů denně
Až 40% hledání na seznamu je učiněno přes našeptávač

Díky Petrovi za zajímavou přednášku, těším se na další.

Follow @martinmatejka

Přidat komentář

1 komentář

[1] Jur

2.7.2009, 22:21

Ahoj, díky za ifno, ale ještěže jsem tam nebyl, to bych si výroky "podal" a byl bych také nevrlý. Protože Srank nebyl tehdy přiliš funkční. A co se týká návštěv robota, tak na mých stránkách nebyl ani jednou sám, jediný robot, který dělá pravidelnou návštěvu, je yahoobot. J.