BLOG
Přednáška o fulltextu Seznam.cz
Dnes jsem zavítal na jednu z přednášek pořádaných Seznamem.cz, tentokrát na téma fulltextové vyhledávání. Přednášel Petr Nevrlý - již 3 roky je člen fulltextového týmu. Přečtěte si o čem se mluvilo.
Ve zhruba dvouhodinovém bloku Petr Nevrlý shrnul základní informace: co je fulltextové vyhledávání, jak funguje jeho architektura, jak pracuje robot a samotné vyhledávání, došlo i na pár informací o hodnocení relevance stránek a řazení výsledků a ke konci jsme se dozvěděli i pár čísel.
V publiku seděli jak studenti tak samozřejmě i SEO optimalizátoři, kteří si přišli ucelit znalosti a zjistit, co je ve fulltextu nového. Díky tomu, že se v průběhu přednášky rozvinula poměrně zajímavá diskuze, dostalo se i na několik snad i užitečných informací.
Kdo snad očekává, že se zde dozví, jak Seznam fulltext řadí výsledky a jak funguje rovnice pro výpočet vah, toho zklamu :), na to skutečně nedošlo a Petr se snažil těmto informacím úspěšně vyhýbat. Celý průběh semináře zde nemá smysl vypisovat, zkusím shrnout v bodech, co zhruba bylo řečeno.
Pro mnoho z vás to budou známé věci, ale opakování je matka moudrosti :)
Shrnutí informací v bodech
- Robot fulltextu častěji navštěvuje stránky, které jsou často aktualizovány
- Aktualizací stránky se rozumí například změna TITLE tagu, existují ovšem i změny, které nejsou pro robota zajímavé (například jsou-li na webu hodiny ukazující i vteřiny)
- Robot navštíví všechny stránky v indexu znovu nejdéle za 200 dní
- Potřebujete-li přidat novou stránku webu do fulltextu, urychlíte to přidávacím formulářem
- Petr naznačil, že rank webu má vliv na pozici v SERP (zatím jsem se setkal převážně s názory, že rank ukazuje pouze frekvenci návštěvy robota - to Petr nevyvracel)
- SRank je závislý nejen na počtu odkazů na web ale zejména na kvalitě - pozor tedy na patičky, skutečně kvalitní odkaz je něco jiného.
- Mezi hlavní kritéria, na základě kterých Seznam řadí výsledky, jsou TITLE, obsah a URL
- Pokud máte klíčová slova v URL adrese, nesejde na tom, kde je v adrese máte
- Používejte sitemapy - nastavujte priority stahování stránek a také frekvenci - usnadníte tak robotovi práci
- Seznam umí hledat mimo v HTML souborech také v PDF, DOC a nově i v RTF
Na závěr trochu čísel
- Seznam nyní zná cca 250 milionů dokumentů
- Umí zpracovat na 400 stránek za vteřinu
- Průměrná stránka v indexu Seznamu má 10Kb (zdrojový kód)
- Na seznamu je denně zaznamenáno na 15 milionů hledání
- Zpracuje přibližně 3 miliony unikátních dotazů denně
- Až 40% hledání na seznamu je učiněno přes našeptávač
Díky Petrovi za zajímavou přednášku, těším se na další.