marți, 13 ianuarie 2009

Prevenirea indexarii

Pentru a evita continutul nedorit în indexurile de cautare, webmasterii pot instrui spiders sa nu indexeze anumite fisiere sau directoare, prin fisierul standard robots.txt plasat în directorul radacina al domeniului.
În plus, o pagina poate fi exclusa în mod explicit din baza de date a unui motor utilizând un meta-tag specific "robotilor".
Când un motor de cautarea viziteaza un site, robots.txt, situat în directorul radacina este primul fisier accesat de crawlere. Fisierul robots.txt este apoi analizat, si va instrui robotul care pagini sa nu fie accesate de crawlere.
Dat fiind faptul ca crawler-ul unui motor de cautare poate pastra în cache o copie a acestui fisier, el poate ocazial sa faca crawl la pagini pentru care webmaster-ul nu doreste asa ceva.
Paginile care nu se doresc a fii indexate sunt de exemplu paginile de login si paginile ce contin date specifice utilizatorului ca urmare a cautarii interne în site ( de exemplu la site gen magazin virtual ).

Niciun comentariu: