Sadržaj
Pozdrav svima, počinjem s ovim vodičem na robots.txt, nadam se da vam se sviđa 
Dopusti svim robotima da posjećuju sve datoteke pohranjene u korijenskom direktoriju weba:
Korisnički agent: * Ne dopušta:
Spriječite pristup svim robotima i svim datotekama pohranjenim u korijenskom direktoriju:
Korisnički agent: * Ne dopušta: /
Dopustite pristup samo jednom robotu, u ovom primjeru samo će Google moći indeksirati
Korisnički agent: googlebot Ne dopušta: Korisnički agent: * Ne dopušta: /
Najpopularniji roboti imaju ime za korištenje u korisničkom agentu
googlebot => za Google
msnbot => MSN pretraživanje
yahoo-slurp => Yahoo!
scrubby => Scrub Web
robozilla => DMOZ Checker
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Postoje i specifičniji roboti poput onih na slikama
googlebot-image => Google slika
googlebot-mobile => Google Mobile
Još jedan primjer tako da se svi poddirektoriji koji uključuju zamjenski znak (/) moraju blokirati, samo oni, osim svih drugih datoteka i direktorija koji ne sadrže zamjenski znak, nominalno su blokirani sistemski ili pozadinski direktoriji:
Korisnički agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador /
Spriječite praćenje određene datoteke
Korisnički agent: * Ne dopušta: /page.htm
To se često koristi kada želimo ukloniti stranicu koja daje pogrešku 404 ili ukloniti stranicu iz rezultata pretraživanja, čime se sprječava njeno indeksiranje.
Upravljajte učestalošću robota koji indeksiraju
Iz Google analitika i od alati za webmastere možete vidjeti statistiku. Također možete vidjeti da ponekad nekim robotima treba puno vremena da pregledaju našu web stranicu i podnesu zahtjeve poslužitelju, roboti troše propusnost i resurse kao da su samo drugi posjetitelji.
Postoji način na koji roboti ne izmiču kontroli, možemo reći svakom od njih
Korisnički agent: googlebot Odgoda indeksiranja: 30
Ovime obavještavamo Googleovog robota da pričeka 30 sekundi između svakog indeksiranja. Budite oprezni jer kašnjenje indeksiranja možda ne podržavaju sve tražilice, Bing i Google.
Službena web stranica tvrtke robots.txt To je http://www.robotstxt.org/ gdje ćemo pronaći imena svih robota, specifikacije o kodu. Ovdje se otkriva da roboti služe za standardizaciju onih koji se moraju pratiti i koriste se na drugim platformama za praćenje i provjeru html -a, provjeru veza, indeksiranje podataka, ažuriranje sadržaja u tražilicama, zaštitu web stranica.Je li vam se svidio i pomogao ovaj vodič?Autor možete nagraditi pritiskom na ovaj gumb kako biste mu dali pozitivan bod