Robots.txt

Uit phpBB.nl Wiki
Ga naar: navigatie, zoeken

Het toevoegen van een robots.txt bestand (alle versies)

Over robots.txt:

Het robots.txt bestand werkt op grond van het Robots Exclusion Protocol. Dit protocol stelt webmasters in staat om aan te geven, welke delen van een site niet bekeken mogen worden door de robot van een specifieke zoekmachine.

Het bestand zelf is een doodgewoon tekstbestand (.txt), dat in de root-directory van een site moet worden geplaatst. De root-directory is de hoofddirectory van je site. Dus de locatie van het robots.txt bestand zou bijvoorbeeld kunnen zijn: http://www.jouwdomein.nl/robots.txt. Als je een gratis host hebt, zul je dus niet in staat zijn om een robots.txt succesvol te gebruiken, omdat je geen toegang hebt tot de root-directory van je host.

De syntax van het robots.txt bestand ziet er als volgt uit:

User-agent: [naam spider] Disallow: [naam bestand of directory]

Het bestand maken:

Je opent eerst een nieuw .txt bestand in je text-editor. Nu gebruik je de bovenstaande syntax. Op de plaats van [naam spider] zet je de naam van de spider, die je bepaalde delen van je site niet wilt laten indexeren. Op de plaats van [naam bestand of directory] plaats je de locatie en de naam van de documenten of directories, die je niet wilt laten indexeren.

Bekijk onderstaande voorbeelden. Deze zullen het een en ander duidelijker maken:

Voorbeeld 1: User-agent: webcrawler Disallow: /

In het bovenstaande voorbeeld wordt de robot webcrawler de toegang ontzegd tot alle directories. De slash (/) na disallow wil dus zeggen: "alle directories".

Voorbeeld 2: User-agent: * Disallow: /cgi-bin/ Disallow: /test/ Disallow: /prive/

In het tweede voorbeeld zien we een asterisk (*) staan achter User-agent:. Dit betekent: "alle robots". Alle robots mogen in dit voorbeeld dus alle directories bezoeken, behalve de directories cgi-bin, test en prive.

Voorbeeld 3: User-agent: infoseek Disallow: /artikelen/voorbeeld.html

User-agent: * Disallow: /cgi-bin/ Disallow: /test/

In voorbeeld 3 mag de robot infoseek het bestand voorbeeld.html in de directory artikelen niet bekijken. De witregel wil zeggen, dat er een nieuw commando volgt voor een user-agent. In dit geval wordt er aangegeven, dat alle user-agents (dus ook infoseek!) de directories cgi-bin en test niet mogen bekijken.

Verwijzen naar een XML sitemap in robots.txt:

Als je site gebruik maakt van een XML sitemap, dan kan je zoekmachines wijzen op het bestaan van de sitemap in het robots.txt bestand. Dat doe je door de volgende code toe te voegen aan robots.txt:

Sitemap: http://www.jedomeinnaamhier.nl/sitemap.xml (of sitemap.xml.gz als je een gezipte sitemap hebt)

Vervang het adres door je eigen domeinnaam. Je dient de volledige URL naar de sitemap in te vullen, dus inclusief http:// en eventueel www.