Wenn Webmaster das Verhalten von Crawlern steuern möchten, so greifen sie auf die Robots.txt-Datei zurück. Diese befindet sich im Stammverzeichnis (Root Directory) einer Webseite. Neben der Anweisung Links zu folgen oder nicht zu folgen kann man den Crawlern durch die Robots.txt Datei auch die URL-Struktur einer Seite mitteilen, indem man eine XML-Sitemap in die Datei mit aufnimmt.

Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Robots.txt – REP

Das REP (Robots Exclusion Standard Protokoll) legt fest, dass die Crawler vor der Indexierung die Robots.txt Datei aufsuchen und auslesen sollen. Die Datei robots.txt muss dabei genau in dieser Schreibweise im Root Directory hinterlegt werden. Jedoch ist durch das Anlegen dieser Datei nicht garantiert, dass Crawler auch keinerlei Zugriff auf die Seite erhalten, denn nicht alle Bots halten sich an die Befehle.

Eine Seite, die trotzdem gecrawlt und in den Index aufgenommen wird, erscheint auch in der Ergebnisliste der Suchmaschinen, jedoch ohne Beschreibungstext. Die drei größten Suchmaschinen, Google und Bing, halten sich jedoch stets an die Anweisungen der hinterlegten Robots.txt Datei.

Erstellung und Kontrolle

Die Datei kann mittels einem beliebigen Texteditor erstellt werden. Sie wird in ihrer schriftlichen Form ausgelesen. Es gibt auch Tools, die die Erstellung der Robots.txt übernehmen. Beim Anlegen der Robots.txt-Datei muss zuerst angegeben werden für welche User Agents die hinterlegten Anweisungen bestimmt sind. Für den Ausschluss aus der Indexierung wird ein zweiter Teil mit dem Begriff ,,disallow“ hinzugefügt.

Vor dem Hochladen der Robots.txt-Datei sollte diese überprüft werden, um eventuelle Fehler zu berichtigen. Bei dem kleinsten Irrtum in der Schreibweise kann dem Befehl nicht gefolgt werden und die entsprechende Webseite wird womöglich nicht indexiert oder trotzdem indexiert, je nach Absicht und Fehler. In der Google Search Console kann kontrolliert werden, ob die Datei richtig funktioniert.

Eine Robots.txt Datei bei der das Crawlen erlaubt ist, sieht wie folgt aus:

User-agent: Googlebot
Disallow:

Um das Crawlen zu verbieten, wird ein Schrägstrich hinzugefügt:

User-agent: Googlebot
Disallow: /
</divDiese Beispiele sind speziell an die Crawler von Google gerichtet. Je nach Suchmaschine von der man nicht indexiert werden möchte, listet man dessen Spider bei User Agent auf.

  • Googlebot für die Google Suchmaschine
  • Googlebot-Image für die Crawler der Bildersuche
  • Adsbot-Google für Google Adwords
  • Slurp für die Suchmaschine Yahoo
  • bingbot für die Suchmaschine Bing

Möchte man seine Seiten von mehreren Suchmaschinen ausschließen, so muss jeder Bot in einer separaten Zeile gelistet werden. Um Verzeichnisse oder Unterseiten von sämtlichen Suchmaschinen auszuschließen, benutzt man eine Wildcard, also einen Platzhalter. Die Robots.txt-Datei sieht in dem Fall wie folgt aus:

User-agent: *
Disallow: /beispielverzeichnis/

Bedeutung für die Suchmaschinenoptimierung

Die Robots.txt hat einen direkten Bezug zur Suchmaschinenoptimierung, denn Webseiten, die vom Folgen und Indexieren ausgeschlossen werden, erscheinen nicht in den SERPs und wenn, dann nur ohne Beschreibung oder mit einem “Platzhaltertext“. Sind für Seiten einer Domain zu viele Robots.txt-Dateien eingerichtet, kann das ebenfalls zu einem schlechten Ranking führen. Sind keine solchen Datei angelegt, so kann z.B. Duplicate Content indexiert werden. Auf Genauigkeit bei der Erstellung einer Robots.txt-Datei ist daher zu achten.

Wenn durch diese Dateien Fehler passieren, kann es der Fall sein, dass bestimmte Seiten nicht gecrawlt werden und nicht zum Index einer Suchmaschine gehören. Dadurch können die Seiten nicht gefunden werden. Bei korrektem Vorgehen hat so eine Datei keinerlei Einfluss auf das Ranking einer Seite. Jedoch sollte man sich im Klaren sein, dass ausgeschlossene Unterseiten wirklich nicht in den SERPs auftauchen, die Hauptseite jedoch schon.

© devenorr – stock.adobe.com