Die Regel ‘noindex’ kann ab dem 1. September 2019 nicht mehr in robots.txt Dateien genutzt werden. Erst kürzlich kündigte Google in seinem Webmaster Blog an, den robots.txt Parser als Internet-Standard einzusetzen. Die Software zum Auslesen von robots.txt Dateien ist jetzt Open Source. Nun will der Suchmaschinenriese den Support für einige Regeln in der robots.txt zum 1. September einstellen. Dazu zählt auch die Verwendung von ’noindex‘ darin.

ALT-ATTRIBUTE VERGEBEN

Googles Tweet zur Verabschiedung der robots.txt Regeln

Welche Regeln entfallen noch?

Man habe sich dazu entschlossen, Regeln mit geringer Nutzung einzustellen. Dazu gehören crawl-delay, nofollow oder noindex. Diese kämen in nur 0,001 Prozent aller robots.txt Dateien im Internet vor. Gerade der Eintrag noindex in den Meta-Tags ist sehr hilfreich, denn er zeigt dem Crawler, dass die betreffende Seite nicht in den Google Index aufgenommen werden soll und erscheint somit nicht in den Suchergebnisseiten. Das ist vor allem bei Sitemaps, paginierten Seiten oder dem Impressum sinnvoll.

Alternative Optionen

Google stellt in seinem Webmaster Blog eine Reihe an Alternativen vor, um Seiten künftig von der Indexierung ausschließen zu können:

  • noindex in den Meta Robots-Tags oder im X-Robots-Tag im HTTP-Header setzen
  • 404- oder 410-Status-Codes nutzen: beide verweisen auf eine nicht zur Verfügung stehende URLs. Diese Codes führen ebenfalls zum Entfernen der betreffenden Webseiten aus dem Index, wenn sie erneut gecrawlt werden.
  • Passwort-Schutz: Es gibt Inhalte, die nur per Abonnement oder hinter einer Paywall verfügbar sind. Wird kein Markup genutzt, um jene zu kennzeichnen, so werden die betreffenden Seiten aus dem Index genommen.
  • Disallow in der robots.txt: Sind Webseiten per disallow blockiert, so werden sie ebenfalls nicht gecrawlt und folglich auch nicht in den Google Index aufgenommen.
  • Entfernen per URL Removal Tool in der Search Console: Damit werden Webseiten übergangsweise aus den SERPs ausgeblendet.

© Pixabay – Simon Steinberger