Robots.txt
Jedes Mal wenn Google deine Website crawlt, schickt der Googlebot zuerst eine Anfrage an eine bestimmte Datei: die robots.txt. Diese Textdatei liegt im Stammverzeichnis einer Website und enthält Anweisungen darüber, welche Bereiche Suchmaschinen-Crawler besuchen dürfen und welche nicht. Sie ist eine der ältesten Konventionen im Web und gleichzeitig eine der am häufigsten falsch verstandenen.
Wer die robots.txt ignoriert, verliert Kontrolle darüber, wie Suchmaschinen die eigene Website durchsuchen. Wer sie falsch konfiguriert, kann versehentlich wichtige Seiten aus dem Google-Index ausschließen oder Crawling-Ressourcen auf unwichtige Bereiche verschwenden.
Was die robots.txt ist und wo sie liegt
Die robots.txt ist eine einfache Textdatei ohne Formatierung. Sie liegt immer im Stammverzeichnis einer Domain und ist unter einer festen Adresse erreichbar: . Jeder kann sie im Browser aufrufen und lesen.
Suchmaschinen-Crawler wie der Googlebot suchen diese Datei automatisch auf, bevor sie mit dem Crawlen einer Website beginnen. Sie lesen die Anweisungen und passen ihr Verhalten entsprechend an.
Wichtig: Die robots.txt ist keine technische Sperre. Sie ist eine freiwillige Vereinbarung. Seriöse Crawler wie Google, Bing oder die meisten anderen Suchmaschinen halten sich daran. Böswillige Bots oder Scraper ignorieren sie. Wer sensible Inhalte wirklich schützen will, braucht dafür eine echte Zugangsbeschränkung per Passwort oder Server-Konfiguration.
Wie die robots.txt aufgebaut ist
Die Datei besteht aus Regelgruppen. Jede Gruppe beginnt mit einem User-agent, also der Angabe, für welchen Crawler die nachfolgenden Regeln gelten. Dahinter stehen Disallow– und Allow-Direktiven, die festlegen, welche Pfade blockiert oder ausdrücklich erlaubt sind.
Ein Beispiel für eine einfache robots.txt:
User-agent: *bedeutet: Diese Regel gilt für alle Crawler.Disallow: /wp-admin/bedeutet: Der Bereich/wp-admin/soll nicht gecrawlt werden.Allow: /bedeutet: Alles andere ist erlaubt.
Mit User-agent: Googlebot kannst du Regeln spezifisch nur für den Googlebot definieren, während andere Crawler andere Anweisungen erhalten.
Am Ende einer robots.txt steht häufig ein Verweis auf die XML-Sitemap der Website. Das ist kein Pflichtbestandteil, hilft Crawlern aber dabei, alle wichtigen Seiten schnell zu finden.
Was du mit der robots.txt steuern kannst
Das Hauptwerkzeug der robots.txt ist die Steuerung des sogenannten Crawl-Budgets. Google weist jeder Website ein bestimmtes Kontingent an Crawling-Ressourcen zu. Größere, stärker verlinkte Websites bekommen mehr davon, kleine Websites weniger.
Wer das Crawl-Budget klug einsetzt, sorgt dafür, dass Google seine Kapazitäten auf die wichtigen Seiten verwendet, nicht auf Bereiche, die für die Suche irrelevant sind. Typische Bereiche, die sinnvollerweise blockiert werden:
Backend- und Verwaltungsbereiche: Der WordPress-Admin-Bereich, Staging-Umgebungen oder interne Login-Seiten haben in den Suchergebnissen nichts zu suchen und müssen nicht gecrawlt werden.
Technische Hilfsdateien: Manche Websites generieren automatisch viele URLs durch Filter, Sortierungen oder Parameter, zum Beispiel in Online-Shops. Seiten wie shop.de/produkte?farbe=rot&groesse=M&sort=preis tragen selten zum SEO bei und können das Crawl-Budget belasten.
Duplicate Content: Wenn Inhalte unter mehreren URLs erreichbar sind, kann das Blockieren bestimmter URL-Varianten helfen, Crawling-Ressourcen zu konzentrieren.
Der wichtigste Unterschied: Crawling und Indexierung sind nicht dasselbe
Das wird am häufigsten falsch verstanden: Eine Seite aus der robots.txt auszuschließen bedeutet nicht, dass sie nicht in den Suchergebnissen erscheint.
Wenn Google eine Seite bereits indexiert hat, bleibt sie im Index, auch wenn du sie nachträglich in der robots.txt blockierst. Blockiertes Crawling verhindert, dass Google die Seite besucht, nicht dass sie angezeigt wird. Wer eine Seite zuverlässig aus den Suchergebnissen entfernen will, braucht dafür ein noindex– direkt im HTML-Code der Seite.
Das Zusammenspiel ist folgendes: Wenn du eine Seite per robots.txt blockierst und gleichzeitig noindex im Meta-Tag hinterlegt hast, kann Google das noindex gar nicht lesen, weil es die Seite nicht crawlen darf. In diesem Fall ist nur das Meta-Tag der richtige Weg.
Faustregel: robots.txt für Seiten, die du nicht gecrawlt haben willst. noindex für Seiten, die nicht in den Suchergebnissen erscheinen sollen.
Typische Anwendungsfälle in der Praxis
WordPress-Websites: Der Pfad /wp-admin/ wird standardmäßig blockiert. Das ist sinnvoll, weil dieser Bereich keine indexierbaren Inhalte enthält und nur Ressourcen verbraucht.
Online-Shops: Filterkombinationen und Sortiervarianten erzeugen oft Hunderte oder Tausende von URLs mit ähnlichem oder identischem Inhalt. Das gezielte Blockieren dieser URL-Muster hält das Crawl-Budget sauber.
Staging-Umgebungen: Wenn eine Test- oder Entwicklungsversion der Website unter einer eigenen Subdomain erreichbar ist, sollte deren robots.txt alle Crawler komplett blockieren, damit Testinhalte nicht in den Suchergebnissen landen.
Suchfunktionen: Interne Suchergebnisseiten einer Website (z.B. meinedomain.de/suche?q=...) sind für externe Suchmaschinen in der Regel wertlos und sollten blockiert werden.
Häufige Fehler
Versehentlich die gesamte Website blockiert: Disallow: / blockiert alle Crawler von der gesamten Website. Dieser Fehler passiert überraschend häufig, zum Beispiel wenn eine Staging-Konfiguration auf die Live-Website übertragen wird. Die Folge: Die Website verschwindet nach und nach aus dem Google-Index. Regelmäßige Überprüfung der robots.txt nach technischen Änderungen ist deshalb Pflicht.
Robots.txt mit noindex verwechselt: Wer wichtige Seiten aus den Suchergebnissen nehmen will, aber nur die robots.txt anpasst, wird sein Ziel nicht erreichen. Für die Entfernung aus dem Index braucht es das noindex Meta-Tag.
Zu viel blockiert: Manche robots.txt-Dateien blockieren so viele Bereiche, dass Google relevante Inhalte, CSS-Dateien oder JavaScript nicht mehr crawlen kann. Das kann dazu führen, dass Google Seiten falsch rendert und bewertet.
Gar keine robots.txt vorhanden: Eine fehlende Datei ist kein Fehler im technischen Sinne, weil Google in diesem Fall alles crawlt. Für einfache Websites ohne problematische Bereiche ist das vertretbar. Bei größeren Websites mit Backend, Filtern oder Duplikaten ist eine saubere robots.txt aber sinnvoll.
Die robots.txt ist eine kleine Datei mit großer Wirkung. Wer sie richtig konfiguriert, sorgt dafür, dass Google seine Ressourcen auf die richtigen Seiten verwendet. Wer Fehler macht, riskiert im schlimmsten Fall den Verlust der gesamten organischen Sichtbarkeit. Eine prüft die robots.txt als Teil jedes technischen Audits. Wer eine neue Website aufbaut, sollte gemeinsam mit der sicherstellen, dass die Datei von Anfang an korrekt aufgesetzt ist.
