Robots.txt bei WordPress – so steuerst du die Crawling-Bots

Beitragsgrafik – robots txt
by Johanna
10. December 2024

Funktionsweise, Syntax und Bedeutung

Wer einen Internetauftritt betreibt, sollte die Datei robots.txt kennen. Mit dieser kleinen Datei lässt sich die Indexierung der eigenen Internetseiten durch die Crawler der Suchmaschinen steuern. Im folgenden Beitrag erfährst du alles nützlichen und wichtigen Informationen zur robots.txt, die du als Seitenbetreiber, WP-Admin oder SEO-Verantwortlicher brauchst. Viel Spaß und gutes Gelingen!

Table of contents

Was ist die robots.txt?

Die robots.txt ist eine Textdatei, die auf Webseiten verwendet wird, um Suchmaschinen-Crawlern (wie Googlebot) Anweisungen zu geben, welche Bereiche der Webseite durchsucht oder ignoriert werden sollen. Sie liegt normalerweise im Stammverzeichnis einer Webseite (z. B. www.deineseite.de/robots.txt) und hilft, den Zugriff auf bestimmte Inhalte zu steuern, ohne sie komplett zu sperren.

 

Beispiel:

				
					User-agent: *
Disallow: /private/
				
			

Hiermit wird allen Crawlern verboten, den Ordner /private/ zu durchsuchen.

Hinweis

Die Datei ist nur eine Empfehlung und wird von Suchmaschinen nicht immer strikt beachtet.

Suchmaschinen, Crawler und die robots.txt

Sollen deine Internetseiten gefunden und in den Ergebnisseiten (SERPs – Search Engine Result Pages) der Suchmaschinen wie Google und Co angezeigt werden, müssen sie von den Webcrawlern der Suchanbieter (bspw. Googlebot) erfasst und indexiert werden.

 

Mit Hilfe der Datei robots.txt lässt sich festlegen, welche Seiten deines Internetauftritts die Crawler indexieren dürfen. Es handelt sich um eine kleine Textdatei, die im Hauptverzeichnis der Domain abzulegen ist. Sie muss genau die Bezeichnung „robots.txt“ in Kleinbuchstaben haben (Case-sensitivity). Besucht ein Webcrawler die Domain, ruft er zunächst diese Datei auf und informiert sich, welche Seiten oder Unterverzeichnisse er in den Index aufnehmen darf und welche nicht. Ist das Crawling für bestimmte Seiten ausgeschlossen, erscheinen diese nicht in den Suchergebnissen. Darüber hinaus kann die Datei einen Verweis auf die XML-Sitemap enthalten. Durch diesen Verweis kann der Webcrawler die URL-Struktur des Internetauftritts direkt aus der Sitemap ablesen, was einige Vorteile mit sich bringen kann.

TIPP

Mehr Informationen findest du in unserem Hilfe Center:

 

👉🏻 Zusammenfassung zur robots.txt.

Die Syntax der robots.txt und konkrete Beispiele

Wie Suchmaschinen-Crawler die robots.txt-Datei zu verwenden haben und welche Syntax sie besitzt, ist im Robots Exclusion Standard Protokoll (REP) definiert. Die Crawler lesen die Datei unter Beachtung der Groß- und Kleinschreibung Zeile für Zeile aus. Folgende Kommandos darf die robots.txt enthalten:

 

  • User-agent:
  • Disallow:
  • Allow:
  • Sitemap:

Die Anweisungen sind in Blöcke mit jeweils einem Kommando pro Zeile aufgeteilt. Ein Block beginnt mit dem Befehl „User-agent:“. Er legt fest, für welchen Crawler beziehungsweise Suchmaschinen-Robot die nachfolgenden Disallow- oder Allow-Kommandos gelten. Standardmäßig geht der Crawler davon aus, dass er alle Verzeichnisse und Seiten indexieren darf, die nicht durch ein Disallow-Kommando ausgenommen sind. Per „Disallow:“ sind die von der Indexierung auszuschließenden Seiten oder Unterverzeichnisse der Stammdomain benannt. „Allow:“ legt die Seiten oder Verzeichnisse fest, die gecrawlt werden dürfen. Das Allow-Kommando erlaubt beispielsweise das Crawlen einer Seite oder eines Unterordners eines Verzeichnisses, das per Disallow-Kommando von der Indexierung ausgeschlossen ist. 

Der Befehl Sitemap informiert den Robot über eine vorhandene XML-Sitemap, aus der die URL-Struktur der Website ersichtlich wird. Die Sitemap selbst kann anders als die robots.txt an einer beliebigen Stelle gespeichert und beliebig benannt sein, solange hier die entsprechende Adresse eingegeben ist.

Die Syntax der robots.txt-Datei kennt folgende weitere Platzhalter und Kennzeichen:

*  –  Platzhalter für Präfixe, Suffixe oder komplette Strings, die auf dieses Zeichen folgen
$  –  Platzhalter für das Zeilenende
#  –  Kennzeichen für einen nachfolgenden Kommentar (für menschliche Leser)

Die automatische robots.txt-Datei bei WordPress

WordPress erstellt automatisch eine einfache robots.txt-Datei, auch wenn du selbst keine angelegt hast. Diese Datei wird dynamisch generiert und enthält grundlegende Anweisungen, um die Suchmaschinen-Crawler zu steuern. Besonders für Einsteiger ist dies hilfreich, da die wichtigsten Einstellungen bereits von WordPress übernommen werden.

Inhalt der Standard-robots.txt

Die automatisch generierte robots.txt-Datei in WordPress sieht typischerweise so aus: 

				
					User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
				
			
  • User-agent: Gibt an, dass die Anweisungen für alle Crawler gelten (* steht für alle Bots).
  • Disallow: Verbietet das Crawlen des /wp-admin/-Verzeichnisses, in dem administrative Dateien liegen.
  • Allow: Erlaubt den Zugriff auf die Datei admin-ajax.php, die für dynamische Inhalte benötigt wird.

Diese Standardkonfiguration stellt sicher, dass sensible Admin-Bereiche vor Suchmaschinen geschützt sind, während die Funktionalität der Website gewährleistet bleibt.

Grenzen der automatischen robots.txt

Die dynamische robots.txt ist zwar praktisch, aber nicht immer ausreichend. Es fehlen individuelle Anpassungsmöglichkeiten, um etwa:

 

  • Weitere Verzeichnisse oder Dateien vom Crawling auszuschließen.
  • Eine XML-Sitemap anzugeben, um die Indexierung zu optimieren.
  • Regeln für bestimmte Bots oder Suchmaschinen zu definieren.

Wie kannst du sie anpassen?

Die automatische robots.txt lässt sich nicht direkt bearbeiten. Stattdessen kannst du eigene Regeln erstellen:

 

  • Manuell: Lege eine eigene robots.txt-Datei im Stammverzeichnis deiner Domain ab.
  • Mit Plugins: Tools wie Yoast SEO oder Rank Math bieten einfache Optionen, um die Datei direkt im WordPress-Backend anzupassen.

 

Die automatische robots.txt-Datei ist ein guter Start, aber für optimale SEO-Ergebnisse lohnt sich eine individuelle Anpassung.

Konkrete Beispiele für die robots.txt

Nach so viel Theorie, zeigen wir dir im Folgenden drei Beispiele, anhand derer du schnell die Bedeutung und den richtigen Einsatz der Kommandos verstehst.

 

Beispiel 1:

				
					User-agent: *
Disallow: /bilder/
Allow: /bilder/beispiele/
				
			

Beginnen wir mit einem ganz einfachen Beispiel. Die Anweisungen des Beispiel eins gelten aufgrund des Asterisk-Zeichens * für alle Suchmaschinen-Robots und verbieten das Crawlen des Verzeichnisses „/bilder/“. Von diesem Verbot ausgenommen ist das Unterverzeichnis „/bilder/beispiele/“.

 

Beispiel 2:

				
					User-Agent: Googlebot
Disallow: *.bmp$
				
			

Sitemap: https://deine-domain.de/sitemap.xml

Das Beispiel zwei verbietet dem Suchmaschinen-Robot „Googlebot“ Inhalte zu crawlen, die mit der Zeichenkette „.bmp“ enden. In diesem Fall sind das alle BMP-Bilddateien. Der Sitemap-Eintrag am Ende gibt den Speicherort der XML-Sitemap für diese Domain an.

 

Beispiel 3:

				
					# Block 1

User-agent: Googlebot
Disallow: /bilder/
Disallow: /musik/

# Block 2

User-agent: *
Allow: /
				
			

Beispiel drei zeigt eine robots.txt-Datei mit zwei Befehlsblöcken. Der erste Block gilt für den Suchmaschinen-Robot „Googlebot“ und verbietet ihm das Crawlen der Unterverzeichnisse „/bilder/“ und „/musik/“. Im zweiten Block wird allen anderen Webcrawlern erlaubt sämtliche Inhalte zu indexieren. Dieser zweite Block kann entfallen, da per Default die Erlaubnis gegeben ist, alle Inhalte zu crawlen.

Schließlich sei noch der Standard-Inhalt der von WordPress automatisch erzeugten robots.txt notiert:

				
					User-agent: *

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
				
			

Wie die Beispiele bereits gezeigt haben, gelten diese Anweisungen folglich für alle Robots bzw. Suchmaschinen und das Verzeichnis /wp-admin/ wird mit Außnahme der darin befindlichen admin-ajax.php vom Crawling ausgeschlossen.

How fast is your WordPress?
! Kostenloser Speedtest – /speedtest/

After submitting, you will receive the result directly by e-mail.

By submitting this form, you agree to our privacy policy.

Grenzen und Herausforderungen der robots.txt Datei

Stets im Hinterkopf behalten solltest du, dass die Vorgaben nicht bindend sind und sich die Crawler der Suchmaschinen nicht an die Anweisungen der robots.txt-Datei halten müssen. Zwar akzeptieren die gängigen Suchmaschinen wie Bing oder Google die Vorgaben der robots.txt, doch einige Suchmaschinenanbieter indexieren auch gesperrte Seiten.

Herausforderungen im Detail:

 

  • Indexierung trotz Verboten – Selbst wenn Seiten durch die robots.txt vom Crawling ausgeschlossen werden, können sie dennoch in den Suchergebnissen auftauchen. Dies geschieht häufig, wenn diese Seiten über externe Links verfügen. In diesem Fall kann die Suchmaschine die Seite anhand des Links indexieren, auch ohne sie vorher gecrawlt zu haben.
  • Kein Schutz vor bösartigen Bots – Die Datei bietet keine Sicherheitsvorkehrungen gegen Crawler, die gezielt Daten wie E-Mail-Adressen oder sensible Informationen sammeln. Solche Bots ignorieren oft bewusst die Vorgaben der robots.txt. Hier sind zusätzliche Maßnahmen wie Firewalls oder IP-Sperren notwendig.
  • Versehentliche Sperrung wichtiger Inhalte – Ein häufiger Fehler in der Syntax oder zu allgemeine Disallow-Regeln können dazu führen, dass wichtige Seiten oder Inhalte von der Indexierung ausgeschlossen werden. Dies kann sich negativ auf die Sichtbarkeit der Website auswirken.
  • Missverständnisse bei der Nutzung – Viele Website-Betreiber setzen die Datei falsch ein, weil sie glauben, dass sie damit Inhalte vollständig vor der Öffentlichkeit verstecken können. Die robots.txt dient jedoch nur zur Steuerung des Crawling-Verhaltens und nicht zum Schutz sensibler Daten. Solche Inhalte müssen mit Maßnahmen wie Passwortschutz oder serverseitigen Einstellungen gesichert werden.
  • Abhängigkeit von Suchmaschinen-Standards – Unterschiedliche Suchmaschinen interpretieren die Anweisungen in der robots.txt unterschiedlich. Während Google zum Beispiel Disallow-Kommandos konsequent beachtet, können andere Suchmaschinen die Regeln teilweise ignorieren oder anders auslegen.
  • Kein Schutz vor internen Duplicate Content – Die Datei ist nicht dafür geeignet, Probleme mit doppelten Inhalten innerhalb der Website zu lösen. Duplicate Content muss direkt durch die richtige Website-Struktur oder kanonische Tags (Canonical Tags) vermieden werden.

Alternativen und ergänzende Lösungen

 

  • noindex-Meta-Tags: Diese sind zuverlässiger, da sie direkt auf Seitenebene im HTMLCode eingebettet werden und verhindern, dass die Seite in den Index aufgenommen wird – auch wenn sie gecrawlt wird. Die Anleitung dazu findest du hier in unserem Hilfe Center. 
  • Passwortschutz – Mit einem Passwortschutz können sensible Inhalte komplett vor Crawlern und Nutzern geschützt werden.
  • Serverseitige Blockierung – Ergänzend können bestimmte Bereiche der Website über die .htaccess-Datei oder andere Servereinstellungen für Crawler gesperrt werden.

Zudem kann eine starke Verlinkung einzelner Seiten dazu führen, dass Google, Bing und Co eigentlich gesperrte Inhalte in ihren Index aufnehmen. Die robots.txt-Datei eignet sich daher nicht, um bestimmte Seiten vor dem Zugriff von Webcrawlern und dem Indexieren zu schützen.

 

Sollen Webseiten zuverlässig ausgeschlossen werden, kannst du beispielsweise mit noindex-Meta-Tags in den HTML-Dateien arbeiten oder einzelne Seite beziehungsweise ganze Unterverzeichnisse mit einem Passwortschutz versehen. 

Die robots.txt-Datei in WordPress erstellen und optimieren

Hast du selbst keine robots.txt angelegt und unter dem Stammverzeichnis der Domain gespeichert, spielt WordPress über die functions.php-Datei sie automatisch aus. Die Standard-robots.txt ist einfach gehalten und schließt lediglich Admin-Unterverzeichnisse wie „/wp-admin/“ für die Suchmaschinen-Robots von der Indexierung aus. Diese Standard-Einstellung ist zwar nützlich, doch kann es sinnvoll sein, eigene Regeln für die Indexierung festzulegen.

 

So lassen sich weitere WordPress-Inhalte von der Indexierung ausnehmen, die nicht von der Öffentlichkeit über Suchmaschinen gefunden werden sollen. Die robots.txt kannst du manuell über einen Texteditor anlegen. Zudem gibt es zahlreiche Plug-ins, die dir das komfortable Erstellen der Datei über den WordPress-Backend erlauben. Beispielsweise bietet das beliebte SEO-Plugin Yoast unter „Werkzeuge“ Funktionen, um die Datei anzulegen und zu bearbeiten.

Robots.txt und Plugins: So optimierst du die Datei mit WordPress-Tools

Die Anpassung der robots.txt-Datei in WordPress kann mühsam sein, wenn du sie manuell bearbeiten möchtest. Zum Glück bieten viele SEO-Plugins praktische Lösungen, um die robots.txt direkt im WordPress-Backend zu erstellen und zu bearbeiten. Diese Plugins sind besonders hilfreich, da sie Fehler vermeiden und oft zusätzliche Funktionen bieten.

Welche Plugins eignen sich?

 

  • Yoast SEO: Dieses beliebte Plugin ermöglicht es dir, die robots.txt-Datei einfach über den Menüpunkt „Werkzeuge“ anzupassen. Du kannst neue Regeln hinzufügen, bestehende bearbeiten oder die Datei komplett neu erstellen.
  • Rank Math: Bietet ebenfalls eine benutzerfreundliche Oberfläche, um robots.txt-Regeln direkt in der Plugin-Konfiguration zu verwalten. Zusätzlich liefert es hilfreiche Tipps, welche Bereiche deiner Website vom Crawling ausgeschlossen werden sollten.
  • All in One SEO Pack: Auch dieses Plugin unterstützt die Erstellung und Bearbeitung der robots.txt-Datei. Es bietet vordefinierte Regeln, die du individuell anpassen kannst.

Vorteile der Plugin-Nutzung

 

  • Einfacher Zugang: Keine manuelle Bearbeitung über FTP oder den Server nötig.
  • Schnelle Änderungen: Regelanpassungen sind direkt im Backend möglich.
  • Fehlervermeidung: Plugins prüfen die Syntax und warnen vor potenziellen Problemen.

 

Mit Plugins sparst du Zeit und vermeidest typische Fehler. Sie sind ideal für alle, die keine tiefgehenden technischen Kenntnisse haben, aber dennoch die Kontrolle über die robots.txt-Datei behalten möchten.

Die Bedeutung der robots.txt für SEO und Tests

Die robots.txt-Datei ist für die Suchmaschinenoptimierung wichtig. Du steuerst mit ihr das Verhalten der Suchmaschinen beim Crawlen und die Indexierung individuell.

Zu starke Einschränkungen können aber dazu führen, dass wichtige Inhalte deines Internetauftritts nicht ranken und gar nicht in den SERPs auftauchen. Wenn du den Crawlern zu viel erlaubst, kann es passieren, dass Duplicate Content das Ranking deiner Seiten negativ beeinflusst. Außerdem könnten Inhalte, die gar nicht für die Allgemeinheit gedacht sind, von den Suchmaschinen indexiert werden. Jeder Webseitenadministrator und SEO-Verantwortliche sollte daher die Funktionsweise der robots.txt-Datei verstanden haben und sie gegebenenfalls individuell für den eigenen Internetauftritt anpassen.

Die Erstellung der Datei erfordert die Beachtung der korrekten Syntax. Schon kleinste Fehler machen die Anweisungen unbrauchbar und die Webcrawler missachten sie in der Folge
einfach.

Robots.txt testen: So überprüfst du die Funktionsweise

Um sicherzugehen, dass die robots.txt Datei korrekt funktioniert, ist regelmäßiges Testen entscheidend. Fehler in der Datei könnten dazu führen, dass wichtige Seiten nicht indexiert werden oder unerwünschte Inhalte in den Suchergebnissen auftauchen.

  • Fehlerhafte Syntax: Schon kleine Tippfehler oder falsche Regeln können dazu führen, dass Crawler die Anweisungen ignorieren.
  • Ungewolltes Blockieren: Wichtige Seiten oder Inhalte könnten versehentlich vom Crawling ausgeschlossen werden.
  • Unterschiedliche Crawler-Verhalten: Verschiedene Suchmaschinen interpretieren die robots.txt teilweise unterschiedlich.

Tools zum Testen der robots.txt

1. Google Search Console

  • In der Search Console kannst du überprüfen, welche URLs durch die robots.txt blockiert werden.
  • Mit dem integrierten URL-Prüftool lässt sich analysieren, ob Google bestimmte Seiten crawlen darf.

 

2. Bing Webmaster Tools

  • Ähnlich wie die Google Search Console bietet Bing ein Tool, um die robots.txt-Datei zu überprüfen und Probleme zu erkennen.

 

3. Screaming Frog SEO Spider

  • Dieses Tool simuliert das Verhalten von C

Praktische Tipps beim Testen

 

  • Teste die Datei nach jeder Änderung, um sicherzustellen, dass sie wie gewünscht funktioniert.
  • Überprüfe die Datei für alle wichtigen User-Agents (z. B. Googlebot, Bingbot).
  • Simuliere Szenarien mit und ohne Einschränkungen, um mögliche Probleme frühzeitig zu erkennen.

 

Ein gründlicher Test der robots.txt sorgt dafür, dass deine SEO-Bemühungen nicht durch ungewollte Crawling-Regeln behindert werden. So bleibt deine Website optimal sichtbar.

 

Wir hoffen, dieser Beitrag konnte dir dabei helfen, ein Verständnis von Funktionsweise und Anwendung zu erlangen und freuen uns natürlich über Kommentare und Anregungen!

Johanna
Johanna
Johanna ist Texter und Content Marketing Managerin. Sie hat eine Vorliebe für Social Media und setzt auf klare Kommunikations-Strategien. Bei HostPress kümmert sie sich um Newsletter- und Bloginhalte, um zielgruppengerechte Inhalte und die Markenbekanntheit zu fördern. Durch ihre Arbeit im Webhosting Bereich liegt ihre Stärke darin, komplexe Themen verständlich und authentisch auf den Punkt zu bringen.
4 Responses
  1. Hallo Johannes,
    vielen Dank für deinen ausführlichen Bericht über das Thema Robots. Ich befasse mich erst seit kurzen mit dem Thema eigene Webseiten mit WordPress zu erstellen. Du hast mir wirklich sehr weitergeholfen.
    Nochmals Danke!
    Alles Gute & viel Erfolg weiterhin.
    lg Gerhard

    1. Hallo Gerhard, das freut mich sehr! Dir auch alles Gute und viel Erfolg mit der WordPress Webseite!
      LG Johannes

  2. Hallo Johannes,
    vielen Dank für deinen spitzen Beitrag. Das ist teilweise etwas schwierig für mich. Aber eine Herausforderung. Ich bin auf der Suche nach einer Lösung für ein „Herausforderung“, die mir die Google Searce Console gestellt hat.
    Der Betrag hat mir wahrscheinlich geholfen, Google wieder zufriedenzustellen. Hoffe ich zumindest.
    Danke und alles Gute weiterhin
    Katalin

    1. Hi Katalin,
      danke für das liebe Feedback – Es freut uns immer sehr, wenn unsere Beiträge helfen! 🙂
      Dir auch alles Gute und beste Grüße,
      Johannes

Leave a Reply

Your email address will not be published. Required fields are marked *