Was ist robots.txt?
Da es bei HabariMag nicht nur darum geht schon eingefleischten Usern Inhalte zu bieten, sondern auch absoluten Neulingen notwendiges Grundwissen zu vermitteln, gibt es nun auch den ersten Beitrag in diesem Bereich. Aber nun auch schon direkt zum Inhalt dieses Beitrags:
Die Datei robots.txt gehört zu den Quasi-Standards im Netz, denn das zugrunde liegende Protokoll wurde von einer unabhängigen Gruppierung entwickelt und gilt inzwischen als allgemein anerkannt. Die Idee hinter der robots.txt ist die Möglichkeit über einen unkomplizierten Standard mit Webcrawlern zu kommunizieren und Anweisungen bezüglich der Verarbeitung der Webseite zu geben.
So kann über die robots.txt einem Webcrawler oder einfach Crawler, wie beispielsweise der Indizierungssoftware der Suchmaschine Google, mitgeteilt werden, dass bestimmte Dateien oder Ordner nicht verarbeitet werden sollen und so auch nicht in den Suchergebnissen auftauchen. Weiterhin bietet sich auch die Möglichkeit einem solchen Webcrawler gegebenenfalls mitzuteilen an welchem Ort möglicherweise eine für diesen hilfreiche Datei zu finden ist, beispielsweise eine Sitemap. Der Crawler ruft dazu beim Aufruf einer Domain immer zuerst die robots.txt im Stammverzeichnis der jeweiligen Domain ab und überprüft diese auf Hinweise. Danach beginnt dieser mit der Indizierung.
Eine Alternative zur robots.txt bieten die Meta-Tags, diese geben allerdings nur für jede Seite einzeln die Informationen zur Indexierung und Weiterverfolgung von Links an und bieten nicht die Möglichkeit beispielsweise Bilder-Ordner auszuschließen. Der Vorteil der Meta-Tags liegt darin, dass eine Seite zwar von der Indexierung ausgeschlossen werden kann, aber trotzdessen die Links von dort aus weiterverfolgt werden. Empfehlenswert ist deshalb eine kombinierte Verwendung der zentralen robots.txt und den Meta-Tags.
Eine robots.txt kann jeder relativ einfach selbst erstellen, eine deutschsprachige Anleitung dazu gibt es bei Selfhtml. Ebenso auch eine Anleitung für den Umgang mit dem Robots-Metatag, hierfür sind allerdings ein paar grundlegende Html-Kenntnisse hilfreich. Mehr Informationen und ein Checker für die robots.txt finden sich auf der englischsprachigen Seite robotstxt.org.

Schreibe den ersten Kommentar!
Einen Kommentar abgeben