Vielfach wird sie unterschätzt, doch sie ist ein wirksames Mittel in Sachen Onsiteoptimierung: die robots.txt.

Die robots.txt dient dazu dem Suchmaschinenrobot zu sagen, welche Dateien und Ordner er indexieren darf und welche für ihn tabu sind. Normale Suchmaschinenrobots halten sich auch an diese Vorgaben.

Es kommt immer wieder vor, daß man im Index auf Suchergebnisse stößt, wo man sich fragt warum die eigentlich im Index sind. Das ist dann wieder ein Punkt, wo die Anwendung einer robots.txt hilfreich sein kann.

Was sollte man grundsätzlich sperren für die Robots?

Grundsätzlich sollte man alle Dateien sperren, die nur für Admins wichtig sind bzw. die keine suchmaschinenrelevanten Daten enthalten. Bei Wordpress würde ich grundsätzlich folgende Dateien Ordner sperren:

/wp-admin/
/wp-login.php

Viele sperren auch das Impressum aus, insbesondere wenn es mehrere Webprojekte mit gleichem Impressum gibt. Auch das Kontaktformular kann man sperren.

Bei anderen CMS gibt es Ordner die z.B. /admin/ oder /fileadmin/ heißen. Auch diese sollte man dann sperren. Dateien, die es nicht mehr gibt, kann man über die robots.txt auch sperren. Sie verschwinden dann schneller aus dem Google-Index.

Bei einem Kunden habe ich nach einer Umstellung des CMS so die im Google-Index enthaltenen Dateien um ca. 80 % verringert. Hilfreich ist hier zudem die Anwendung der Google Webmasterkonsole. Mit Hilfe selbiger kann man die Löschung von Dateien und Ordnern aus dem Index beantragen. Selbige müssen dann aber entweder einen 404 ausgeben oder aber in der Robots.txt gesperrt sein.

Letztendlich geht es nicht darum möglichst viele Seiten im index zu haben, sondern wirklich nur die relevanten Seiten im Index zu haben. Würden alle Webmaster dies entsprechend sorgfältig handhaben, gäbe es wohl wohl locker 20-30 % weniger Seiten im Google-Index. Vielleicht wäre die Differenz sogar noch größer. Man schaue sich nur mal das hier an.

Vielfach kann durch den Ausschluß verschiedener Dateien und Ordner übrigens auch (interner) duplicate Content vermieden/beseitigt werden im Google-Index. Dies wirkt sich dann wieder positiv auf das Ranking der anderen Unterseiten auf.