Noindex, Nofollow und die robots.txt
Wird etwas über nofollow geschrieben, dann geht es zumeist darum, daß bei diesem oder jenem Script mal wieder standardmäßig etwas auf nofollow umgestellt wurde und schon hört man alle jammern.
Doch die nofollow-Funktion kann auch ganz nützlich sein, gerade auch wenn es darum geht Google in die richtigen Bahnen zu leiten. In Verbindung mit der robots.txt und dem Noindex-Tag kann man nämlich einiges bewirken.
Wie muß man sich das nun vorstellen?
Vergleichen wir eine mittelgroße Webseite mal mit einem Stadtplan. Es gibt unzählig viele Straßen (einzelne Unterseiten) die sich immer wieder verzweigen, teilweise zu anderen Straßen führen und so entsteht ein heilloses Wirrwarr. In manchen dieser Straßen befinden sich nur noch leerstehende Ruinen (unwichtige Unterseiten). Der Bot durchfährt nun all diese Straße und nimmt sie in seine Statistik (Googleindex) auf. Viele davon sind aber halt total unwichtig und für den Robot ist es zusätzliche Arbeit die Existenz und den Inhalt regelmäßig zu überprüfen.
Hier können wir als Verkehrsplaner (Webmaster) nun ein wenig nachhelfen. Mit entsprechenden Verkehrsschildern (Tags) sagen wir dem Bot wo er denn nun lang darf und wo nicht.
Und was soll der Bot nun sehen und indexieren dürfen und was nicht?
Nun, da ist vieles einzelfallabhängig. Grundsätzlich kann man für den Seitenbesucher eher unwichtige Unterseiten wie Impressum. Kontaktformular oder Widerrufsbelehrung einfach für den Bot sperren. Desweiteren sollte jeder Webseitenbetreiber einfach mal bei google eine Site-Abfrage mit dem Befehl
site:www.domainname.tld
machen.
Hierbei dürfte man in sehr vielen Fällen recht schnell auf Suchergebnisse stoßen die von Google als ähnlich ausgeblendet werden. In den meisten Fällen handelt es sich dabei um Unterseiten die zu starke Ähnlichkeit mit anderen Unterseiten haben. Hier sollte man dann prüfen, ob es wirklich sinnvoll ist diese Seiten im Index zu belassen oder ob man diese nicht für den Robot sperren sollte. Wenn die Seiten im Index bleiben sollen, muß man sich aber Gedanken darüber machen, wie man sie bei Google wieder einblenden kann.
Wie setzt man das ganze nun um?
Noindex: Noindex ist ein Befehl der dem Bot erlaubt sich eine Seite anzuschauen, allerdings darf er sie nicht speichern. Der entsprechende Tag wird in den Headbereich der jeweiligen Unterseite eingebaut.
Nofollow: Dieser Tag besagt, daß der Bot den auf der Seite befindlichen Links nicht folgen darf. Der Tag kann auch für einzelne Links individuell eingesetzt werden.
Das hier gezeigte Beispiel sagt dem Bot, daß er die Seite zwar besuchen, aber nicht indexieren darf. Gleichzeitig wird ihm verboten den darauf befindlichen Links zu folgen.
Bei diesem Beispiel darf der Bot die Seite zwar nicht indexieren, doch den darauf befindlichen Links darf er schon folgen.
Hier darf der Bot die Seite indexieren, er darf aber den darauf befindlichen Links nicht folgen.
Dies ist die häufigste Variante, hier darf der Bot die Seite indexieren und auch den Links folgen. Will man, daß der Bot nur einzelnen Links auf der Seite nicht folgt, dann setzt man auch diesen Meta-Befehl ein und definiert die einzelnen nicht zu folgenden Links entsprechend individuell mit rel=’nofollow’.
Und die robots.txt?
Nun, die robots.txt ist auch recht hilfreich. Hier kann man nämlich mit dem Befehl disallow dem Bot sagen welche Seiten er nicht besuchen darf. Das ist sozusagen ein “Einfahrt verboten”-Schild. Der Google-Robot hält sich auch an diese Vorgaben. Die robots.txt kann auch beschleunigende Wirkung haben wenn es darum geht nicht benötigte Seiten aus dem Index zu löschen.
Hier trägt man die entsprechenden seiten oder Unterordner ein. Danach legt man sich, falls nicht bereits vorhanden, einen Google Webmaster-Account an und löscht dort die entsprechenden Unterseiten oder Ordner raus. Die sind dann im Normalfall binenn 24-72 h aus dem Index dauerhaft verschwunden.
Bei einem Kundenprojekt haben wir zur Zeit den Fall, daß er in seinem Shop rund 18.000 Produkte gelistet hat. Im Google-Index befinden sich allerding über 86.000 Seiten. Ein eindeutiges Zeichen dafür, daß sehr viel interner duplicate Content vorhanden ist. Mit den hier beschriebenen Methoden läßt sich dieser beseitigen und somit auch das Ranking des Shops nachhaltig verbessern.
Nicht mehr im Index benötigte Seiten werden per robots.txt ausgeschlossen, die Links zu diesen Unterseiten auf “Nofollow” gesetzt.
Je nach Bauart des Webprojekts sind derartige Arbeiten manchmal etwas komfortabler, manchmal etwas zeitaufwendiger auszuführen. Hilfreich und wirksam ist es auf jeden Fall. Von daher also ruhig mal schauen was sich zu den eigenen Projekten so alles findet und dann die entsprechenden Vorkehrungen treffen.
