Noindex, Nofollow und die robots.txt
Wird etwas über nofollow geschrieben, dann geht es zumeist darum, daß bei diesem oder jenem Script mal wieder standardmäßig etwas auf nofollow umgestellt wurde und schon hört man alle jammern.
Doch die nofollow-Funktion kann auch ganz nützlich sein, gerade auch wenn es darum geht Google in die richtigen Bahnen zu leiten. In Verbindung mit der robots.txt und dem Noindex-Tag kann man nämlich einiges bewirken.
Wie muß man sich das nun vorstellen?
Vergleichen wir eine mittelgroße Webseite mal mit einem Stadtplan. Es gibt unzählig viele Straßen (einzelne Unterseiten) die sich immer wieder verzweigen, teilweise zu anderen Straßen führen und so entsteht ein heilloses Wirrwarr. In manchen dieser Straßen befinden sich nur noch leerstehende Ruinen (unwichtige Unterseiten). Der Bot durchfährt nun all diese Straße und nimmt sie in seine Statistik (Googleindex) auf. Viele davon sind aber halt total unwichtig und für den Robot ist es zusätzliche Arbeit die Existenz und den Inhalt regelmäßig zu überprüfen.
Hier können wir als Verkehrsplaner (Webmaster) nun ein wenig nachhelfen. Mit entsprechenden Verkehrsschildern (Tags) sagen wir dem Bot wo er denn nun lang darf und wo nicht.
Und was soll der Bot nun sehen und indexieren dürfen und was nicht?
Nun, da ist vieles einzelfallabhängig. Grundsätzlich kann man für den Seitenbesucher eher unwichtige Unterseiten wie Impressum. Kontaktformular oder Widerrufsbelehrung einfach für den Bot sperren. Desweiteren sollte jeder Webseitenbetreiber einfach mal bei google eine Site-Abfrage mit dem Befehl
site:www.domainname.tld
machen.
Hierbei dürfte man in sehr vielen Fällen recht schnell auf Suchergebnisse stoßen die von Google als ähnlich ausgeblendet werden. In den meisten Fällen handelt es sich dabei um Unterseiten die zu starke Ähnlichkeit mit anderen Unterseiten haben. Hier sollte man dann prüfen, ob es wirklich sinnvoll ist diese Seiten im Index zu belassen oder ob man diese nicht für den Robot sperren sollte. Wenn die Seiten im Index bleiben sollen, muß man sich aber Gedanken darüber machen, wie man sie bei Google wieder einblenden kann.
Wie setzt man das ganze nun um?
Noindex: Noindex ist ein Befehl der dem Bot erlaubt sich eine Seite anzuschauen, allerdings darf er sie nicht speichern. Der entsprechende Tag wird in den Headbereich der jeweiligen Unterseite eingebaut.
Nofollow: Dieser Tag besagt, daß der Bot den auf der Seite befindlichen Links nicht folgen darf. Der Tag kann auch für einzelne Links individuell eingesetzt werden.
Das hier gezeigte Beispiel sagt dem Bot, daß er die Seite zwar besuchen, aber nicht indexieren darf. Gleichzeitig wird ihm verboten den darauf befindlichen Links zu folgen.
Bei diesem Beispiel darf der Bot die Seite zwar nicht indexieren, doch den darauf befindlichen Links darf er schon folgen.
Hier darf der Bot die Seite indexieren, er darf aber den darauf befindlichen Links nicht folgen.
Dies ist die häufigste Variante, hier darf der Bot die Seite indexieren und auch den Links folgen. Will man, daß der Bot nur einzelnen Links auf der Seite nicht folgt, dann setzt man auch diesen Meta-Befehl ein und definiert die einzelnen nicht zu folgenden Links entsprechend individuell mit rel=’nofollow’.
Und die robots.txt?
Nun, die robots.txt ist auch recht hilfreich. Hier kann man nämlich mit dem Befehl disallow dem Bot sagen welche Seiten er nicht besuchen darf. Das ist sozusagen ein “Einfahrt verboten”-Schild. Der Google-Robot hält sich auch an diese Vorgaben. Die robots.txt kann auch beschleunigende Wirkung haben wenn es darum geht nicht benötigte Seiten aus dem Index zu löschen.
Hier trägt man die entsprechenden seiten oder Unterordner ein. Danach legt man sich, falls nicht bereits vorhanden, einen Google Webmaster-Account an und löscht dort die entsprechenden Unterseiten oder Ordner raus. Die sind dann im Normalfall binenn 24-72 h aus dem Index dauerhaft verschwunden.
Bei einem Kundenprojekt haben wir zur Zeit den Fall, daß er in seinem Shop rund 18.000 Produkte gelistet hat. Im Google-Index befinden sich allerding über 86.000 Seiten. Ein eindeutiges Zeichen dafür, daß sehr viel interner duplicate Content vorhanden ist. Mit den hier beschriebenen Methoden läßt sich dieser beseitigen und somit auch das Ranking des Shops nachhaltig verbessern.
Nicht mehr im Index benötigte Seiten werden per robots.txt ausgeschlossen, die Links zu diesen Unterseiten auf “Nofollow” gesetzt.
Je nach Bauart des Webprojekts sind derartige Arbeiten manchmal etwas komfortabler, manchmal etwas zeitaufwendiger auszuführen. Hilfreich und wirksam ist es auf jeden Fall. Von daher also ruhig mal schauen was sich zu den eigenen Projekten so alles findet und dann die entsprechenden Vorkehrungen treffen.
On März 13th, 2010 at 9:31 am
Eine gute grundlegende Erklärung zum Thema. Ich frage mich allerdings, wenn es auf einer Seite solche “leerstehenden Ruinen” (unwichtige Unterseiten) gibt, warum man die dann nicht einfach nur löscht?
On März 13th, 2010 at 12:34 pm
Man muss sagen das der robots.txt Eintrag nicht unebdingt gut ist. Sind nämlich von anderen (fremden) Seiten Links auf solche per robots.txt gesperrten Seiten die dann noch mit noindex versehen sind, kann Google dieses noindex nicht “sehen” und die Seite landet doch im Index und zwar dann ohne Beschreibung was auch doof aussieht. Da gibts irgendwo auf dem Google Blog auch ein Beitrag dazu. Oft ist es am besten Google nicht auszusperren und viel mit den Tags zu arbeiten, die Du hier ja sehr schön erklärt hast.
On März 13th, 2010 at 3:03 pm
Ich mein damit auch Seiten die auch ihren “Lebenssinn” haben, aber nicht über Google gefunden werden müssen, z.B. die Loginseite um in das Backend eines Blogs zu kommen, das Kontaktfomular oder auch z.B. Unterseiten mit Produktbewertungen die durchaus auch duplicate content im Bezug zur Produktunterseite haben können. Es gibt da viele Gründe warum eine Seite zwar für Google unwichtig sein kann, aber dennoch nicht gelöscht werden kann.
On März 17th, 2010 at 2:48 pm
Mal ne Frage,
wenn ich auf jeder .html Seite im HEAD die Metanagaben
Meta-name:Robots content:noindex nofollow
mache, und dann noch zusätzlich eine robots.txt ebenfalls mit dem Verbot erstellen, funktioniert dann das Ganz? Oder hebt das eine Verbot das andere Verbot auf?
On März 17th, 2010 at 2:55 pm
Also aufgehoben werden würde da nichts, und ich glaub das ist die allersicherste Methode etwas NICHT in den Index zu bekommen.
On März 21st, 2010 at 10:54 am
Ich habe damit auch schon mal rumprobiert.
Unterseiten wie “agb” oder “Impressum” habe ich mit nofollow verlinkt und auch in der Robots.txt ausgeschlossen. Komischerweise tauchen die Seiten irgendwann trotzdem bei google auf…
(Mal sehen ob hier mit follow verlinkt wird:)
On März 21st, 2010 at 6:07 pm
@ Buttons
nofollow entfernt keine Seiten aus dem Index oder verhindert, das die überhaupt hineinkommen.
Mit der robots.txt sollte das aber klappen.
Gruß Michael
On März 29th, 2010 at 10:12 am
Der Artikel ist auf jeden Fall sehr hilfreich. Ich wusste zwar, dass manche ihren Blog komplett auf nofollow haben, dass man das aber auch mit einzelnen Seiten machen kann, war mir neu. Beim Impressum ist es in der Tat nicht so wichtig, und da stört das nofollow wohl kaum einen Besucher, weil man da in der Regel nicht kommentieren kann, und wenn doch, dann macht das dort wohl kaum einer.
On Juni 7th, 2010 at 12:44 pm
No Follow hält leider weiterhin Einzug auf jedem Blog. Schade für die Blogger Communtiy. Schadet doch am Ende jedem Blogger….
On November 2nd, 2010 at 9:43 am
Ich danke Dir für die gute Erklärung … ich glaub ich habe es verstanden
werd gleich mal mein Impressum auf now Follow setzen bzw. es versuchen …