An dieser Stelle möchte ich in eigener Sache kurz beschreiben an welchen Ecken wir momentan auf reticon arbeiten, vielleicht hilft es ja auch dem einen oder anderen Webmenschen. Schwerpunkt sind momentan die Vermeidung von "duplicate content".
Hintergrund ist die im Web an sehr vielen Ecken zu findende Diskussion, dass so genannter mehrfach vorhandener Content (im Suchmaschinen-Jargon duplicate content genannt) zu einer Abwertung bei Suchmaschinen führen kann.
Bisher hatten wir das Thema mehr oder weniger ignoriert, zusammen mit unserem Hausinformatiker Roger Sennert bin ich in den letzten Wochen das Thema einmal strukturiert angegangen.
Wir sind ziemlich schnell auf viel "duplicate content" gestoßen.
Erster Fall: Mehrere Domains
Wir haben mehrer Domains registriert, die auf den Content unter reticon.de gehen, so z.B. reticon.org, reticon.info aber auch aus alten Projekten noch URLs wie z.B. kursbegleitung.de
Was macht Google eigentlich damit - nach unserer Einschätzung kann das durchaus als duplicate Content gewertet werden, es erfolgte bisher kein redirect, man landet zwar auf dem selben Server, jedoch wurde die URL z.B. in der Adresszeile separat geführt.
Beispiel:
http://www.reticon.de/news/1172.html und http://www.reticon.org/news/1172.html hatten exakt denselben Inhalt.
Unsere technische Lösung
Wir haben nun Regeln geschrieben, die mittels eines 301 einen redirect Anfragen auf z.B. reticon.org auf die reticon.de-Adresse umleiten. Ein "301" ist eine permanente Weiterleitung im Header, d.h. eine Suchmaschine wird damit dauerhaft auf die .de Adresse umgeleitet (Google empfiehlt beispielsweise diese Vorgehensweise - im Unterschied zu einem 302-Redirect, der ist nur temporär). Diese redirects kann man sehr einfach und bequem in der .htaccess machen:
RewriteCond %{HTTP_HOST} !^www.reticon.de$
RewriteRule ^(.*)$ http://www.reticon.de/$1 [L,R=301]
Lösung bildhaft gesprochen
Trifft Google im Web auf eine Internetseite, die auf die Webseite http://www.reticon.org/news/1172.html verweist, dann folgt der Google-Bot meist diesem Link und ruft ihn auf. Der reticon-Webserver beantwortet die Anfrage "Ich hätte gerne den Inhalt zu reticon.org/...." mit der Antwort "Kein Problem, der Inhalt ist allerdings umgezogen, bitte die Adresse http://www.reticon.de/news/1172.html merken").
Zweiter Fall: Alte Aufrufe über index.php?xy=
Auf Grund von Umstellungen, die wir for längerer Zeit gemacht haben, gibt es noch viele alte Verlinkungen im Web. In den Kindertagen von reticon konnte man noch www.reticon.de/index.php?xy= aufrufen und landete dann passend in den Bereichen (z.B. News, Medientipps etc.). Das sieht nicht schön aus, kann sich keiner merken und Suchmaschinen liebten es noch nie. Daher gingen wir dazu über mittels mod_rewrite die URLs umzuschreiben, so dass so schöne Dinge wie www.reticon.de/news.html herauskommen.
Problem ist, dass die alten Verlinkungen noch funktionieren (was wir natürlich wollen, ganz klar), aber gleichzeitig die Gefahr besteht, dass das wieder "duplicate Content" ist, da derselbe Inhalt unter verschiedenen Adressen angeboten wird.
Lösung
Die Lösung war recht arbeitsintensiv. Wir fangen jetzt alle "alten Aufrufe" ab und machen wiederum einen 301-redirect auf die heute gültige URL. Diese redirects erfolgen dann in php und nicht in der .htaccess.
Dritter Fall: robots.txt
Nur am Rand wird es sich hierbei um duplicate Content handeln. Aber weil wir schon einmal dabei waren, haben wir dann auch unsere robots.txt auf den aktuellen Stand gebracht. Die Datei robots.txt sagt einem Suchmaschinen-Roboter, was er auf einer Internetseite sehen darf und was nicht. Es gehört zum guten Stil, dass sich die Suchmaschinenbetreiber daran halten
Vielfach wird immer noch gedacht: Wozu denn eine robots.txt, Google kann doch ruhig alles sehen, doch dem ist nicht so. Matt Cutts (SEO bei Google) berichtete beispielsweise in seinem Blog, dass Google einmal erwogen hat, alle Webseiten mit einer ungültigen robots.txt "rauszuwerfen". Man rückte davon ab, da schlicht 70% der Seiten keine gültige robots.txt hatten.
Was machen wir auf reticon in der robots.txt?
Der Google-Roboter macht bei uns ca. 30 Prozent des Gesamt-Traffics der Internetseite aus, daher liegt es in unserem Interesse ihm unnötige Arbeit zu ersparen. Unnötige Arbeit ist z.B. bei uns die Indizierung der Print-Seiten und der PDF-Generierung. Da gibt es keinen neuen Inhalt, sondern es wird nur die aktuelle Seite z.B. mit geänderten CSS-Einstellungen aufgerufen - für Google nichts neues dabei.
Und so haben wir in der robots.txt definiert, dass Suchmaschinen z.B. die Seiten unterhalb von www.reticon.de/print/... ignorieren soll. Unsere hausinterne Suche sollen Suchmaschinen auch nicht bedienen, also findet sich in der robots.txt die Zeile: Disallow: /suche.html
In diesem Zusammenhang: Wer den Dienst Google-Sitemaps nutzt, dort gibt es seit kurzer Zeit die Möglichkeit eine robots.txt auszuprobieren, ehe man sie live einspielt. Denn eine falsche robots.txt hat natürlich ganz schnell das Gegenteil bewirkt und sperrt vielleicht Suchmaschinen aus den falschen Bereichen aus.
Ob uns das etwas beim Suchmaschinen-Ranking bringt?
Keine Ahnung wie stark sich so etwas auswirkt. Uns ist das auch einigermaßen egal. Den Vorteil sehe ich in erster Linie für uns und die Leser von reticon. Größtmögliche Einheitlichkeit und Struktur (eben auch in den URLs). Wenn das eine Suchmaschine gut findet, ist das ein sehr schöner Nebeneffekt. Vielleicht kann man es so sehen, dass die ganzen Suchmaschinen-Diskussionen uns dazu bewegt haben, sich damit auseinanderzusetzen, ich hätte es sonst vielleicht noch länger vor mir hergeschoben.
Letzte Anmerkung am Rande - Duplicate Content und PR-Meldungen
Interessant dürfte die Frage sein, wie Google mit Seiten umgeht, die einfach PR-Meldungen aufnehmen und dann 1:1 abbilden. Dem Leser bringt das nicht so viel und eine Suchmaschine "kennt" den Content aller Wahrscheinlichkeit vom früher erschienenen Original. Die Vermutung liegt nahe, dass das "duplicate Content" ist und abgewertet wird.
Nachfolgend eine Übersicht an Links, die wir als hilfreich bei unseren Optimierungen fanden:
Informationen zum Artikel