Kontakt  Presse  reticon-Redakteure   Impressum   Datenschutz  
reticon Bildung und Neue Medien
reticon - Bildung und Neue Medien

Google Sitemaps - ein kurzer Erfahrungsbericht (Update)

Logo: Google

Google Sitemaps - ein kurzer Erfahrungsbericht (Update)

06.06.2005, (MR)

Seit kurzem ist mit Google-Sitemaps ein für "Webadministratoren" interessanter Dienst im Beta-Stadium angekommen. Google-Sitemaps soll eine zusätzliche Möglichkeit sein, um Webseiten des eigenen Angebots durch Google erfassen zu lassen.
-- Der Artikel wurde am 06.06.2005 um 17:15 aktualisiert. Sie finden weiter unten eine markierte Ergänzung mit weiteren Tools --

Warum?
Stellt sich zuerst einmal die Frage: Warum ist das denn notwendig/sinnvoll? Die klassische Erfassungstechnik von Google besteht in sogenannten Crawlern oder Robots. Das sind kleine Programme, die sich eigenständig durch das Netz wühlen und Webseiten erfassen. Sie folgen wie Spinnen den verbindenden Fäden zwischen Webseiten - klarer ausgedrückt, sie folgen den Hyperlinks einer Webseite.
"Na dann ist doch alles gut!", könnte man sagen - ist es aber nicht. Die Robots von Google erfassen nämlich viele Dinge nicht. Wer in seinem Angebot immer noch auf Frames setzt, hat schon einmal ein grundsätzliches Problem. Und Webangebote, die auf Datenbanken setzen haben unter Umständen auch ein Problem: Sobald Links zusätzlich Variablen mit übergeben also z.B. auf Seiten wie index.php?cat=news&id=123 verweisen, sinkt die Wahrscheinlichkeit dramatisch, dass ein Robot diesem Link folgt. Er hat einfach "Angst", sich in einem Datenbankdickicht zu verirren.

Google-Sitemaps
Eine Erweiterung bietet nun Google-Sitemaps.
Ein kleines Achtung: Die nachfolgende News ist eher "technischer Natur" und weniger pädagogisch. Aber sie zeigt auch, womit sich heute durchaus ein Pädagoge auseinandersetzen muss, wenn er eine Internetseite betreibt.
Hier hinterlegt man für einen Google-Robot quasi eine Liste der in dem Angebot verfügbaren Webseiten. Google setzt hierbei auf ein XML-Format, das die notwendigen Informationen erhält. Die Definitionen sind im Sitemap protocol nachzulesen. Das ganze sieht dann z.B. so aus:
Die Liste setzt sich dann für alle Einzelseiten fort. Soweit erst einmal zum Aufbau.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
   <url>
      <loc>http://www.reticon.de/</loc>
      <lastmod>2005-01-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>
</urlset>

Praktische Lösung für große Seiten?
Ich höre schon die Kommentare, dass das für eine Internetseite mit 10 Unterseiten ja noch gehen mag, aber von Hand für eine große Seite? Stimmt, ganz genau - und auch dafür gibt es eine Lösung. Es gibt ein kostenloses OpenSource-Projekt auf das Google setzt. Dieses kleine Python-Programm generiert automatisch die XML-Datei mit allen URLs, die das eigenen Angebot enthält.
Der Trick besteht darin, dass das Programm die Logfiles des Webservers auswertet und alle URLs der eigenen Domain, die es dort findet, automatisch in die XML-Struktur einträgt.

Der Sitemap-Generator
Den Sitemap-Generator gibt es kostenlos bei Sourceforge. Die Anleitung zur Benutzung ist bei Google bisher leider nur in Englisch verfügbar: Installing and Excecuting Sitemap Generator

Aber so kompliziert das ganze auch aussieht - es ist nicht so schwer und kann von Leuten, die keine Angst vor Kommandozeilen und Konfigurationsdateien haben, schnell angepasst werden.

In dem Paket liegt eine Datei example_config.xml. Diese ist zu Beginn einmal nach config.xml umzubenennen. Danach diese Datei in einem Texteditor öffnen und anpassen. Für den ersten Test reicht es die eigene Domain einzutragen (an den entsprechenden Stellen steht www.example.com - leicht zu finden). Danach gilt es den Pfad (directory) einzutragen. Das kann je nach Server unterschiedlich sein, das muss man bei der eigenen Konfiguration nachschauen.
Als Drittes muss man dem Programm sagen, wo denn die Logfiles des Webservers (meist wohl Apache) liegen - auch das ist je nach Server, verwendetem Unix/Linux unterschiedlich).

Danach kann man einen ersten Versuch starten: Ein Weg besteht darin, sich via SSH auf den eigenen Server einzuloggen, zu dem Script zu wechseln und das Script aufzurufen: python sitemap_gen.py --testing --config=config.xml
-> Wichtig: Tests unbedingt mit der Option --testing aufrufen, ansonsten schaut vielleicht kurze Zeit später schon ein Google-Bot vorbei und schaut sich die sitemap.xml an - und das will man zu diesem Zeitpunkt noch nicht.
Zuerst gilt es die Ausgaben aufmerksam zu studieren, ob irgendwelche Fehler auftreten.

Sinnvollerweise gibt man in der config.xml als Zieldatei auch eine sitemap.xml.gz an, so wird die Ausgabedatei gz-komprimiert und bleibt schön klein.
Bevor man dann richtig startet und alles an Google meldet, sollte man sich die Ausgabedatei zu Gemüte führen und nachprüfen, ob man wirklich *alle* URLs an Google übermitteln möchte. Alles was man nicht haben möchte, kann man am Ende der config.xml mit Filtern austragen (exclude). Bringt Google ja nichts die passwortgeschützten Dateien des Content Management Systems zu indizieren - da gibt es außer Fehlermeldungen nichts zu holen.

-- Update vom 06.06.2005, 17:31 --
Inzwischen gibt es einige Bewegung und viele Programmierer bieten Erweiterungen für Google-Sitemaps an. Für viele Blog-Systeme gibt es Plugins, die Sitemaps direkt unterstützen, z.B. ein Plugin für WordPress gibt es hier

Tobias Kluge von enarion.it hat eine interessante Erweiterung vorgestellt, die vielen Seitenbetreibern weiterhelfen dürfte, die kein Python zur Verfügung haben. Er hat Scripte entwickelt, die die XML-Erstellung unter PHP ermöglichen. Phpsitemap ist unter der LGPL in der Version 1.01 verfügbar:
Phpsitemap bei enarion.it

-- Ende Update --

Funktionierts?
Wir haben uns am Freitag, 03. Juni 2005, bei Google-Sitemaps registriert und nach zwei Stunden Ausprobieren eine xml-Datei erzeugt und an Google übermittelt. Es hat insofern ersteinmal funktioniert, als man bei Google die Meldungen nachverfolgen kann, ob der Robot mit der XML-Liste zurechtkam. Hier hatten wir nach wenigen Stunden ein "OK".

Der nächste Schritt ist dann, dass man die Generierung des Scripts auf dem Server in einen cron-job einträgt, oder vielleicht noch schicker in das CMS integriert (z.B. bei jeder neuen News das Script anstößt).
In den Logs haben wir seitdem ein deutlich erhöhtes Auftreten von Google-Bots. reticon war schon immer gut bei Google vertreten, weil wir die klassischen Fehler im Aufbau der Seite nach und nach beseitigt haben und damit sowohl benutzer- als auch suchmaschinenfreundlich wurden.

Ob und welche Seiten Google dann neu aufnimmt - das verrät der Dienst nicht und behält sich die Entscheidung darüber vor. So gilt es erst einmal zu beobachten, wie sich das Ganze auswirkt. Und nichtzuletzt, wie die anderen Suchmaschinen darauf reagieren.

Für Webadmins wäre es sicherlich sinnvoll, wenn andere wie Yahoo, MSN etc. auf den Zug aufspringen, damit sich ein einheitlicher Standard entwickelt, auf dass man nicht drei verschiedene Sitemaps vorhält.
Ob der Platzhirsch Google hier als Standardbetreiber fungiert, werden man sehen. Schön ist auf jeden Fall, dass die Struktur offen ist und dass es funktionierende OpenSource-Tools gibt.

Wenn Sie sich dafür interessieren:
https://www.google.com/webmasters/sitemaps

 

Informationen zum Artikel

blog comments powered by Disqus

Verwandte Reporte

RSS & Social Media

rss-Bild
rss-Bild
rss-Bild
rss-Bild

myreticon

E-Mail
Passwort Login

myreticon wird zum 30.06.2012 eingestellt, bitte sichern Sie Ihre Daten.

Infos & Hilfe | Registrieren

Kostenlose Newsletter

Wöchentliches Newsletter
Tägliche Medientipps

E-Mail:  

reticon-Quiz

Was ist Berliner Format?

Ranking von Politikern
Größe einer Zeitung
Dateityp in Word
Standard bei Bewerbungsfotos

» Alle reticon Quiz-Fragen

Sprüche & Zitate

Wenn keiner weiß, wo es langgeht, sollten alle wenigstens suchen dürfen.

Antje Vollmer