Sicherlich sind Ihnen Captchas schon auf vielen Internetseiten begegnet - ein Bild mit etwas schwierig zu lesenden Zeichen, die Sie abtippen müssen, beispielsweise ehe Sie einen Kommentar auf einer Webseite hinterlassen. reticon unterstützt seit heute Recaptcha, ein Projekt der Carnegie Mellon University, das mittels Captchas Bücher digitalisiert.
Captchas sind in erster Linie eine Reaktion auf automatisierte Spam. Wenn Sie ein Formular ins Internet stellen, dessen Inhalt einfach durch Abschicken auf einer Seite ohne weitere Kontrolle publiziert wird, kreisen sofort die Spammer. Deren Ziel ist simpel - möglichst oft ihre Links und Texte hinterlassen. Die Kommentarfunktion von Webseiten und Blogs ist ein beliebtes Angriffsziel. Dabei füllt der Spammer natürlich nicht per Hand das Formular aus und schickt es ab - er versucht diesen Prozess zu automatisieren, um möglichst schnell seine Botschaft unter viele Artikel packen zu können.
Was kann man dagegen tun?
Grundsätzlich gibt es zwei Möglichkeiten: Variante 1: Sie fangen an, alle Kommentare zu moderieren und schalten diese erst nach Begutachtung frei. Das verlangsamt den Prozess und zwingt den Seitenbetreibern viel Arbeit auf. Variante zwei: Sie versuchen zwischen Menschen und Maschinen zu unterscheiden. Das Problem sind zuerst einmal die Maschinen - die sollen nicht kommentieren können, damit erlegt man ca. 90 Prozent des Spams.
Doch wie eine Maschine erkennen?
Die Lösung sind momentan Captachas, das sind Aufgaben, an denen heute ein Computer scheitert und die ein Mensch noch ohne viel Aufwand erledigen kann. So kann ein Computer selbst mittels Texterkennung nur schwer Text auf quergestreiften Bildern lesen etc. - und so sind die meisten Captchas heute schwierig zu lesende Bilder.
Warum jetzt ReCaptcha?
Bisher haben wir sinnlose Zahlen- und Buchstabenkombinationen generiert und um zu Kommentieren mussten diese korrekt abgetippt werden. Angeblich werden täglich 60 Millionen dieser sinnlosen Kombinationen weltweit eingegeben. Das Projekt ReCaptcha der Carnegie Mellon University bietet nun ein kostenloses Plugin mit dem die zu entziffernden Textstellen quasi frei Haus geliefert werden. Und es handelt sich nicht um sinnlosen Text sondern um Wörter, die im Rahmen des Digitalisierungsprojektes des Internet Archives nicht durch Texterkennungssoftware gelesen werden konnten. Diese Wörter liegen als Bilddaten vor und die Texterkennung scheiterte - nun soll der Mensch helfen.
ReCaptcha sammelt nun die Schreibweisen und ab einer gewissen Häufigkeit wird diese dann als die korrekte Variante angenommen.
Im ersten Augenblick taucht die Frage auf, wie denn ReCaptcha die Korrektheit des Abtippens überprüfen will - das Ergebnis liegt doch noch gar nicht vor. Stimmt, jedoch gilt es immer zwei Wörter einzugeben, für eines ist die Schreibung schon bekannt. Schreibt man dieses richtig, nimmt ReCaptcha die Schreibung des unbekannten Wortes als Vorschlag auf.
Wir finden eine nette Idee - und wir springen ja nicht immer auf jeden Zug auf.
ReCaptcha ist gut dokumentiert, es gibt Plugins für viele Blog-Systeme und auch APIs, um es in eigene Anwendungen zu integrieren. Zur Nutzung ist eine Registrierung erforderlich - man muss sich die Server-URLs freischalten, auf denen man ReCaptcha nutzen möchte. Die Zahl hier ist bis jetzt nicht begrenzt. Man erhält einen Private und einen Public-Key pro Domain, die auf den eigenen Seiten gesetzt werden müssen.
Kleiner Tipp für Entwickler: Wer zu Hause lokal testet - man kann sich auch die IP-Adresse schalten lassen und hier funktionieren auch private IP-Adressbereiche (z.B. 192.168.x.x)
Weitere Informationen unter: http://recaptcha.net
Informationen zum Artikel