Kontakt  Presse  reticon-Redakteure   Impressum   Datenschutz  
reticon Bildung und Neue Medien
reticon - Bildung und Neue Medien

Bücher digitalisieren mit Captchas

Screenshot reCaptcha

Bücher digitalisieren mit Captchas

30.05.2007, (MR)

Sicherlich sind Ihnen Captchas schon auf vielen Internetseiten begegnet - ein Bild mit etwas schwierig zu lesenden Zeichen, die Sie abtippen müssen, beispielsweise ehe Sie einen Kommentar auf einer Webseite hinterlassen. reticon unterstützt seit heute Recaptcha, ein Projekt der Carnegie Mellon University, das mittels Captchas Bücher digitalisiert.

Captchas sind in erster Linie eine Reaktion auf automatisierte Spam. Wenn Sie ein Formular ins Internet stellen, dessen Inhalt einfach durch Abschicken auf einer Seite ohne weitere Kontrolle publiziert wird, kreisen sofort die Spammer. Deren Ziel ist simpel - möglichst oft ihre Links und Texte hinterlassen. Die Kommentarfunktion von Webseiten und Blogs ist ein beliebtes Angriffsziel. Dabei füllt der Spammer natürlich nicht per Hand das Formular aus und schickt es ab - er versucht diesen Prozess zu automatisieren, um möglichst schnell seine Botschaft unter viele Artikel packen zu können.

Was kann man dagegen tun?
Grundsätzlich gibt es zwei Möglichkeiten: Variante 1: Sie fangen an, alle Kommentare zu moderieren und schalten diese erst nach Begutachtung frei. Das verlangsamt den Prozess und zwingt den Seitenbetreibern viel Arbeit auf. Variante zwei: Sie versuchen zwischen Menschen und Maschinen zu unterscheiden. Das Problem sind zuerst einmal die Maschinen - die sollen nicht kommentieren können, damit erlegt man ca. 90 Prozent des Spams.

Doch wie eine Maschine erkennen?
Die Lösung sind momentan Captachas, das sind Aufgaben, an denen heute ein Computer scheitert und die ein Mensch noch ohne viel Aufwand erledigen kann. So kann ein Computer selbst mittels Texterkennung nur schwer Text auf quergestreiften Bildern lesen etc. - und so sind die meisten Captchas heute schwierig zu lesende Bilder.

Warum jetzt ReCaptcha?
Bisher haben wir sinnlose Zahlen- und Buchstabenkombinationen generiert und um zu Kommentieren mussten diese korrekt abgetippt werden. Angeblich werden täglich 60 Millionen dieser sinnlosen Kombinationen weltweit eingegeben. Das Projekt ReCaptcha der Carnegie Mellon University bietet nun ein kostenloses Plugin mit dem die zu entziffernden Textstellen quasi frei Haus geliefert werden. Und es handelt sich nicht um sinnlosen Text sondern um Wörter, die im Rahmen des Digitalisierungsprojektes des Internet Archives nicht durch Texterkennungssoftware gelesen werden konnten. Diese Wörter liegen als Bilddaten vor und die Texterkennung scheiterte - nun soll der Mensch helfen.

ReCaptcha sammelt nun die Schreibweisen und ab einer gewissen Häufigkeit wird diese dann als die korrekte Variante angenommen.
Im ersten Augenblick taucht die Frage auf, wie denn ReCaptcha die Korrektheit des Abtippens überprüfen will - das Ergebnis liegt doch noch gar nicht vor. Stimmt, jedoch gilt es immer zwei Wörter einzugeben, für eines ist die Schreibung schon bekannt. Schreibt man dieses richtig, nimmt ReCaptcha die Schreibung des unbekannten Wortes als Vorschlag auf.

Wir finden eine nette Idee - und wir springen ja nicht immer auf jeden Zug auf.
ReCaptcha ist gut dokumentiert, es gibt Plugins für viele Blog-Systeme und auch APIs, um es in eigene Anwendungen zu integrieren. Zur Nutzung ist eine Registrierung erforderlich - man muss sich die Server-URLs freischalten, auf denen man ReCaptcha nutzen möchte. Die Zahl hier ist bis jetzt nicht begrenzt. Man erhält einen Private und einen Public-Key pro Domain, die auf den eigenen Seiten gesetzt werden müssen.
Kleiner Tipp für Entwickler: Wer zu Hause lokal testet - man kann sich auch die IP-Adresse schalten lassen und hier funktionieren auch private IP-Adressbereiche (z.B. 192.168.x.x)

Weitere Informationen unter: http://recaptcha.net

 

Informationen zum Artikel

blog comments powered by Disqus

Verwandte News

  • Keine verwandten News gefunden.

Verwandte Reporte

  • Keine verwandten Reporte gefunden.

RSS & Social Media

rss-Bild
rss-Bild
rss-Bild
rss-Bild

myreticon

E-Mail
Passwort Login

myreticon wird zum 30.06.2012 eingestellt, bitte sichern Sie Ihre Daten.

Infos & Hilfe | Registrieren

Kostenlose Newsletter

Wöchentliches Newsletter
Tägliche Medientipps

E-Mail:  

reticon-Quiz

Was tut ein Mensch, der der Tetrapilotomie frönt?

Er schnitzt Schlitten mit vier Kufen.
Er spielt gern Flugsimulator.
Er betreibt Haarspalterei.
Er baut viereckige Türme.

» Alle reticon Quiz-Fragen

Sprüche & Zitate

Oper ist, wenn er raufsingt, dass sie runterkommen soll.

Eckehard Henscheid