Geek Content: Crowdsourcing und Buchdigitalisierung mit CAPTCHAs

CAPTCHA (Wikimedia Commons)
CAPTCHA (Wikimedia Commons)

Wer kennt sie nicht: verzerrte Buchstaben und Zahlenkombinationen vor unruhigem Hintergrund, teilweise noch mit Rechen- und Denkaufgaben verbunden. CAPTCHAs gibt es überall dort im Internet wo automatisierten Spam- und Betrugsversuchen ein Riegel vorgeschoben werden soll. Zum Beispiel kann eine Maschine schlecht auf Anhieb euer Passwort erraten, aber sie kann mit Leichtigkeit hintereinander alle Wörter eines Lexikons ausprobieren. Websites, die sich davor schützen wollen, können auf CAPTCHAs zurückgreifen. Das Akronym steht für “Completely Automated Public Turing Test To Tell Computers and Humans Apart”. CAPTCHAs beinhalten also Aufgaben, die nur von Menschen gelöst werden können, nicht aber von Maschinen. Und dazu zählt das Erkennen von fast bis zur Unkenntlichkeit verformten Buchstaben und Zahlen. Clever! Aber es geht noch cleverer.
Die Firma ReCAPTCHA (2009 aus gutem Grund von Google aufgekauft) hilft mit ihren CAPTCHAs bei der Digitalisierung von Büchern. Oder genauer gesagt: ihr helft dabei. Denn die Wörter die bei ReCAPTCHA gezeigt und abgetippt werden, stammen aus Digitalisierungsprojekten. Es sind Worte, die von den Texterkennungsprogrammen (OCR) nicht oder falsch erkannt wurden.
Beispiel eines ReCAPTCHA-Wortpaares (Wikimedia Commons)
Beispiel eines ReCAPTCHA-Wortpaares inklusive verfremdender Linie (Wikimedia Commons)

Aber wie weiß ReCAPTCHA, dass ich das Wort korrekt eingegeben habe? ReCAPTCHAs bestehen stets aus zwei Wörtern. Eines davon ist dem System bekannt, das andere nicht. Wenn das bekannte Wort von euch richtig eingegeben wird, dann registriert das System auch eure Entschlüsselung des unbekannten Wortes und speichert sie als eine wahrscheinliche Lösung ab. Je mehr Leute diese Lösung eingeben, desto vertrauenswürdiger wird sie und wird schließlich vom System akzeptiert.
Auch diese Erklärung lässt natürlich noch viele Detailragen offen, die aber auf der Homepage von ReCAPTCHA beantwortet werden.
Google scheint mittlerweile übrigens eine weitere Anwendung für ReCAPTCHAs gefunden zu haben: die Erkennung von Hausnummern aus Google Street View.
(Mit “Geek Content” bringen wir euch geekige Blogbeiträge im Rahmen unserer Veranstaltungsreihe geeks@cologne)

(ba)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert