Bücher gegen Spam

google-captcha.jpgSchon fast überall (außer bei mir - ähäm) sind sie mittlerweile Standard: Captcha-Module, die verhindern, dass automatisiert versendete Angebote zu Penisvergrößerungen, V!agra, usw. ihren Weg in´s WWW (bzw. in meine Mailbox) finden.

Hierzu wird bspw. Formularverarbeitungen ein kleine Grafik vorgeschaltet, die aus einer Buchstaben- bzw. Silbenfolge besteht, die nicht maschinenlesbar ist.

Vor der Verarbeitung der Daten muss der Benutzer nun diese Buchstabenfolge in ein Textfeld abtippen. Somit wird sichergestellt, dass die Eingaben tatsächlich von Menschenhand vorgenommen wurden und automatisierter Spam vermieden (”sinnhafte” Botschaften wie im nebenstehenden Beispiel der google-Registrierung sind dabei eher selten ;-)

Insgesamt rund 150.000 Stunden werden täglich weltweit darauf verwandt, nur um solche Captcha-Eingaben vorzunehmen. Zeit, die man eigentlich sinnvoller nutzen könnte.

Und hier kommt die Idee von “reCAPTCHA” ins Spiel. Die Anbieter des reCAPTCHA-Moduls versuchen nämlich zwei Fliegen mit einer Klappe zu schlagen:

Verwendet man auf seinen Seiten dieses spezielle Captcha-Modul (welches u.a. wohl auch bereits als Wordpress-Plugin zu haben ist), sichert man sich nicht nur gegen Spam, sondern unterstützt dabei noch die Digitalisierung von Fachliteratur.

Hintergrund des Projektes ist folgender: In mehreren Projekten wird derzeit systematisch Literatur digitalisiert, die vor der Internetzeit (= kurz nach dem Krieg ;-) entstanden ist. Leider ist die optische Erkennung der Zeichen (die sog. “OCR”, kurz für “Optical Character Recognition”) nicht so gut, als dass alle Wörter immer automatisch erkannt werden könnten.

Wird bei der automatischen Zeichenerkennung ein Wort nicht erkannt, müsste normalerweise händisch jedes einzelne Wort nachgearbeitet werden - bei den jeweiligen Mengen wäre dies ein kaum zu bewältigender Aufwand.

Mithilfe des reCAPTCHA-Projekts soll dieser Aufwand auf viele Schultern verteilt werden, ohne dass für den einzelnen ein Mehraufwand anfällt:

Wird ein Wort nicht automatisch erkannt, wird dieses Teil eines CAPTCHA-Textfragments, welches von einem Seitenbesucher eingetippt werden muss.

Nun stellt sich die Frage: Wie lässt sich denn sicherstellen, dass die Captchaeingabe eines Seitenbesuchers korrekt ist, wenn die Zeichen vorher maschinenseitig nicht erkannt werden konnten?

Zwei wesentliche Aspekte machen den Ansatz aus:

Zum einen besteht jeder reCaptcha-Text aus zwei Wortfragmenten: Einem Teil, der beim OCR-Lauf erkannt werden konnte und einem nicht identifizierbaren Teil. Man geht nun davon aus, dass wenn der Seitenbesucher den bekannten Teil korrekt angegeben hat, er auch den unbekannten richtig identifiziert hat.

Zusätzlich wird jede “bekannt - unbekannt” - Kombination mehreren Usern zur Eingabe gegeben. Erst wenn ein bestimmter Schwellenwert an Übereinstimmung überschritten wird, gilt das unbekannte Wort als identifiziert.

Coole Idee, oder?

2 Responses to “Bücher gegen Spam” »»

  1. Comment by Chris | 01/06/08 at 1:47 pm

    CAPTCHAs sind auch keine Wunderwaffe gegen Spam. Der Spammer betreibt eine kostenlose Porno-Seite, auf der man jeweils ein CAPTCHA ausfüllen muss, um an Content zu kommen. Das angezeigte CAPTCHA ist das von Deiner Seite, der Porno-User füllt also Dein CAPTCHA aus und der Spammer den Kommentar. Aber es gibt ja auch gute Nachrichten. Im Mittelalter war man sehr kreativ was das statuieren von Exempeln betraf :-)

  2. Comment by Joachim | 01/06/08 at 2:29 pm

    U R Right: Captchas sind in der Tat keine Wunderwaffe - wobei dein genanntes Beispiel schon wieder amüsant kreativ ist :-) Wie mit jeder “Sicherheitstechnologie” - ein stetiges Katz-und-Maus-Spiel.

    DIe Idee, das Captcha-Eintippern mit Buchdigitalisierung zu verbinden halte ich trotzdem für großartig…

Leave a Reply »»

FireStats icon Powered by FireStats