reCAPTCHA : un système anti-spam qui numérise les livres

Proposé par
le

Vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire. Mais saviez-vous que ce système permet de manière astucieuse de numériser des milliers de livres papier grâce à votre propre contribution ? En effet, sur les 2 mots que vous tapez, un seul est connu et vérifié.

L'autre n'est pas connu, mais en le proposant à des centaines d'internautes différents et en ayant toujours la même réponse de leur part, le système sait alors que l'association entre ce qui a été scanné et ce qui a été tapé par les internautes est correct. Et voilà comment on arrive à numériser des milliers d'ouvrages avec un système antispam ! L'OCR (système de reconnaissance des caractères automatique par informatique) n'est aujourd'hui pas assez au point pour être suffisamment fiable. En utilisant le cerveau humain, on arrive à de bien meilleurs résultats. Le slogan de la société (qui a été rachetée par Google) incarne bien le fonctionnement de ce système : "stop spam, read books". 


Tous les commentaires (107)

Mais si c'est l'utilisateur qui fait le travail de conversion, comment savoir que ça correspond bien? C'est étrange comme histoire...

Posté le

unknown

(0)

Répondre

En fait je n'avais pas tout lu. Très intéressant alors.

Posté le

unknown

(3)

Répondre

Je trouve ce système génial.
Mais j'ai une question, si le système ne connais pas le 2ème mot, comment fait il pour savoir qu'on l'a bien taper?

Posté le

unknown

(0)

Répondre

Il sait pas mais comme il sait qu'on a déjà bien écrit le premier il peut se dire que c'est bon

Posté le

unknown

(3)

Répondre

Je ne savais pas pour les livres, bien que j'avais remarqué la slogan mais j'ai une autre info, le mot inconnu du système est toujours le 1ere, c'est pour cela qu'il suffit de taper le 2ème mot pour que votre post (message ou autre) soit envoyé ;)

Posté le

unknown

(7)

Répondre

Ce n'est pas totalement vrai ... Certaines reconnaissances ne sont pas dans ce but !

Posté le

unknown

(1)

Répondre

Toujours pas compris le rapport avec les spam_s...

Posté le

unknown

(0)

Répondre

:o Je me coucherai vraiment moins bete ce soir ! Je me disait bien que c'etait bisard car sur certains site je me trompait souvent d'une lettre ou deux et sa me validait quand meme mon message. Voila l'expliquation ! On se fait exploité par Google ! Rebellons nous internautes, desormais, ecrivons tous nimporte quoi dans les captcha pour eronner lzur données muahahaha

Posté le

unknown

(0)

Répondre

Sur les deux mots proposés par le reCAPTCHA seul est connu : cela signifie que le système est déjà certain de l'orthographe du mot. Pour le mot inconnu il suffit au système de prendre un mot que l'OCR (Optical Character Recognition) a mal retranscrit pour en valider ou en infirmer son orthographe.
Est-ce plus clair ainsi ?

Posté le

unknown

(1)

Répondre

J'ai bien compris le système. Or, un captcha cela ce crée très facilement en php. Et je ne vois pas le rapport entre tous les captcha du web et Google. Je veux dire, si je suis webmaster d'un site super connu, et que je protège l'inscription des membres par un captcha, quel rapport avec google ?

Posté le

unknown

(1)

Répondre

Ok, j'ai compris tout seul... Je ne connaissais par reCaptcha.

Posté le

unknown

(3)

Répondre

oui je confirme bien cela. dailleurs je travail ces derniers temps sur des documents ocr.

Posté le

unknown

(1)

Répondre

a écrit : J ai pas compris le principe du deuxième mot... et si le deuxième mot est voili au lieu de voilà alors que le premier mot est correct? l'etre humain va taper voili pour que sa frappe corresponde !!!!
bizarre!
ne serait-ce pas plutot la correspondance et la lisibilité des lettres scannées (et non des mots) qui est utile a la machine?

Posté le

unknown

(0)

Répondre

a écrit : Moomin: en fait, chacun de nous apprend à la machine à reconnaitre des lettres manuscrites. Comme ça, les manuscrits peuvent être numérisés de façon plus efficace. Merci d'avoir expliquer en commentaire LOL j'ai compris moi aussi grace a toi :)

Posté le

unknown

(0)

Répondre