Vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire. Mais saviez-vous que ce système permet de manière astucieuse de numériser des milliers de livres papier grâce à votre propre contribution ? En effet, sur les 2 mots que vous tapez, un seul est connu et vérifié.
L'autre n'est pas connu, mais en le proposant à des centaines d'internautes différents et en ayant toujours la même réponse de leur part, le système sait alors que l'association entre ce qui a été scanné et ce qui a été tapé par les internautes est correct. Et voilà comment on arrive à numériser des milliers d'ouvrages avec un système antispam ! L'OCR (système de reconnaissance des caractères automatique par informatique) n'est aujourd'hui pas assez au point pour être suffisamment fiable. En utilisant le cerveau humain, on arrive à de bien meilleurs résultats. Le slogan de la société (qui a été rachetée par Google) incarne bien le fonctionnement de ce système : "stop spam, read books".
Commentaires préférés (3)
Ça a l'air intéressant mais j'ai rien compris...
Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris !
C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).
Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.
L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.
Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Tous les commentaires (107)
Super l'info !
C'est la folie et vraiment très intelligent !
C'est super
Etonnant, fallait vraiment y penser.
J ai pas compris le principe du deuxième mot...
On est toute une armée de cobaye informatique! :o))
Ça a l'air intéressant mais j'ai rien compris...
Moomin: en fait, chacun de nous apprend à la machine à reconnaitre des lettres manuscrites. Comme ça, les manuscrits peuvent être numérisés de façon plus efficace.
Et c'est quoi ce premier mots
Ce que je trouve énorme... C qu'il y a un mec qui a eu l'idée de ça. Y'a vraiment des mecs Qui se creusent les méninges...
Ce quil me fait rire cest que ce systeme est concut a la base pour etre sur qune personne est sur le pc alors que pleins de logiciels automatises decrypte et inscrivent ces lettres a notre place de nos jours. Donc en resultat cest linformatique qui verifie lexactitudes des lettres pour ces livres que linformatique a numerise auparavant. Ou va le monde ...
Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris !
On devrait demander a être payé! Non mais on bosse gratis a l'insue de notre plein gré? Et les bouquins scannés, ils sont pas payant quand même? :)
G strictement rien compris!! Pourtant g relu deux fois
C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).
Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.
L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.
Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
Trop bien.
Vb 73, merci pour tes explications car c'était pas très clair en effet. (je n'avais pas saisit qu'il s'agissait de la succession de lettres que tu dois reconnaitre à la fin d'un formulaire Internet... En effet parfois ça forme un mot ! Mais pas toujours cependant.)
Voilà qui explique pourquoi parfois j'ai remarqué parfois qu'en écrivant n'importe quoi ou en faisant une faute de frappe sur le deuxième mot ça marche quand même...
En tout cas super bien vu comme système.
Cela forme pratiquement toujours un mot, seulement considère le fait qu'il s'agit souvent d'ouvrages manuscrits anciens, et que les langues évoluent...
C en kele langue ????