10 Segundos, 1 Captcha, 2 millones y medio de libros

El 77% de los españoles son usuarios de Internet y se han topado alguna vez con un CAPTCHA mientras navegaban por la red.  recaptcha donosTIK servicios de social media, donostia san sebastián

CAPTCHA es un test controlado por una máquina para diferenciar programas informáticos de humanos mediante diferentes textos que los humanos pueden describir frente a las máquinas que no pueden. Así lo que se consigue es proteger a las páginas web de los mensajes masivos o spam. Pero, teniendo en cuenta la fuerza que el Big Data está teniendo hoy en día y su crecimiento exponencial, Luis Von Ahn (creador de CAPTCHA) desarrolló más la idea y crearon reCAPTCHA. Un avance del anterior sistema que Google compró en 2009, un año y medio más tarde.

El objetivo de este nuevo sistema es, a parte de tener el uso que tenía la versión vieja, facilitar una ayuda para la digitalización de textos y la mejora de los mapas. Pero, ¿cómo empezó todo esto?

Aproximadamente, son 200 millones de CAPTCHAS los que se teclean diariamente por gente de todo el mundo. Teniendo en cuenta que esa gente tarda alrededor de 10 segundos en teclear un CAPTCHA, se estarían gastando 500.000 horas diarias tecleando los CAPTCHAs. ¿Por qué no darle un buen uso a esos 10 segundos que pasamos delante de la pantalla tecleando algo que nos resulta molesto?

Cuando un ordenador trata de digitalizar un libro lo hace mediante una tecnología llamada OCR (Reconocimiento Óptico de Caracteres). OCR es un proceso que está dirigido a la digitalización de textos que se identifican automáticamente a partir de una imagen que pertenece a un determinado alfabeto para luego almacenarlos en forma de datos. Por tanto, el sistema saca una foto de cada texto que aparece en el libro e intenta resolver lo que pone en dicho texto. Sin embargo, esta tecnología no es perfecta y es por ello que hay veces en las que el ordenador no puede resolver todos los textos que aparecen en un libro. Por tanto, el nuevo CAPTCHA, presenta a los usuarios aquellas partes de los libros que la tecnología no puede leer con el fin de agilizar la digitalización de dichos libros.

¿Cómo lo presenta? Es muy sencillo, el sistema presenta dos CAPTCHAs al usuario, uno que el sistema no ha reconocido y otro que sí lo ha hecho. Por un lado, el primero es presentado a 10 usuarios diferentes para poder asegurar que lo que se teclea es correcto ya que se da por hecho que la mayoría de esos usuarios lo realizarán bien. Por otro lado, el sistema presenta un CAPTCHA que ha conseguido descifrar para confirmar que realmente lo tecleado en el anterior es correcto ya que se sobreentiende de que las probabilidades de que un usuario falle en un CAPTCHA son mínimas. Así, el sistema consigue ir descifrando los textos gracias a la sociedad e ir digitalizando por completo hasta dos millones y medio de libros al año. Y todo esto, realizando una acción que a nosotros nos lleva tan solo 10 segundos. Considero que este avance en el sistema es un claro ejemplo de cómo poniendo toda la sociedad de nuestra parte, con una mínima acción, podemos ayudar a realizar algo mejor para la sociedad. Con este método, conseguimos preservar libros antiguos sin que se destrocen y facilitamos el acceso a gran parte de los libros que existen a todo el público. Donostik social media, servicios de communtiy manager, paginas web, SEO, donostia san sebastián

A partir de ahora, ¿seremos capaces de mirar los CAPTCHA con otros ojos? O ¿seguiremos pensando que es aburrido encontrar tanto CAPTCHA por la red?