Digitalizar libros con la ayuda de millones de personas en todo el mundo

Encontr√© este episodio de video podcast de WBS Science de PBS con Luis von Ahn, el tipo que se le ocurri√≥ “Captcha”, esas palabras de aspecto borroso que tienes que ingresar en sitios web a veces como prueba de que eres humano.

captchausage.jpg

“Captcha” se desarroll√≥ para evitar la automatizaci√≥n (generalmente mediante secuencias de comandos) de un proceso, como la creaci√≥n de una cuenta de usuario. Las im√°genes de “Captcha” no son legibles por las computadoras. Tampoco funciona la implementaci√≥n de tecnolog√≠as OCR (reconocimiento √≥ptico de caracteres) para identificar letras dentro de im√°genes. Para evitar que la tecnolog√≠a OCR sea efectiva es en realidad la raz√≥n por la cual las im√°genes siempre se ven tan divertidas y distorsionadas.

Luis von Ahn dijo que a un humano le toma en promedio 10 segundos resolver un captcha y que los humanos resuelven alrededor de 200 millones de rompecabezas de captcha todos los días. Se está desperdiciando mucho tiempo, porque un captcha no tiene un propósito, excepto evitar a los tramposos y spammers.

ANUNCIO

CONTINUAR LEYENDO ABAJO

Entonces, después de ser responsable de hacer que la humanidad pierda miles de horas todos los días para compensarlo desarrollando algo que tomará el tiempo dedicado al captcha y les dará un buen uso.

Probablemente haya escuchado sobre los diversos proyectos de digitalización de libros que se realizan en todo el mundo para convertir libros antiguos en formato impreso en formato digital y hacer que su contenido sea accesible en línea para los usuarios de todo el mundo, por ejemplo, el Proyecto de la Biblioteca de Libros de Google. El proyecto incluso llamó la atención del New York Times, quien informó con gran detalle sobre los esfuerzos. Otro gran proyecto es la Iniciativa de la Biblioteca Digital Universal, que cuenta con el respaldo de Microsoft entre otros actores importantes de la industria.

El problema al que se enfrentan estos y otros proyectos similares son palabras que no son muy claras (especialmente los libros m√°s antiguos tienen este problema, donde el tiempo pas√≥ factura al papel y la tinta). La tecnolog√≠a OCR de hoy no puede determinar claramente cu√°les son algunas de las palabras. Cuando las computadoras fallan, los humanos pueden resolver el problema. Bueno, el problema que tienen los proyectos de la biblioteca digital se resuelve todos los d√≠as unas 200 millones de veces por personas de todo el mundo mediante la resoluci√≥n de rompecabezas “captcha”.

ANUNCIO

CONTINUAR LEYENDO ABAJO

Ahora la gente ayuda con la conversi√≥n digital de libros identificando palabras dentro de libros escaneados que la computadora no pudo identificar. Para evitar acertijos de captacha resueltos incorrectamente para falsificar los resultados, por ejemplo, causados ‚Äč‚Äčpor intentos con gui√≥n de tramposos y spammers para evitar el chequeo de captcha, muestran dos palabras al usuario, una donde saben lo que significa y la otra de un libro donde ellos no saben el significado. Si el usuario resuelve el de la imagen donde sabe lo que significa correctamente, entonces sabe que un humano estaba resolviendo el captcha y no una computadora.

Se olvidó de mencionar cómo puede formar parte de esta iniciativa, pero parece que Luis está trabajando para Google en su proyecto de Biblioteca y otro del que hablaré en un segundo. Sugiero contactar a Google y preguntarles cómo usted, si es el desarrollador de una solución de captcha, puede formar parte de esta iniciativa y ayudar con la digitalización de libros.

Otro problema que tienen las computadoras es que est√°n haciendo un trabajo terrible al identificar objetos y sujetos en fotograf√≠as. La tecnolog√≠a mejor√≥ mucho en los √ļltimos a√Īos, pero todav√≠a est√°n lejos de que la computadora comprenda y reconozca el contenido de las im√°genes como lo hacen los humanos, lo que va mucho m√°s all√° de las propiedades simplistas como las formas y los colores. Es posible que la computadora pueda decirle que hay un rostro humano en la imagen (agregue el par√°metro “& imgtype = face” a una consulta en Google Image Search para devolver solo im√°genes con rostros humanos, por ejemplo). Puede ser capaz de decirle si es un adulto o un ni√Īo, o un hombre contra una mujer, pero es dif√≠cil determinar el estado de √°nimo expresado de una persona o el nombre y el origen de una persona.

La tecnolog√≠a de reconocimiento de im√°genes avanz√≥ mucho, pero rara vez se desarrolla lo suficientemente m√°s all√° de una etapa experimental, como el filtro de rostros humanos de Google o el reconocimiento de objetos del motor de b√ļsqueda visual Like.com de Riya.

ANUNCIO

CONTINUAR LEYENDO ABAJO

Luis introdujo un juego llamado “The ESP Game” donde los humanos describen im√°genes que el juego les muestra, usando etiquetas. Para convertir el etiquetado simple en un juego y los humanos lo juegan sin que se les pague dinero por hacerlo, agregaron un componente que no solo cre√≥ la raz√≥n para jugar, sino que tambi√©n resolvi√≥ el problema de ocultar las etiquetas falsas adjuntas a una imagen al tramposos y bromistas.

Muestran la misma imagen a dos personas que tienen que describir la imagen a trav√©s de etiquetas al mismo tiempo. Cada vez que ambas personas usan la misma palabra o frase para describir la imagen, obtienen puntos y aumentan su clasificaci√≥n. Las palabras y frases que no coinciden no se cuentan. Si dos personas diferentes que no se conocen y no pueden comunicarse entre s√≠ usan la misma palabra para describir lo que ven, es mucho m√°s probable que esta palabra sea precisa y com√ļn. Tambi√©n es dif√≠cil sesgar los resultados debido a las razones mencionadas.

ANUNCIO

CONTINUAR LEYENDO ABAJO

También mencionó algunas otras figuras interesantes que no incluí en mi publicación. Mira la grabación de video por ti mismo. Tiene solo 7 minutos de duración. Estoy seguro de que lo disfrutarás tanto como yo.

Con todas las charlas y discusiones sobre proyectos de motores de b√ļsqueda impulsados ‚Äč‚Äčpor humanos como Mahalo y Wikia Search, las personas a veces olvidan que primero debe hacer que las cosas se puedan buscar y encontrar, antes de poder establecer y crear un servicio que realice b√ļsquedas en este contenido.

¬°Salud!

Carsten Cumbrowski
Carsten es consultor de estrategia de marketing en Internet, emprendedor, blogger y comercializador de rendimiento (tambi√©n conocido como afiliado) desde principios de 2001. Adem√°s de ganarse la vida como afiliado que vende cosas de otras personas por comisi√≥n, Carsten realiza algunas consultas para ayudar a peque√Īas y grandes empresas con su estrategia y objetivos de marketing en internet. Debido a que le gusta ense√Īar (y hablar ūüôā), cre√≥ un sitio web de recursos gratuitos en Cumbrowski.com para otros vendedores de Internet como √©l y otros profesionales de marketing y aficionados.

ANUNCIO

CONTINUAR LEYENDO ABAJO