Procesamiento de imágenes
¿Qué te parecen las imágenes que te muestro en pantalla? ¿Qué opinión te merecen? ¿Cuál es la primera pregunta que te viene a la mente sobre ellas? ¿Con qué cámara fotográfica se tomaron? ¿Quién las tomó? ¿Quiénes son?
Quizás a algunos no les sorprenda mi respuesta pero estas imágenes no son personas reales y no son fotografías… son imágenes creadas por inteligencia artificial y puedes tú mismo encontrar muchas imágenes parecidas entrando a thispersondoesnotexist.com donde encontrarás imágenes creadas durante el 2019.
Lo que se utiliza para crearlas se llama: Red generativa antagónica (GAN por sus siglas en inglés, Generative adversarial network). Se trata de dos modelos que compiten uno con otro, uno funciona como el artista y crea imágenes fotorrealistas y el otro es un crítico y su trabajo es identificar las que no salieron bien.
Quiero que observes algunos detalles impresionantes de estas imágenes, por ejemplo detalles de la piel como pequeñas arrugas, los juegos de luz y sombra tanto en la cara como en el cabello… y ah… caray… ¿qué será eso?
Bueno, pues resulta que esta es una de las curiosidades de las imágenes generadas. Por un lado le podemos comparar con un artista humano adulto de habilidades impresionantes y por el otro, comete errores que difícilmente un humano adulto cometería aunque no tuviera habilidades para dibujar…
En este caso particular lo que sucede es que el modelo se confundió por una muestra de datos que contenía rostros múltiples en las imágenes. La gran mayoría de los datos con los que se entrenó el modelo eran imágenes reales: retratos de una sola persona regularmente al centro de la fotografía, pero también se le mostraron imágenes con rostros múltiples y cuando intenta poner varios rostros, de repente lo que nos muestra son errores que… uno podría llamar hasta filosóficos…
Esta es una manera muy gráfica de ubicar en dónde nos encontramos en este momento en temas de inteligencia artificial, por un lado puede dar resultados impresionantes y por el otro y al mismo tiempo, puede sorprenderte los errores porque son errores que probablemente un humano no cometería…
La historia de cómo se llegó a este nivel de avance es relativamente reciente.
En el 2006, Fei-Fei Li, profesora de la Universidad de Illinois Urbana-Champaign tuvo la idea de construir un juego de datos enorme, literal con el objetivo de mapear todo el mundo de objetos. Este juego de datos se presenta en el 2009 como un póster científico. En el 2010 comenzó a utilizarse este set enorme de objetos para un concurso para ver qué algoritmos identificaban mejor diversos objetos del set.
En cambio una computadora ve pixeles… distintos conjuntos de pixeles, con distintas tonalidades de luz y ángulos específicos…
Para que pueda llegar una computadora a decir “ah, todos estos son gatos aunque son imágenes distintas”, debes presentarle muchas imágenes de gatos con n variaciones distintas de forma que pueda llegar a construir su propio set de identificación. Y así con cada tipo de objeto…
El concurso de algoritmos existió de 2010 a 2017, en este último año, el algoritmo ganador llegó a ser calificado como un mejor clasificador que un humano promedio. Este evento se considera el principal catalizador que derivó en la mejora de los procesos de visión computarizada.
En el 2010 probablemente recuerden que aparece el reconocimiento de rostros en Facebook.
Por cuestiones de tiempo, este debe ser un resumen bastante simplificado y saltaré hasta el 2014, cuando aparece justamente la Red Generativa Antagónica que crea las imágenes fotorrealistas que te he mostrado en este video… por el lado de aplicaciones cotidianas, en el 2020 ya tuvimos coches en la calle que se conducían por sí mismos usando visión computarizada.
Sin embargo, además de los fallos catastróficos que ya te mostré, hay debates delicados en ciertos temas como el uso de la tecnología para reconocimiento de rostros en sistemas de vigilancia públicos. Por un lado porque en el pasado se han exhibido igualmente fallos catastróficos de la tecnología, sobretodo en el caso de ciertas minorías, y por el otro porque es un tema serio de invasión de la privacidad. Desde quién o quiénes oficialmente, manejarán los datos de qué persona se encuentra dónde, en qué momento y para qué… hasta el tema de la propia seguridad de mantener esa información controlada.
De hecho sólo para dejarte un referente adicional de esto de los fallos catastróficos que se han encontrado, en el 2015 Google enfrentó un gran problema porque había personas que su sistema etiquetaba no como humanos sino como “gorilas”… seguro se imaginarán el nivel de indignación que esto implicó entonces.. .y todavía encontré un artículo del 2018 en donde muestran que en lugar de arreglar “el fallo”, simplemente quitaron la etiqueta de gorilas como una forma posible de identificar gente…
Lenguaje natural
En el 2010 la lingüística computacional se parecía mucho a lo que aprendemos de gramática en la escuela. Estos son verbos, estos son objetos, en el enunciado estos son cláusulas…
En el 2011 se empieza a hacer estadística en el lenguaje escrito, una de las formas en que esto se aprecia aún hoy es en las famosas nubes de palabras.
En el 2013 aparecen redes neuronales recurrentes que podían escribir cosas surrealistas sin sentido pero gramaticalmente correctas.
También aquí estoy simplificando mucho el resumen y salto hasta el 2018, año en que se trabaja con una arquitectura enorme, del tamaño que sólo Google podría tener: entrenaron computadoras a partir de una colección masiva de libros de texto. El acercamiento que tomaron fue muy distinto al gramatical.
Era como un juego de llenar las palabras perdidas. Tomaban texto, ocultaban 15% de las palabras y esperaban a que el modelo adivinara correctamente las palabras faltantes. Si le enseñas al modelo estadístico suficiente datos -del tamaño de esta red neural, enorme-… finalmente le estás enseñando a producir lenguaje, aún sin explicarlas reglas gramaticales… este sistema se llamaba BERT y de él se desprenden distintas variaciones para apliaciones específicas..
En el 2019 llega el modelo GPT-2, al cual si le muestras un texto empezado que incluya suficientes ideas… lo puede continuar por sí mismo. La evolución de este sistema se llama GPT-3 y se anunció en mayo de este mismo año. Textos producidos por GPT-3 han sido publicados en revistas comerciales como este que te muestro en pantalla…
En general los textos que GPT-3 crea son textos gramaticalmente correctos que podríamos calificar como del mismo nivel de complejidad que un ensayo de un estudiante de preparatoria. Aunque de manera análoga a las imágenes fotorrealistas, cuando le haces preguntas lógicas a GPT-3 puedes encontrar errores catastróficos también.
En este momento, la inteligencia artificial no podría quitarle el trabajo a un reportero creando artículos… lo que sí puede hacer y hay quienes le han entrenado a hacer, es leer artículos y a partir de ellos mostrarte un resumen. Esto tiene aplicaciones prácticas interesantes como este sitio que te muestro que analiza distintas publicaciones sobre la enfermedad de moda y te indica además cuáles están siendo más comentadas.
Reconocimiento de voz
En el tema de reconocimiento de voz los primeros esfuerzos iniciaron en la década de los 50’s… logrando que un equipo de los laboratorios Bell pudiera identificar números. Para cuando llegamos a la década de los 80s no sólo se podían reconocer ya miles de palabras, sino que un método estadístico llamado el modelo escondido de Markov estimaba la probabilidad de que un sonido desconocido fuera una palabra. En el 2001 Google lanza su búsqueda por voz con lo cual colecta datos de billones de búsquedas por voz que después eran corregidas o refinadas por el propio usuario. A partir de la década del 2010 las grandes compañías, Microsoft, Google, IBM… se pusieron serias en la competencia del máximo nivel de precisión en ese tema.
Actualmente estas tecnologías son mucho mejores para reconocer palabras en inglés que en cualquier otro idioma y también tienen mayores problemas para identificar voces de mujeres, minorías y acentos regionales…
De acuerdo a una investigación realizada por el Departamento de Lingüística de la Universidad de Washington, en el 2017 la diferencia de precisión entre hombres y mujeres blancos hablando inglés podía ser de hasta el 13%.
El otro día alguien me platicaba que cuando le pidió la fecha a Alexa (date en inglés) le respondió que sí, si saldría en una cita con él, lo cual ejemplifica un problema que aún llegan a tener estos sistemas, puesto que una misma palabra puede tener dos sentidos distintos…y espero que Alexa no cause muchos problemas conyugales por ser coqueta…
Regresando a la pregunta inicial: ¿estamos lejos de que la inteligencia artificial nos deje sin trabajo? Especialmente el procesamiento de imágenes y el lenguaje natural han avanzado más en los últimos 10 años que nunca en la historia. Hoy la respuesta es no, no nos dejarían desempleados… pero sí pueden seguirse entrenando para hacer actividades específicas que reduzcan tareas como hacer resúmenes de una inmensa fuente de información… a menos claro que ese sea justamente tu trabajo, entonces… sí, yo diría que este es un buen momento para buscar otra cosa qué dedicarte.
Si quieres aprender sobre inteligencia humana, ve a esta otra publicación.
Referencias
Bajorek, J. P. (2019, May 10). Voice Recognition Still Has Significant Race and Gender Biases. Retrieved from https://hbr.org/2019/05/voice-recognition-still-has-significant-race-and-gender-biases
GPT-3. (2020, September 08). A robot wrote this entire article. Are you scared yet, human? | GPT-3. Retrieved from https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3
Generative adversarial network. (2020, September 29). Retrieved from https://en.wikipedia.org/wiki/Generative_adversarial_network
Gershgorn, D. (2017, July 26). The data that transformed AI research-and possibly the world. Retrieved from https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/
OpenAI. (2020, September 25). Retrieved from https://en.wikipedia.org/wiki/OpenAI#GPT-2
Simonite, T. (2018, November 20). When It Comes to Gorillas, Google Photos Remains Blind. Retrieved from https://www.wired.com/story/when-it-comes-to-gorillas-google-photos-remains-blind/
A brief history of speech recognition. (n.d.). Retrieved from https://sonix.ai/history-of-speech-recognition
Tatma, Rachael; Gender and Dialect Bias in YouTube’s Automatic Captions; Proceedings of the First Workshop on Ethics in Natural Language Processing, pages 53–59, Valencia, Spain, April 4th, 2017. c 2017 Association for Computational Linguistics. Retreived from http://www.ethicsinnlp.org/workshop/pdf/EthNLP06.pdf
Imágenes con licencia CC usadas
Gorirla Kibo by to.wi; https://www.flickr.com/photos/w-tommerdich/8838616442
Wordle By MCruz (WMF) – Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=39077155
Cat By Ugrashak – Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=77595396
Un comentario sobre “¿La inteligencia artificial nos robará el empleo?”