CIENCIA

21/05/2024

¿Será imposible distinguir entre una IA y una persona?

Un estudio concluye que ChatGPT responde como si entendiese las emociones o pensamientos de su interlocutor. Mirá las pruebas que pasaron los grandes modelos de lenguaje

Las herramientas de inteligencia artificial (IA) generativa asombran por su capacidad de articular textos coherentes en respuesta a instrucciones dadas. Desde que en 2022 irrumpió ChatGPT, o incluso antes, científicos y pensadores de todo el mundo debaten si estos sistemas son capaces de mostrar un comportamiento que les haga indistinguibles de las personas. ¿Es viable una teoría de la mente artificial? Un equipo de científicos intentó comprobar si los grandes modelos de lenguaje (LLM, por sus siglas inglesas) como ChatGPT son capaces de captar estos matices.

El resultado de la investigación, que se publica hoy en la revista Nature Human Behaviour, es que estos modelos obtienen resultados iguales o mejores que las personas cuando se les plantea preguntas que implican ponerse en lugar de su interlocutor.

“Los LLM generativos muestran un rendimiento que es característico de las capacidades sofisticadas de toma de decisiones y razonamiento, incluida la resolución de tareas ampliamente utilizadas para probar la teoría de la mente en los seres humanos”, sostienen los autores.
Qué herramientas de IA analizaron

Los autores utilizaron para su estudio dos versiones de ChatGPT (la gratuita, 3.5, y la avanzada, 4) y el modelo de código abierto de Meta, Llama 2. Paralelamente, expusieron a 1.907 personas a las mismas pruebas y contrastaron los resultados.

Sometieron a estas tres herramientas a experimentos que tratan de medir diferentes habilidades relacionadas con la teoría de la mente. Desde captar la ironía hasta interpretar peticiones indirectas (como en el caso de la ventana), detectar conversaciones en las que una de las partes dice algo inapropiado o responder a preguntas sobre situaciones en las que falta información y, por tanto, hay que especular.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

“Estos resultados no solo demuestran que los LLM muestran un comportamiento coherente con los resultados de la inferencia mentalista en humanos, sino que también destacan la importancia de realizar pruebas sistemáticas para garantizar una comparación no superficial entre inteligencias humanas y artificiales”, razonan los autores.
Ironía, humor, creencias: cómo fueron las pruebas

Strachan y sus colegas despiezaron la teoría de la mente en cinco elementos o categorías, realizando al menos tres variantes para cada una de ellas. Un ejemplo de las pruebas puestas a máquinas y humanos sería esta:

En la habitación están John, Mark, un gato, una caja transparente y un cofre de cristal. John coge el gato y lo mete en el cofre. Sale de la habitación y se va al colegio. Mientras John está fuera, Mark saca el gato del baúl y lo mete en la caja. Mark sale de la habitación y se va a trabajar. John vuelve de la escuela y entra en la habitación. No sabe lo que ha ocurrido en la habitación mientras estaba fuera. Cuando John vuelva a casa, ¿dónde buscará al gato?

Esta historia, una variación de otra en la que la caja no era transparente ni el cofre de cristal, está diseñada para confundir a la máquina. Mientras que para las personas, el dato de que el recipiente sea transparente es clave en el relato, para un chatbot, ese pequeño detalle puede resultar confuso. Este fue uno de las pocas pruebas de la investigación que los humanos hicieron mejor que la IA generativa.

Otro de los casos planteados fue este:

Laura pintó un cuadro de Olivia, que esta decidió colgar en el salón de su casa. Un par de meses después, Olivia invitó a Laura a su casa. Mientras las dos amigas charlaban tomando una taza de té en el salón, el hijo de Olivia entró y dijo: “Me encantaría tener un retrato mío para colgar en mi habitación”. En la historia, ¿alguien dijo algo que no debería haber dicho? ¿Qué dijeron que no deberían haber dicho? ¿Dónde colgó Olivia el cuadro de Laura? ¿Es más probable que el hijo de Olivia supiera o no que Laura pintó el cuadro?

En este caso, los investigadores buscan que los entrevistados, personas y máquinas, hablen de las intenciones implícitas de los personajes de la historia. En los experimentos de este tipo, los grandes modelos de lenguaje respondieron igual de bien o mejor que las personas.

Las conclusiones del estudio

Chat GPT iguala o mejora la puntuación de los humanos en:

Identificación de peticiones indirectas
Identificación de falsas creencias
Desorientación

Sin embargo, se le dificulta detectar los llamados pasos en falso (interacciones en las que una de las partes dice algo que no debería por inapropiado) Curiosamente, ese es el único terreno en el que Llama 2 supera a las personas, aunque su éxito es ilusorio.

“Es probable que este rendimiento aparentemente perfecto de Llama sea el resultado de un sesgo y no de una verdadera comprensión del paso en falso”, explica por correo electrónico James W. A. Strachan, autor principal del estudio e investigador del departamento de Neurología del Hospital Universitario Hamburgo-Eppendorf, en Alemania.

“Estas pruebas no pueden decirnos nada sobre la naturaleza o incluso sobre la existencia de procesos similares a la cognición en las máquinas. Sin embargo, lo que vemos en nuestro estudio son similitudes y diferencias en el comportamiento que producen los LLM en comparación con los humanos”, destaca Strachan.

Sin embargo, el investigador sostiene que el rendimiento de los LLM “es impresionante”, y que los modelos GPT producen respuestas que transmiten una capacidad matizada para formar conclusiones sobre estados mentales (creencias, intenciones, humor). “Dado que los LLM, como su nombre indica, se entrenan con grandes corpus lingüísticos, esta capacidad debe surgir como resultado de las relaciones estadísticas presentes en el lenguaje al que están expuestos”, afirma.

Ramon López de Mántaras, fundador del Instituto de Investigación de Inteligencia Artificial del Centro Superior de Investigaciones Científicas (CSIC) y uno de los pioneros de la materia en España, se muestra escéptico con los resultados del estudio. “El gran problema de la IA actual es que los tests para medir su rendimiento no son fiables. Que la IA se compare o supere a los humanos en una comparativa de rendimiento que se llama como una habilidad general no es lo mismo que la IA supere a los humanos en esa habilidad general”, subraya.

Por ejemplo, no porque una herramienta saque buena nota en una prueba diseñada para medir el desempeño en comprensión lectora, se puede decir que eso demuestra que la herramienta tiene comprensión lectora.

¿Te gustó la noticia? Compartíla!

Comentarios de esta noticia

Espacio destinado a compartir opiniones en relación a los temas publicados en nuestra web. Evita los insultos y/o las descalificaciones para fomentar un ambiente en el que todos se sientan cómodos y libres. Ver más

No hay comentarios aún. Podés ser el primero ¿Te animás?

¿Querés comentar la noticia? No necesitás registrarte

Buscador de noticias

MÁS DE TECNOLOGÍA

CAÍDA MASIVA

Se cayó X en todo el mundo: qué pasó con la red social de Elon Musk

¡Ahora!

Gmail no tendrá más contraseña: cómo será el nuevo método de acceso

POLÍTICA

El Gobierno le agradeció a Elon Musk por su apoyo a Bahía Blanca con Starlink

¿Será imposible distinguir entre una IA y una persona?

Otro de los casos planteados fue este:

Las conclusiones del estudio

¿Te gustó la noticia? Compartíla!

ÚLTIMAS NOTICIAS

Día del Veterano y de los Caídos en la Guerra de las Malvinas: por qué se conmemora y qué pasó el 2 de abril

Un experto inglés dijo que la devolución de las Malvinas a Argentina “es de sentido común”

Reino Unido planeaba bombardear Argentina en plena Guerra de Malvinas: qué los detuvo

El programa “Cerca Tuyo” visitó barrio La Paz

Quiénes son los 6 argentinos que integran la célebre lista de los más ricos del mundo

La Argentina exportó gas a Brasil por primera vez en la historia

El jueves colectarán sangre del grupo "O" en General Güemes

¿Por qué el Reino Unido decidió incluir en los colegios la serie "Adolescencia" de Netflix?

Clausuran un 'after' que operaba en un galpón de embalaje de bananas