Histórico: por primera vez una inteligencia artificial superó la prueba de Turing
El popular chatbot GPT-4 logró ser confundido con un humano durante la denominada prueba de Turing.
Test de Turing
Un grupo de científicos de la Universidad de California en San Diego informó, en un artículo publicado recientemente en el servicio de preimpresión arXiv, que el popular chatbot GPT-4 logró ser confundido con un humano en más de la mitad de las conversaciones que sostuvo durante la prueba de Turing.
En 1950, el matemático e informático británico Alan Turing propuso un método de investigación para evaluar si una máquina podía mostrar un comportamiento inteligente hasta el punto de ser indistinguible del de un ser humano. Originalmente, la prueba de Turing requería tres terminales separadas físicamente. Una terminal sería operada por una computadora, mientras que las otras dos serían operadas por humanos.
La prueba
Durante la prueba, uno de los humanos haría preguntas, mientras que el otro humano y el ordenador responderían. Después de un período establecido o una cantidad de preguntas, se le pediría al interrogador que decidiera qué entrevistado era humano y cuál era una computadora.
Los autores del estudio replicaron la prueba al pedir a 500 participantes que conversaran con cuatro interlocutores diferentes: una persona real y tres sistemas de inteligencia artificial (IA). Estos sistemas fueron la herramienta de IA ELIZA, que data de la década de 1960 y se basa en respuestas preestablecidas, y los modelos de lenguaje GPT-3.5 y GPT-4, que impulsan a ChatGPT.
GPT-4 supera la prueba
Luego de mantener conversaciones por cinco minutos, se les pidió a los participantes que respondieran si estas habían sido generadas por una persona real o por una IA. En las charlas con GPT-4, alrededor del 54 % de las personas creyeron erróneamente que estaban interactuando con un interlocutor real. Por su parte, GPT-3.5 y ELIZA fueron considerados como humanos en el 50 % y 22 % de los casos, respectivamente. Mientras, el participante real fue reconocido como un ser humano en el 67 % de los casos.
Los especialistas destacaron que "los resultados proporcionan la primera demostración empírica de que cualquier sistema artificial pasa una prueba de Turing interactiva de dos jugadores" basada en la conversación. Sin embargo, reconocieron que "el razonamiento de los participantes sugiere que los factores estilísticos y socioemocionales" tienen una importante función para "aprobar la prueba de Turing", en lugar de las ideas "tradicionales de inteligencia".