La ciencia ficción nos ha regalado innumerables ejemplos de Inteligencia Artificial (IA) rebelándose contra sus creadores humanos: HAL-9000, Matrix, Skynet, GLaDOS, Cylons… La humanidad parece tener un miedo profundo a la rebelión de las máquinas. Con el auge de Modelos Lingüísticos Grandes (LLM) cada vez más sofisticados, como Chat GPT, la pregunta sobre los peligros que la IA puede representar se ha vuelto aún más relevante.
Y ahora, tenemos buenas noticias. Según un nuevo estudio liderado por los científicos informáticos Iryna Gurevych de la Universidad Técnica de Darmstadt en Alemania y Harish Tayyar Madabushi de la Universidad de Bath en el Reino Unido, estos modelos no son capaces de volverse contra nosotros. De hecho, están demasiado limitados por su programación, incapaces de adquirir nuevas habilidades sin instrucción, y por lo tanto, permanecen bajo control humano.

Esto significa que, aunque sigue siendo posible que usemos los modelos para propósitos nefastos, los LLM en sí mismos son seguros de desarrollar sin preocupaciones. «El temor ha sido que a medida que los modelos se hacen más y más grandes, podrán resolver nuevos problemas que actualmente no podemos predecir, lo que plantea la amenaza de que estos modelos más grandes puedan adquirir habilidades peligrosas, incluyendo el razonamiento y la planificación», dice Tayyar Madabushi. «Nuestro estudio muestra que el temor de que un modelo se descontrole y haga algo completamente inesperado, innovador y potencialmente peligroso no es válido».
En los últimos años, la sofisticación de los LLM ha crecido a un ritmo sorprendente. Ahora son capaces de mantener una conversación relativamente coherente a través de texto, de una manera que parece natural y humana. No son perfectos, ya que, en realidad, no son una forma de inteligencia, carecen de las habilidades críticas necesarias para analizar la buena información de la mala en muchos casos. Pero aún así pueden transmitir información errónea de forma convincente.
Recientemente, algunos investigadores han investigado la posibilidad de lo que se conoce como «habilidades emergentes» que se desarrollan independientemente en los LLM, en lugar de ser codificadas deliberadamente en su programación. Un ejemplo particular es un LLM que fue capaz de responder preguntas sobre situaciones sociales sin haber sido entrenado explícitamente en esas situaciones.
La observación fue que a medida que los LLM escalan, se vuelven más poderosos y pueden realizar más tareas. No estaba claro si esta escalada también implicaba un riesgo de comportamiento con el que no estaríamos preparados para lidiar. Así que los investigadores llevaron a cabo una investigación para ver si tales instancias eran verdaderamente emergentes, o si el programa simplemente actuaba de maneras complejas dentro de los límites de su código.
Experimentaron con cuatro modelos LLM diferentes, asignándoles tareas que previamente habían sido identificadas como emergentes. Y no encontraron evidencia del desarrollo de un pensamiento diferenciado, o de que alguno de los modelos fuera capaz de actuar fuera de su programación. Para los cuatro modelos, la capacidad de seguir instrucciones, la memorización y la competencia lingüística fueron capaces de explicar todas las habilidades exhibidas por los LLM. No hubo desviaciones del guion. No tenemos nada que temer de los LLM por sí mismos.
Las personas, por otro lado, son menos confiables. Nuestro propio uso explosivo de la IA, que requiere más energía y desafía todo, desde los derechos de autor hasta la confianza y cómo evitar su propia contaminación digital, se está convirtiendo en un problema genuino.
«Nuestros resultados no significan que la IA no sea una amenaza en absoluto», dice Gurevych. «Más bien, mostramos que la supuesta emergencia de habilidades de pensamiento complejas asociadas con amenazas específicas no está respaldada por la evidencia y que, después de todo, podemos controlar muy bien el proceso de aprendizaje de los LLM. La investigación futura debería centrarse en otros riesgos que plantean los modelos, como su potencial para ser utilizados para generar noticias falsas«.
En resumen, este estudio nos ofrece un respiro ante el temor de una IA superinteligente y rebelde. Los LLM, por muy sofisticados que parezcan, siguen siendo herramientas bajo nuestro control. El verdadero desafío reside en cómo los humanos utilizamos estas herramientas y cómo gestionamos los riesgos asociados a su uso, como la desinformación y el consumo energético. La amenaza, por ahora, no viene de la máquina, sino de nosotros mismos.
La investigación ha sido publicada como parte de las actas de la 62ª Reunión Anual de la Asociación de Lingüística Computacional.