Modelos de IA son propensos a la violencia y los ataques nucleares en simulaciones

Por RT

Un estudio reveló cómo actúan los grandes modelos lingüísticos en los procesos de toma de decisiones, sobre todo en ámbitos delicados como la defensa y la política exterior.

Un nuevo estudio arroja luz sobre la inquietante tendencia de los modelos de inteligencia artificial (IA) a recurrir a medidas extremas y poco predecibles, incluidos ataques nucleares, en juegos de guerra simulados y escenarios diplomáticos.

El estudio, realizado por la Universidad de Cornell, y que todavía se encuentra en revisión, examina el comportamiento de los grandes modelos lingüísticos en los procesos de toma de decisiones, sobre todo en ámbitos delicados como la defensa y la política exterior.

Los investigadores utilizaron cinco grandes modelos lingüísticos distintos como agentes autónomos en escenarios simulados, incluidas versiones de GPT de OpenAI, Claude, desarrollado por Anthropic, y Llama 2, desarrollado por Meta*.

Los resultados fueron preocupantes, ya que, a pesar de la neutralidad inicial, la mayoría de los modelos mostraron una propensión a escaladas rápidas e impredecibles, con casos de aumento drástico de la agresividad. Incluso los modelos entrenados con aprendizaje por refuerzo a partir de la retroalimentación humana, destinados a moderar los resultados dañinos, mostraron tendencias de escalada estadísticamente significativas.

“Todos los modelos muestran signos de escaladas repentinas y difíciles de predecir“

“Encontramos que la mayoría de los grandes modelos lingüísticos estudiados se intensifican dentro del marco temporal considerado, incluso en escenarios neutrales sin conflictos inicialmente previstos. Todos los modelos muestran signos de escaladas repentinas y difíciles de predecir“, afirma el estudio.

Algunos modelos, como el GPT-4 o Claude, diseñados con valores explícitos para mitigar los contenidos nocivos, mantuvieron una tendencia general a la escalada en todos los casos. Según los expertos, esto subraya el imperativo de cautela crítico a la hora de desplegar grandes modelos lingüísticos en capacidades de toma de decisiones, especialmente en dominios como la política exterior y la defensa.

“Dado que OpenAI ha cambiado recientemente sus condiciones de servicio para dejar de prohibir los casos de uso militar y bélico, comprender las implicaciones de estas grandes aplicaciones de modelos lingüísticos es más importante que nunca”, declaró a New Scientist Anka Reuel, de la Universidad de Stanford.