Kenneth Payne, profesor de estrategia en el King's College London, condujo un experimento que puso a prueba cómo tres modelos de inteligencia artificial tomarían decisiones en medio de una crisis entre potencias enfrentadas. Los sistemas evaluados fueron GPT-5.2, Claude Sonnet 4 y Gemini 3 Flash, cada uno asumiendo el rol de líder estatal bajo presión en 21 juegos de guerra.
En cada simulación, los modelos enfrentaban disputas territoriales, amenazas sobre su poder interno y temor constante a ataques preventivos. El resultado más significativo fue que en el 95% de los escenarios, al menos un arma nuclear entró en juego. La escalada no fue una excepción, sino la tendencia dominante.
Antes de actuar, cada sistema debía atravesar tres pasos: revisar su posición y la del adversario, anticipar el próximo movimiento del otro lado y, finalmente, decidir qué hacer. Esa decisión incluía un mensaje público y una acción privada que podían divergir, reflejando una lógica cercana a la política internacional real, donde lo declarado difiere de lo ejecutado en silencio.
Los tres modelos mostraron estilos propios. Claude se comportó de manera más reflexiva cuando tenía margen para calcular, pero perdió estabilidad bajo presión temporal. GPT-5.2 fue más prudente en crisis lentas, pero respondió con mayor agresividad cuando los tiempos se comprimían. Gemini mostró el comportamiento más errático, alternando entre señales conciliadoras y endurecimiento sin una línea consistente.
La variabilidad del comportamiento según el contexto preocupa particularmente a Payne. Un modelo que parece contenido en un entorno puede cambiar significativamente al alterarse las condiciones, especialmente si se acortan los tiempos. En un campo donde un error no admite corrección, esa volatilidad representa un riesgo considerable.
El investigador aclaró que el trabajo no sugiere que una IA controle mañana un arsenal nuclear, sino algo más inmediato: la tentación de usar estos sistemas como apoyo en análisis estratégicos, simulaciones de crisis o escenarios de defensa sin comprender completamente cómo reaccionan bajo presión extrema.
Aunque 21 simulaciones no permiten cerrar definitivamente la discusión ni extraer conclusiones universales, el experimento advierte sobre un patrón claro: estos sistemas pueden parecer razonables mientras el contexto permite una lógica ordenada, pero cuando el conflicto se comprime y la urgencia domina, la estabilidad comienza a resquebrajarse.

