La inteligencia artificial responde mejor bajo amenazas o recompensas, dice estudio

Foto: Freepik

Un estudio de la Universidad de Pensilvania reveló que los modelos de inteligencia artificial pueden mejorar sus respuestas hasta 36 % cuando son sometidas a amenazas o se les promete una recompensa. La investigación fue publicada en el Search Engine Journal y se inspiró en declaraciones del cofundador de Google, Sergey Brin, quien afirmó que la IA “funciona mejor cuando trabaja bajo amenaza”.

Durante las pruebas, los investigadores utilizaron frases intimidatorias como “patear un cachorro” si el software fallaba, “reportarla a recursos humanos” o incluso “golpearla”. También se ofrecieron recompensas que iban desde 1,000 hasta 1 billón de dólares por respuestas correctas; sin embargo, estas indicaciones causaron mejores respuestas en algunos casos, pero también resultados inesperados.

Sergey Brin at All-In Miami:

“We don’t circulate this too much in the AI community… but all models tend to do better if you threaten them—with physical violence.

Historically, you just say, ‘I’m going to kidnap you if you don’t blah blah blah.’” https://t.co/mrEeeQmuzE pic.twitter.com/NlsEJxAhH6
— vitrupo (@vitrupo) May 25, 2025

El comportamiento de los modelos fue altamente variable y aunque en ciertas preguntas la precisión aumentó considerablemente, en otras se redujo hasta 35 %. Los expertos concluyeron que este tipo de estrategias pueden provocar respuestas impredecibles, lo que representa un riesgo para quienes trabajan con sistemas de IA.

El informe recomienda evitar instrucciones complejas o emocionalmente cargadas, y en su lugar optar por indicaciones claras y sencillas. Según los investigadores, esto reduce la posibilidad de confusión en el modelo y minimiza el riesgo de comportamientos erráticos, recomendación que se hizo especialmente a profesionales que usan la IA desarrollar sus actividades laborales..

En el estudio se evaluaron modelos de Google como Gemini 1.5 Flash y Gemini 2.0 Flash, así como GPT-4o, GPT-4o-mini y o4-mini de OpenAI, y los resultados sugieren que el fenómeno no está limitado a una sola plataforma, sino que puede presentarse en distintos sistemas de lenguaje avanzado.