La discusión sobre la inteligencia artificial (IA) superhumana está en auge. Sin embargo, investigaciones recientes han revelado debilidades en uno de los sistemas de IA más exitosos. Se trata de KataGo, un bot que juega al juego de mesa Go y que puede vencer a los mejores jugadores humanos del mundo. Pero se ha demostrado que esta superioridad es frágil, ya que puede ser derrotado por bots adversarios que, aunque no son buenos en el juego, sí destacan por proporcionar a KataGo información que le hace cometer errores. Las estrategias para fortalecer a KataGo contra este tipo de ataques adversarios fracasaron en su mayoría.
Por eso, hay expertos que opinan que si no podemos resolver el problema en un dominio simple como el de Go, entonces a corto plazo parece haber pocas perspectivas de solucionar problemas similares como los jailbreaks en ChatGPT. Se ha hecho un estudio sobre este tema que plantea interrogantes sobre si los sistemas de IA más generales también sufrirán vulnerabilidades que puedan comprometer su seguridad y fiabilidad, cuestionando las afirmaciones de que puedan llegar a ser «superhumanos». Todo esto deja dudas sobre la posibilidad de lograr el objetivo de construir agentes de IA robustos en el mundo real en los que las personas puedan confiar.
En el juego del Go, dos jugadores alternan colocando piedras negras y blancas en una cuadrícula para rodear y capturar las piedras del oponente. En 2022, investigadores informaron haber entrenado bots adversariales para derrotar a KataGo, el mejor sistema de IA de Go de código abierto, que típicamente vence a los mejores humanos con facilidad. Sus bots encontraron exploits que regularmente vencían a KataGo. Estos los bots no eran muy buenos en general, y los humanos podían vencerlos. Es más, los humanos podían entender los trucos de los bots y adoptarlos para vencer a KataGo.
Estrategias de defensa
Para investigar si esto señalaba una debilidad fundamental en KataGo y, por extensión, en otros sistemas de IA con capacidades aparentemente superhumanas, los investigadores utilizaron bots adversariales para probar tres formas de defender las IA de Go contra tales ataques.
La primera defensa fue una que los desarrolladores de KataGo ya habían implementado después de los ataques de 2022: proporcionar a KataGo ejemplos de posiciones de tablero involucradas en los ataques y hacer que jugara contra sí misma para aprender a defenderse de esas posiciones. Pero los investigadores encontraron que un bot adversarial podía aprender a vencer incluso a esta versión actualizada de KataGo, ganando el 91% de las veces.
La segunda estrategia defensiva fue iterativa: entrenar una versión de KataGo contra bots adversariales, luego entrenar atacantes contra la KataGo actualizada y así sucesivamente, durante nueve rondas. Pero esto tampoco resultó en una versión invencible de KataGo. Los adversarios continuaron encontrando exploits, con el último venciendo a KataGo el 81% de las veces.
Como tercera estrategia defensiva, los investigadores entrenaron un nuevo sistema de IA para jugar al Go desde cero. KataGo está basado en un modelo conocido como red neuronal convolucional (RNC). Los investigadores sospechaban que las RNC podrían enfocarse demasiado en detalles locales y perder patrones globales, así que construyeron un jugador de Go usando una red neuronal alternativa llamada transformador de visión. Pero su bot adversarial encontró un nuevo ataque que le ayudó a ganar el 78 % de las veces contra el sistema ViT.
En todos estos casos, los bots adversariales —aunque capaces de vencer a KataGo y otros sistemas de Go— fueron entrenados para descubrir vulnerabilidades ocultas en otras IA, no para ser estrategas completos. Los adversarios aún son bastante débiles e incluso los investigadores los vencen fácilmente.
Con humanos capaces de usar las tácticas de los bots adversariales para vencer a los sistemas de IA expertos en Go, ¿tiene sentido seguir llamando a esos sistemas superhumanos? Los expertos concluyen que estas vulnerabilidades serán difíciles de eliminar y que los humanos pueden mantener ventajas cognitivas importantes sobre la IA por algún tiempo. Pero el punto crucial es que no comprendemos completamente los sistemas de IA que construimos hoy en día.

