Un estudio reciente sobre versiones más avanzadas de tres importantes chatbots de inteligencia artificial (IA) revela que estos son más propensos a generar respuestas incorrectas que a admitir que no conocen la respuesta. El estudio también encontró que las personas tienen dificultades para identificar estas respuestas erróneas.
Los modelos de lenguaje de gran tamaño (LLMs, por sus siglas en inglés), que son utilizados para impulsar los chatbots, han sido objeto de atención debido a su tendencia a dar respuestas equivocadas o a «alucinar», es decir, generar respuestas inusuales. José Hernández-Orallo y su equipo del Instituto Valenciano de Investigación en Inteligencia Artificial (España) analizaron estos errores para ver cómo han cambiado conforme los modelos han crecido, empleando más datos de entrenamiento, más parámetros y mayor poder computacional. También investigaron si la frecuencia de errores se corresponde con la percepción humana de la dificultad de las preguntas y cuán bien las personas pueden identificar respuestas incorrectas. El estudio fue publicado en Nature el 25 de septiembre.
Los resultados muestran que, como era de esperar, los modelos más grandes y refinados son más precisos, en gran parte debido a métodos de ajuste fino como el aprendizaje por refuerzo basado en retroalimentación humana. Sin embargo, también son menos confiables: el porcentaje de respuestas incorrectas ha aumentado porque los modelos ahora evitan menos responder «no sé» o cambiar de tema. En lugar de evitar preguntas difíciles, los chatbots tienden a responder casi cualquier cosa, lo que incrementa tanto las respuestas correctas como las incorrectas.
Hernández-Orallo compara esta tendencia con lo que se denomina coloquialmente «bullshitting», es decir, aparentar conocimientos que en realidad no se tienen. Esta tendencia es preocupante porque los usuarios cotidianos tienden a sobreestimar las capacidades de los chatbots, lo cual puede ser peligroso.
El equipo estudió tres familias de modelos de lenguaje: GPT de OpenAI, LLaMA de Meta y BLOOM, un modelo de código abierto creado por BigScience. Evaluaron versiones tempranas y refinadas de estos modelos utilizando miles de preguntas que abarcaban temas como aritmética, anagramas, geografía y ciencia, y midieron también la capacidad de los chatbots para transformar información, por ejemplo, al ordenar alfabéticamente una lista. Como se esperaba, la precisión de las respuestas mejoró en los modelos refinados, pero también se observó que algunos, como GPT-4, tienden a responder casi cualquier pregunta, aumentando la proporción de respuestas incorrectas en relación a las preguntas evitadas.
Un hallazgo clave fue que todos los modelos cometían errores incluso en preguntas sencillas, lo que sugiere que no existe una «zona segura» en la que los usuarios puedan confiar completamente en las respuestas. Cuando se pidió a las personas que clasificaran las respuestas como correctas, incorrectas o evitadas, muchas veces clasificaron erróneamente las respuestas incorrectas como correctas, con una tasa de error del 10 al 40 %.
Hernández-Orallo sugiere que los desarrolladores deben me jorar el rendimiento de la IA en preguntas fáciles y hacer que los chatbots eviten responder preguntas difíciles. Esto permitiría a los usuarios discernir cuándo es más confiable usar la IA y cuándo no. Aunque los modelos que intentan responder preguntas difíciles se ven impresionantes y obtienen mejores calificaciones en las pruebas, no siempre son útiles para los usuarios. Hernández-Orallo subraya que sería preferible que los chatbots admitieran no saber una respuesta cuando la pregunta es demasiado desafiante.
Finalmente, aunque algunos modelos ya son capaces de decir «no sé», muchas compañías de IA están trabajando para reducir las «alucinaciones». Sin embargo, para empresas que comercializan chatbots de uso general, esta capacidad de abstenerse de responder no suele ser una característica deseada.
Fuente: Nature

