El último modelo de lenguaje de OpenAI, conocido como OpenAI o1, representa un avance significativo en la tecnología de inteligencia artificial (IA), especialmente en su utilidad para la investigación científica. Investigadores que participaron en las pruebas de este modelo destacan sus capacidades avanzadas en comparación con versiones anteriores, como GPT-4. Aseguran que OpenAI o1 proporciona respuestas más detalladas y coherentes, sobre todo en campos científicos complejos como la física cuántica. La química y la biología le resultan más difíciles o, en cualquier caso, tiene menos porcentaje de acierto en dichas disciplinas.
Desde el lanzamiento público de ChatGPT en 2022, los modelos de lenguaje han mejorado en tamaño, cantidad de datos utilizados para su entrenamiento y habilidades para resolver problemas. Sin embargo, OpenAI afirma que la serie o1 representa un cambio de paradigma. Este modelo pasa más tiempo en ciertas etapas de aprendizaje y reflexiona más antes de generar respuestas, lo que lo hace más lento pero también más preciso. Esto resulta especialmente valioso en áreas donde las respuestas correctas o incorrectas están bien definidas, como las matemáticas y la programación. OpenAI ha lanzado dos versiones: o1-preview y o1-mini, disponibles para algunos desarrolladores y clientes de pago, aunque la empresa no ha revelado detalles sobre la cantidad de parámetros ni la potencia de computación de estos modelos.
Uno de los logros más notables de o1 es su aptitud en la Prueba de Preguntas y Respuestas a Nivel de Posgrado a Prueba de Google (GPQA), donde superó a académicos con doctorado en las preguntas más difíciles, conocidas como el conjunto «diamante», sobresaliendo en física. Obtuvo una impresionante puntuación del 78 % en general y del 93 % en física, superando a todos los modelos previos de chatbot. Este éxito sugiere una mejora fundamental en las capacidades de razonamiento del modelo. Además, o1 superó significativamente a su predecesor GPT-4o en el examen de clasificación de la Olimpiada Internacional de Matemáticas, resolviendo el 83 % de los problemas, en comparación con el 13 % logrado por GPT-4o.
Cadena de pensamiento
Una de las claves del mejor desempeño de o1 radica en su enfoque de «cadena de pensamiento». Este método permite que el modelo desarrolle su razonamiento paso a paso, afinando sus respuestas a medida que avanza. Sin embargo, OpenAI ha decidido mantener ocultos los detalles completos de estas cadenas, ofreciendo solo resúmenes reconstruidos del razonamiento detrás de sus respuestas. Esta decisión se debe, en parte, a preocupaciones sobre posibles errores o razonamientos socialmente inaceptables que podrían surgir si se revelara la cadena de pensamiento completa.
Alucina más
A pesar de sus avances, OpenAI o1 no está exento de inconvenientes. Algunos usuarios han señalado que tiende a «alucinar» o generar información incorrecta con más frecuencia que los modelos anteriores, aunque las pruebas internas de OpenAI sugieren que las tasas de error son ligeramente menores.
Los científicos que probaron o1 encontraron útil el modelo para generar protocolos de experimentos científicos, pero también señalaron deficiencias en la información de seguridad. Por ejemplo, el modelo a veces no señalaba pasos peligrosos o sugería métodos inapropiados de contención química, lo que indica que aún no es lo suficientemente confiable para tareas de alto riesgo que requieren seguridad física.
En términos de aplicaciones en el mundo real, o1 está demostrando ser una herramienta valiosa para los científicos. Se ha integrado o1 en una herramienta de investigación llamada SciMuse, la cual escanea la literatura científica y propone nuevas direcciones de investigación. Él destaca que o1 genera ideas más innovadoras que los modelos anteriores como GPT-4.
Otros investigadores también han utilizado o1 con éxito en su trabajo y han quedado impresionados por la capacidad de o1 para replicar códigos en una fracción del tiempo que originalmente llevó.
Fuente: Nature (doi.org/10.1038/d41586-024-03169-9)

