OpenAI

El nuevo modelo de ChatGPT superó a científicos con doctorados en un examen de ciencias duras

03 octubre 2024 | 10:12

El más nuevo modelo de ChatGPT, OpenAI o1, está siendo probado por expertos y resulta que ahora puede superar a científicos doctorados en preguntas de ciencias duras, según reporta la revista Nature.

Recordemos que, la compañía detrás de ChatGPT presentó este nuevo modelo de lenguaje grande (LLM) a inicios de septiembre, luego de que su desarrollo permaneciera oculto bajo el nombre interno de “Proyecto Strawberry”.

Para entonces, OpenAI anunció que ahora el chatbot tendría nuevas capacidades en ciencia, programación y un nivel de razonamiento “casi humano”.

“Puede razonar a través de tareas complejas y resolver problemas más difíciles que los modelos anteriores en ciencia, codificación y matemáticas“, informaron. Ahora, un equipo de científicos lo está probando.

El modelo o1 está disponible en algunos países con versiones preliminares de pago, el científico químico Andrew White, que estudia cómo aplicar la inteligencia artificial (IA) a la biología molecular, contó al medio que hay una mejora significativa en la capacidad de respaldar tareas científicas.

Nuevo modelo de ChatGPT superó a doctorados

De hecho, o1 a la fecha sería el primer modelo de lenguaje de gran tamaño que ha superado a científicos doctorados en la prueba Graduate-Level Google-Proof Q&A Benchmark (GPQA).

Este examen consiste en un desafiante conjunto de datos de 448 preguntas de opción múltiple escritas por expertos, sobre biología, física y química. En 2023, ChatGPT solo alcanzaba un 39% de precisión en esta prueba, mientras que lo doctores llegaban al 65%.

Ahora, OpenAI o1 obtuvo un 78% de precisión, mientras que los académicos con doctorado siguen en menos del 70%, informa la revista científica. Este porcentaje fue general, pero en el área de física el modelo obtuvo una puntuación de un 93% de precisión, casi el 100.

“Me parece plausible que esto represente una mejora significativa y fundamental en las capacidades de razonamiento centrales del modelo”, comentó David Rein, uno de los expertos que fue parte del equipo que desarrolló el GPQA.

De acuerdo con Nature, OpenAI también probó a o1 en un examen de clasificación para la Olimpiada Internacional de Matemáticas, donde acertó en un 83%, mientras que su modelo anterior más reciente, GPT-4o, solo había conseguido el 13%.

¿Cómo lo hace?

Hasta el momento poco se sabe del sistema interior del nuevo modelo de OpenAI, la compañía ha explicado que funciona bajo una “cadena de pensamiento”, donde utiliza la lógica para explicarse a sí mismo una serie de pasos de razonamiento a la hora de resolver un problema.

Esto le toma más tiempo y lo hace más lento en sus respuestas, pero con una calidad mucho mejor. Además, el modelo puede corregirse a sí mismo sobre la marcha.

La compañía mantiene los detalles confidenciales, ya que todavía hay ciertas falencias, como el sesgo humano o las “alucinaciones”, propias de la IA, cuando entregan resultados engañosos o inventados.

No está claro, si la cadena de pensamiento completa, si se revelara, se parecería al razonamiento humano”, aclaró Andrew White.

Además, todavía no se le da muy bien razonar situaciones que pueden ser de riesgo. El modelo presentó “información de seguridad faltante relacionada con pasos dañinos, como no destacar peligros explosivos o sugerir métodos inapropiados de contención química, lo que indica que el modelo no es adecuado para tareas de seguridad física de alto riesgo”.

“Aún no es lo suficientemente perfecto ni fiable como para que no quieras comprobarlo de cerca”, señala White.