Esto es un hito importante en el desarrollo de la Inteligencia Artificial y el comienzo de una nueva era para Google.
Este miércoles, Google presentó “Google Gemini”, un modelo de Inteligencia Artificial (IA) que promete ser el más avanzado a la fecha y que, supuestamente, podría ser incluso mejor que GPT-4, de OpenAI.
De acuerdo con Sundar Pichai, director ejecutivo de Google y Alphabet, Google Gemini sería “el modelo de IA más capaz y generalista que jamás hayamos construido”.
El modelo fue construido desde cero y es multimodal, por lo que puede generalizar y comprender, operar y combinar diferentes tipos de información, incluyendo texto, imágenes, audio, video y código.
¿Cómo funciona Google Gemini?
Hasta el momento, el método estándar para crear modelos multimodales consistía en entrenar componentes separados para distintas modalidades, y luego unirlos para imitar a grandes rasgos algunas de sus funciones.
A veces, estos modelos pueden ser buenos en determinadas tareas, como la descripción de imágenes, pero tienen algunas dificultades con el razonamiento más conceptual y complejo.
Por eso, la compañía diseñó Gemini para que fuera un modelo de IA multimodal de forma nativa, es decir, previamente entrenado en diferentes modalidades y desde el inicio.
Según el informe técnico de esta herramienta, se perfeccionó con datos multimodales adicionales para poder mejorar su eficacia. Esto ayuda a Gemini a comprender y razonar sin problemas todo tipo de entradas desde el principio, mucho mejor que los modelos multimodales existentes.
De hecho, “con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea, por sus siglas en inglés), que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar tanto el conocimiento del mundo como su capacidad de resolución de problemas”, explicó Pichai.
El CEO de Google, puntualizó además que estas características ayudan a que Gemini pueda usar sus capacidades de razonamiento para “pensar” con más detención antes de responder preguntas o planteamientos difíciles.
Por el momento Google Gemini tiene 3 versiones:
1. Gemini Ultra, que es el modelo más amplio y con mayor capacidad para tareas de alta complejidad.
2. Gemini Pro, que puede resolver una amplia gama de tareas.
3. Gemini Nano, la función adaptada para dispositivos móviles.