Google lanza Gemini, un modelo de inteligencia artificial capaz de razonar de forma más sofisticada
Está preparado para funcionar en cualquier dispositivo, desde un smartphone hasta un centro de datos. La compañía asegura que ha superado a sus rivales, incluido OpenAI, en prácticamente todas las pruebas.
Google presentó este miércoles su modelo de inteligencia artificial más avanzado. Se llama Gemini y es capaz de razonar de manera más sofisticada y comprender información con un mayor grado de matices que la tecnología anterior de la compañía. Con este nuevo desarrollo, la compañía quiere plantar cara a OpenAI, creadora del popular ChatGPT (que ya va por su cuarta versión), y al gran socio de esta, Microsoft.
El gigante tecnológico destacó la “multimodalidad” de Gemini, pues es capaz de “razonar con fluidez mediante textos, imágenes, vídeo, audio y códigos”, a través de lo que se conoce como el modelo MMLU, siglas en inglés para la “comprensión masiva de lenguaje multitarea”. Google remarcó que Gemini es el primer modelo de IA que supera a los expertos humanos en determinadas tareas y dijo que su tecnología bate a GPT-4 de OpenAI en prácticamente todas las pruebas que se realizan para analizar las capacidades de estos modelos que dan vida a las IA.
El desarrollo de Gemini ha estado liderado por el equipo de DeepMind y por Google Research y está preparado para funcionar en cualquier dispositivo, desde un smartphone hasta un centro de datos. La primera versión de Gemini (1.0) llegará en tres tamaños diferentes: Nano, la más sencilla, en forma de aplicación para poder ejecutar tareas en dispositivos móviles, Pro (idóneo para escalar en una amplia gama de tareas) y Ultra, “la más potente”, diseñada para ejecutarse en centros de datos y “para tareas de gran complejidad”.
“Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia e ingeniería que hemos emprendido como empresa”, aseguró en su blog el CEO de Alphabet, Sundar Pichaig. Desde el lanzamiento de ChatGPT de OpenAI hace aproximadamente un año, Google ha estado compitiendo para producir software de inteligencia artificial que rivalice con lo que ha introducido la compañía respaldada por Microsoft.
Gemini es el modelo de IA más grande que la unidad Google DeepMind AI de la compañía ha ayudado a crear, pero es “significativamente” más barato de servir a los usuarios que los modelos anteriores más grandes de la empresa, aseguró a los periodistas el vicepresidente de Productos de DeepMind, Eli Collins. “Así que no sólo es más capaz, sino también mucho más eficiente”, remarcó el directivo que aseguró que Gemini “está inspirado en la forma en que las personas entienden el mundo e interactúan con el”.
Google explicó que Gemini puede recibir información visual o auditiva (notas de música, imágenes, palabras) y desde ahí generar contenido propio, que a su vez puede ser en versión texto, audio o imágenes. Durante la presentación, la compañía indicó que su nuevo modelo de IA es capaz de detectar errores en un problema matemático complejo, dar la respuesta correcta y explicar los pasos hasta llegar a ella. También puede dar abundante información sobre un animal (un pato, por ejemplo) a través de un simple dibujo, incluyendo la traducción de “pato” a cinco lenguas.
Esta primera versión de Gemini puede comprender, explicar y generar código de alta calidad en los lenguajes de programación más habituales, como Java, Python, C++ y Go. Asimismo, se puede utilizar como motor para sistemas de codifigación como AlphaCode 2, que destaca en la resolución de problemas de programación que van más allá de la codificación e involucran matemáticas complejas e informática teórica.
El gigante tecnológico no ha dicho cómo piensa monetizar la nueva herramienta y, por el momento, se ha limitado a anunciar que estará disponible a partir del 13 de diciembre. Los consumidores ya pueden probar Gemini a través de Bard, el chatbot de la compañía, en 170 países, pero solo en inglés. Se extenderá al resto de idiomas progresivamente. De momento, quedan fuera los países de la UE, ya que la compañía quiere asegurarse de que cumple con la regulación comunitaria. Bard utilizará inicialmente una versión de Gemini Pro para dotar a su chatbot de “un razonamiento, planificación y comprensión más avanzados”. Después, a principios del próximo año, adoptará la versión Ultra.
Asimismo, esta tecnología llegará a Pixel (el smartphone de Google) con la versión Gemini Nano, para impulsar funciones como la de “Resumir” en la aplicación Grabadora. Y, en los próximos meses, estará disponible en servicios de Google como Búsqueda, Anuncios, Chrome y Duet AI y también se está probando para que la Experiencia Generativa de Búsqueda (SGE) sea más rápida para los usuarios.
Collins añadió que la versión Ultra supera a los humanos en comprensión masiva de lenguaje multitarea, una referencia de evaluación creada a partir de 57 materias de ciencias, tecnología, ingeniería, matemáticas, humanidades y ciencias sociales. La compañía aclaró que estará disponible a comienzos del próximo año, tras “exhaustivas comprobaciones de confianza y seguridad”. Google reconoció que Gemini comete errores y caerá en el problema de las llamadas “alucinaciones” (respuestas que parecen correctas pero que no están justificadas por datos), pero dijo que están progresando.
Alphabet también anunció una nueva generación de sus chips de IA personalizados, o unidades de procesamiento de tensores (TPU). El Cloud TPU v5p está diseñado para entrenar grandes modelos de IA y está integrado en módulos de 8.960 chips. La nueva versión de los procesadores de sus clientes puede entrenar modelos de lenguaje grandes casi tres veces más rápido que las generaciones anteriores. Los nuevos chips estarán disponibles para los desarrolladores a partir del miércoles, dijo la compañía.
Sigue toda la información de Cinco Días en Facebook, X y Linkedin, o en nuestra newsletter Agenda de Cinco Días