Gemini 2.0 ya está aquí, Google da un paso de gigante para mejorar su IA
Se avanza en apartados clave como las imágenes y el sonido
Google ha dado un paso muy importante en el mundo de la Inteligencia Artificial con el lanzamiento de Gemini 2.0, la nueva generación de su modelo de IA. Esta versión admite, entre otras cosas, la salida multimodal de imágenes y audio, a la vez que también integra herramientas para la “era de los agentes”, como la describe Google.
¿Qué significa esto?
Los modelos de IA que conforman la era de los agentes representan sistemas que pueden realizar tareas de forma independiente con una toma de decisiones adaptable. Imagina, por ejemplo, automatizar tareas como hacer un pedido online o programar una videollamada con un amigo a partir de una simple instrucción. Esto es, básicamente, lo que significa esta nueva opción que es parte del desarrollo de Google que compite con ChatGPT.
Gemini 2.0, por otro lado, contará con múltiples agentes que podrán ayudarte en todo tipo de campos, desde proporcionar sugerencias en tiempo real en juegos de consolas o dispositivos móviles hasta elegir un regalo que sea el adecuado para un familiar -incluso, en este caso, será capaz de añadirlo a tu carrito de la compra basándose en una instrucción-. Un salto evolutivo en toda regla.
Los objetivos importantes en Gemini 2.0
Al igual que otros agentes de IA, los de Gemini 2.0 presentan un comportamiento orientado a objetivos. Esto significa que pueden crear una lista de pasos basada en tareas y llevarlos a cabo de forma autónoma para conseguir un resultado final. Estos son lo más destacados que llegan con la IA de Google
- Proyecto Astra: diseñado como un asistente universal de IA para teléfonos Android, con soporte multimodal e integración de Google Search, Lens y Maps.
- Proyecto Mariner: este es un agente experimental que puede navegar por sí mismo dentro de un navegador web. Mariner está disponible en forma de vista previa temprana para “probadores de confianza” como una extensión de Chrome.
Gemini 2.0 Flash, la nueva generación
Esta es la nueva versión del modelo de IA de Google. Por ahora, se trata de un desarrollo experimental (beta) con menor latencia, mejor rendimiento en pruebas de referencia y razonamiento y comprensión mejorados en matemáticas y codificación en comparación con los modelos Gemini 1.0 y 1.5.45. Estas son sus claves:
- Puede generar imágenes de forma nativa gracias al modelo de texto a imagen denominado Imagen 3 de Google DeepMind.
- Es dos veces más rápido que su predecesor, 1.5 Flash, y significativamente más inteligente.
- Es multimodal, lo que significa que puede procesar y generar texto, imágenes y audio. La versión experimental admite la entrada multimodal, pero solo la salida de texto. Es capaz de recurrir a herramientas externas como Google Search o herramientas creadas por otras empresas, así como de ejecutar código informático.
Es importante destacar que el desarrollo está disponible en la web para todos los usuarios y que, próximamente, estará disponible en la aplicación móvil Gemini. Hay que mencionar que los desarrolladores también pueden acceder al nuevo modelo a través de Google AI Studio y Vertex AI.
Posible impacto de Gemini 2.0
La segunda generación de Gemini se centra en impulsar agentes de IA capaces de tomar medidas por sí mismos y recurrir a los recursos que necesitan. Los modelos pueden tomar un conjunto muy amplio de instrucciones y entradas de archivos (multimodales) del usuario, y luego utilizar la planificación, el razonamiento y la llamada a funciones (como realizar una búsqueda web) para producir una respuesta.
Las búsquedas de Google grande beneficiadas
Ningún producto se ha transformado tanto gracias a la IA como la Búsqueda. Las Vistas Creadas con IA de Google ya llegan a 1.000 millones de personas y les permiten hacer preguntas de una forma totalmente nueva, convirtiéndose rápidamente en una de las funciones de búsqueda más populares.
El siguiente paso para la compañía de Mountain View es incorporar las capacidades de razonamiento avanzado de Gemini 2.0 a las Vistas Creadas con IA para abordar temas más complejos y preguntas de varios pasos, incluidas ecuaciones matemáticas avanzadas, consultas multimodales y programación.9
Con el lanzamiento de Gemini 2, y una serie de prototipos de investigación que exploran las posibilidades de los agentes, Google ha alcanzado un hito apasionante en la era de la IA. Y, por lo tanto, se posiciona en un lugar que le hará ser una referencia en el mercado con todo lo bueno que tiene esto de cara al futuro, donde la inteligencia artificial, simplemente, es algo irremediable.