Google presenta Gemini: su modelo de Inteligencia Artificial más avanzado y capaz

Ofrece una mayor precisión y fluidez en la generación de textos en español, así como una mejor comprensión de las intenciones y necesidades de los usuarios

Según las palabras de Sundar Pichai, CEO de Google y Alphabet, hoy han "dado el paso siguiente en este viaje con Gemini, el modelo más avanzado y capaz que hemos creado hasta la fecha, que ha obtenido resultados excelentes en muchas de las cotas de referencia más utilizadas."

"Hemos optimizado Gemini 1.0 —nuestra primera versión del modelo— en tres tamaños diferentes: Ultra, Pro y Nano. Son los primeros modelos de la era Gemini y el primer producto de la visión que nos movió a formar Google DeepMind hace unos meses. Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia y de ingeniería que hemos emprendido como empresa. Me ilusiona mucho el camino que tenemos por delante y las oportunidades que Gemini puede ofrecer a personas de todo el mundo", ha destacado desde el Blog de noticias de Google España.

La presentación de Gemini

La promesa de un mundo asistido de forma responsable por la IA sigue siendo la base de trabajo en Google DeepMind. Llevan mucho tiempo elaborando una nueva generación de modelos de IA, inspirados en la forma en que las personas entienden y se relacionan con el mundo. Una IA que se pareciese menos a un programa informático y sea algo más útil e intuitivo, como un colaborador o un asistente experto.

Hoy, dicen estar un paso más cerca de esta visión al presentar Gemini, el modelo más avanzado y capaz que han creado hasta la fecha.

Gemini es el resultado de los esfuerzos de colaboración a gran escala de equipos de todo Google, incluidos sus compañeros de Google Research. Se construyó desde cero para ser multimodal, lo que significa que puede generalizar y entender, operar y combinar a la perfección distintos tipos de información, como texto, código de programación, audio, imágenes y vídeo.

Gemini es también su modelo más flexible hasta la fecha, capaz de funcionar eficazmente en todas partes, desde en un centro de datos hasta en dispositivos móviles. Sus avanzadas capacidades mejorarán significativamente la forma en que los desarrolladores y las empresas crean aplicaciones con Inteligencia Artificial y les dan escala.
Han optimizado Gemini 1.0 —su primera versión— en tres tamaños diferentes:

Gemini Ultra – El modelo más potente y de mayor tamaño, para tareas de gran complejidad.
Gemini Pro – Su mejor modelo para escalar en una amplia gama de tareas.
Gemini Nano – Un modelo más eficiente para ejecutar tareas directamente en un dispositivo.

Rendimiento avanzado

Han estado probando de forma rigurosa sus modelos Gemini y evaluando el rendimiento de cada uno en una amplia variedad de tareas. Desde la comprensión de imágenes naturales, audio y vídeo hasta el razonamiento matemático, el rendimiento de Gemini Ultra supera los resultados más avanzados en 30 de las 32 cotas académicas de uso generalizado, utilizadas en la investigación y el desarrollo de grandes modelos lingüísticos (LLM).

Con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva del lenguaje multitarea), que utiliza una combinación de 57 materias, como matemáticas, física, historia, derecho, medicina y ética, con las que se pone a prueba tanto el conocimiento del mundo como la capacidad de resolución de problemas.

El nuevo enfoque de referencia para MMLU permite a Gemini utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder a preguntas difíciles, lo que se traduce en mejoras significativas con respecto a la primera impresión.

Gemini supera el rendimiento de los modelos más avanzados en una gran variedad de cotas de referencia, que van desde texto hasta código de programación.

Gemini Ultra también logra una puntuación del 59,4% en la nueva cota de referencia MMMU, que consiste en realizar tareas multimodales en diferentes ámbitos para los que requieren un razonamiento deliberado.

Con las imágenes de referencia que han probado, Gemini Ultra superó a los modelos anteriores más avanzados sin ayuda de sistemas de reconocimiento óptico de caracteres de objetos (OCR) que extraen texto de las imágenes para su posterior procesamiento. Estas referencias resaltan la multimodalidad nativa de Gemini y apuntan los primeros indicios de capacidades de razonamiento multimodal más complejas.

Gemini supera el rendimiento de los modelos más avanzados en una serie de cotas de referencias multimodales.

Capacidades de nueva generación

Hasta ahora, el enfoque estándar para crear modelos multimodales consistía en entrenar componentes separados para distintas modalidades y luego unirlos para imitar grosso modo algunas de estas funciones. Estos modelos pueden ser buenos a la hora de realizar determinadas tareas, como describir imágenes, pero tienen dificultades con el razonamiento más conceptual y complejo.

Han diseñado Gemini para que sea multimodal de forma nativa, preentrenado desde el principio en diferentes modalidades. Después lo han perfeccionado con datos multimodales adicionales para refinar aún más su eficacia. Este planteamiento ayuda a Gemini a entender y razonar a la perfección sobre todo tipo de entradas, mucho mejor que los modelos multimodales existentes, y sus capacidades son punteras en casi todos los ámbitos.

Razonamiento sofisticado

Las sofisticadas capacidades de razonamiento multimodal de Gemini 1.0 pueden ayudar a dar sentido a información escrita y visual compleja. Así, resulta excepcionalmente hábil para extraer conocimientos difíciles de identificar entre ingentes cantidades de datos.

Su notable capacidad para extraer conclusiones a partir de cientos de miles de documentos mediante la lectura, el filtrado y la comprensión de la información puede ayudar a conseguir nuevos avances a velocidades digitales en muchos campos, desde las ciencias a las finanzas.

Comprender texto, imágenes, audio y más

Gemini 1.0 fue capacitado para reconocer y comprender texto, imágenes, audio, etc a la vez, por lo que comprende mejor la información matizada y puede responder preguntas relacionadas con temas complicados. Esto lo hace especialmente bueno para explicar el razonamiento en materias complejas como matemáticas y física.

Escritura avanzada de código de programación

La primera versión de Gemini puede entender, explicar y generar código de alta calidad en los lenguajes de programación más populares del mundo, como Python, Java, C++ y Go. Su capacidad para trabajar con los lenguajes y razonar sobre información compleja lo convierte en uno de los principales modelos básicos del mundo para escribir código.

Gemini Ultra destaca en varias pruebas comparativas de codificación, como HumanEval, una importante prueba comparativa estándar del sector para tareas de codificación, y Natural2Code, su propia prueba comparativa de codificación de conjuntos de datos.

Gemini también puede utilizarse como motor para sistemas de escritura de código más avanzados. Hace dos años, presentaron AlphaCode, el primer sistema de generación de código de IA que alcanzó un nivel competitivo en concursos de programación.

Con una versión especializada de Gemini, han creado un sistema de generación de código más avanzado, llamado AlphaCode 2, que se desempeña muy bien en la resolución de problemas de programación competitivos que van más allá de la escritura de código y que implican matemáticas complejas o comprensión teórica de la ciencia de la computación.

Al evaluarlo en la misma plataforma que el AlphaCode original, AlphaCode 2 muestra enormes mejoras. Es capaz de resolver casi el doble de problemas, y estiman que rinde mejor que el 85% de los participantes de la competencia (cuando AlphaCode ya lo hacía mejor que el casi 50% de ellos). Cuando los programadores colaboran con AlphaCode 2 definiendo determinadas propiedades para que las sigan las muestras de código, su rendimiento es aún mejor.

Desde Google dicen estar encatados con la idea de que los programadores utilicen cada vez más modelos de IA altamente capaces como herramientas de colaboración. Les ayudan a razonar sobre los problemas, proponen diseños de código y prestan asistencia en la implantación. Como resultado, se diseñan mejores servicios y se lanzan aplicaciones más rápidamente.

Más fiable, escalable y eficiente

Han entrenado a Gemini 1.0 para escala en su infraestructura optimizada de Inteligencia Artificial con las unidades de procesamiento tensorial (TPU) v4 y v5e que han diseñado internamente en Google. Y lo diseñaron para que fuera su modelo más fiable y escalable para entrenar, y más eficiente a la hora de dar servicio.

En las TPU, Gemini funciona significativamente más rápido que los modelos anteriores, más pequeños y menos capaces. Estos aceleradores de IA diseñados a medida han sido esenciales en los productos asistidos por IA de Google que atienden a miles de millones de usuarios en plataformas como las del Buscador, YouTube, Gmail, Google Maps, Google Play y Android. Asimismo, han permitido que empresas de todo el mundo entrenen de forma rentable modelos de IA a gran escala.

Esperemos que esto de respuesta a multitud de fallos que, como usuarios, hemos encontrado en Google Maps a la hora de analizar el contenido publicado por los administradores de los perfiles de empresa, ya que, incumpliendo sus propios parámetros, sus sistemas retiraban aleatoriamente estos contenidos.

Hoy también anuncian el sistema TPU más potente, eficiente y escalable hasta la fecha, Cloud TPU v5p, diseñado para el entrenamiento de modelos de IA avanzados. Esta TPU de nueva generación acelerará el desarrollo de Gemini y ayudará a los desarrolladores y clientes empresariales a entrenar con mayor rapidez modelos de IA generativa a gran escala, lo que permitirá, a su vez, que lleguen antes a los clientes nuevos productos y capacidades.

Superordenadores aceleradores de IA Cloud TPU v5p en un centro de datos de Google.

La responsabilidad y la seguridad como ejes centrales

En Google, se comprometen a impulsar una IA ambiciosa y responsable en todo lo que hacen. Basándose en los Principios de IA de Google y las sólidas políticas de seguridad con las que desarrollan sus productos, están añadiendo nuevas protecciones adaptadas a las capacidades multimodales de Gemini. En cada fase de desarrollo, consideran los riesgos potenciales y trabajan para probarlos y mitigarlos, afirma la marca de Mountain View (California).

Gemini cuenta con las evaluaciones de seguridad más exhaustivas de todos los modelos de IA de Google hasta la fecha, incluidas medidas contra sesgos y toxicidad. Han realizado investigaciones novedosas en posibles áreas de riesgo, como la ciberdelincuencia, la persuasión y la autonomía, aplicando las mejores técnicas de pruebas de adversarios de Google Research para identificar problemas de seguridad críticos antes del despliegue de Gemini.

Para detectar los puntos ciegos de su enfoque de evaluación interna, también prometen que trabajarán con un grupo diverso de expertos y socios externos, que se encargan de poner a prueba estos modelos en distintas situaciones.

Para diagnosticar los problemas de seguridad de los contenidos durante las fases de entrenamiento de Gemini y garantizar que sus resultados se ajustan a nuestras políticas, utilizan referencias como Real Toxicity Prompts, un conjunto de 100.000 mensajes con distintos grados de toxicidad extraídos de la web y desarrollados por expertos del Instituto Allen para la Inteligencia Artificial. Pronto darán más detalles sobre este trabajo.

Con el fin de limitar los daños, crean clasificadores de seguridad específicos para identificar, etiquetar y clasificar los contenidos que implican, por ejemplo, violencia o estereotipos negativos. Junto con filtros sólidos, este enfoque por capas está diseñado para hacer que Gemini resulte más seguro y más inclusivo para todos. Y siguen abordando retos conocidos para los modelos, como la facticidad, la fundamentación, la atribución y la verificación.

Prometen que la responsabilidad y la seguridad siempre serán fundamentales en el desarrollo y la implantación de estos modelos de IA. Es un compromiso, dicen, a largo plazo que requiere un trabajo cooperativo. Precisamente por eso, estaán colaborando con el sector y el ecosistema en general para definir las mejores prácticas y establecer parámetros de seguridad a través de organizaciones como MLCommons, el Foro Frontier Model y su Fondo de Seguridad de IA, y nuestro Marco Seguro para la IA (SAIF), que fue diseñado para ayudar a mitigar los riesgos de seguridad específicos de los sistemas de IA en los sectores público y privado.

A medida que desarrollemos Gemini, seguirán colaborando con investigadores, gobiernos y grupos de la sociedad civil de todo el mundo.

Gemini, accesible para todos

Gemini 1.0 se está implantando en una serie de productos y plataformas:

Gemini Pro en los productos de Google

Gemini llegará a miles de millones de personas a través de los productos de Google. A partir de hoy, Bard utilizará una versión perfeccionada de Gemini Pro para razonamientos más avanzados, planificación, comprensión y mucho más. Se trata de la mayor actualización de Bard desde su lanzamiento.

Estará disponible en inglés en más de 170 países y territorios, y tienen previsto ampliarlo a distintas modalidades y dar soporte a nuevos lugares e idiomas en un futuro cercano.

También estan incorporando Gemini a su gama de smartphones Pixel. Pixel 8 Pro es el primer smartphone diseñado para ejecutar Gemini Nano, que hace posibles nuevas funciones como Resumir en la Grabadora o utilizar la Respuesta inteligente de Gboard desde WhatsApp. El año próximo extenderán esta función a otras aplicaciones de mensajería.

En los próximos meses, Gemini estará disponible en otros productos y servicios de Google como el Buscador, Ads, Chrome y Duet AI.

Ya están experimentando con Gemini en la Búsqueda, donde está haciendo que la Experiencia Generativa de Búsqueda (SGE) sea más rápida para los usuarios, con una reducción del 40% en la latencia en inglés en EE. UU., además de mejoras en la calidad.

Construir con Gemini

A partir del 13 de diciembre, los desarrolladores y clientes empresariales podrán acceder a Gemini Pro a través de la API Gemini en Google AI Studio o Vertex AI.

Google AI Studio es una herramienta de desarrollo gratuita basada en web que ayuda a los desarrolladores y clientes empresariales a crear prototipos y lanzar aplicaciones rápidamente con una clave API. Cuando llega el momento de una plataforma de IA totalmente gestionada, Vertex AI permite la personalización de Gemini con un control total de los datos y se beneficia de funciones adicionales de Google Cloud para la seguridad, la protección, la privacidad y la gobernanza y el cumplimiento de los datos por parte de las empresas.

A través de AICore, los desarrolladores de Android también podrán crear aplicaciones con Gemini Nano, nuestro modelo más eficiente para tareas en el dispositivo. AICore es una nueva capacidad del sistema disponible en Android 14, a partir de los dispositivos Pixel 8 Pro.

Gemini Ultra, próximamente

En el caso de Gemini Ultra, están llevando a cabo comprobaciones exhaustivas de confianza y seguridad, incluidas pruebas de Red Team a cargo de colaboradores externos de confianza. Asimismo, siguen perfeccionando el modelo con ajustes de precisión y un aprendizaje por refuerzo basado en feedback humano (RLHF), antes de su lanzamiento.

Como parte de este proceso, pondrán Gemini Ultra a disposición de determinados clientes, desarrolladores, socios y expertos en seguridad y responsabilidad para que sean los primeros en probarlo y ofrezcan su opinión al respecto, antes de ponerlo a disposición de todos los desarrolladores y clientes empresariales en los primeros meses del próximo año.

A principios del año que viene, también lanzarán Bard Advanced, una nueva e innovadora experiencia de IA que dará acceso a los mejores modelos y funciones, empezando por Gemini Ultra.

Google Pixel 8 Pro con Inteligencia Artificial

La era Gemini: un futuro de innovación

Todo esto, tildan desde Google, es un hito significativo en el desarrollo de la Inteligencia Artificial. El comienzo de una nueva era para la compañía, en la que no dejan de innovar y avanzar de forma responsable en las capacidades de sus modelos.

Ya han hecho grandes progresos con Gemini y actualmente trabajan para ampliar aún más sus capacidades en futuras versiones, incluyendo avances en la planificación y la memoria, y el aumento de la ventana de contexto para procesar aun más información ofreciendo mejores respuestas.

Fianlmente, dicen estar entusiasmados con las increíbles posibilidades de un mundo responsablemente potenciado por la IA: un futuro de innovación que mejorará la creatividad, ampliará el conocimiento, hará avanzar la ciencia y transformará la forma de vivir y trabajar de miles de millones de personas en todo el mundo.

Volcando Ideas | Comunicación | San Pedro Alcántara
Contacto: Manuel Fernández Valdivia
Whatsapp: +34 636 213 512
Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. · www.volcandoideas.es