Google Gemini
| ||||||||||||||||||||||||||||||||||
Google Gemini es un modelo de inteligencia artificial conversacional, generativa y multimodal desarrollado por la empresa Google. Inicialmente fue lanzado bajo el nombre de Google Bard, y está basado en la arquitectura Gemini Pro, como parte de la estrategia de la compañía en el ámbito de los modelos de lenguaje avanzados.
Su creación respondió al creciente interés y competencia en el campo de la inteligencia artificial, impulsado especialmente por la popularidad de ChatGPT, desarrollado por OpenAI. El lanzamiento inicial de Gemini tuvo lugar en marzo de 2023 de manera limitada, generando reacciones mixtas. Posteriormente, fue presentado oficialmente durante el evento Google I/O, celebrado el 10 de mayo del mismo año en Mountain View, California. En cuanto a su despliegue en Europa, este fue pospuesto hasta julio de 2023 debido a consideraciones legales relacionadas con el Reglamento General de Protección de Datos (RGPD) de la Unión Europea.
Sumario
Origen y desarrollo
En noviembre de 2022, la empresa OpenAI lanzó ChatGPT, un modelo conversacional basado en la arquitectura GPT-3, que rápidamente captó la atención global y se convirtió en un fenómeno en Internet. Ante el potencial impacto de esta nueva tecnología sobre su motor de búsqueda, Google declaró un estado de alerta interna conocido como «código rojo». Como parte de esta respuesta, la compañía reorganizó diversos equipos para enfocarse en el desarrollo de soluciones propias en el ámbito de la inteligencia artificial.
De forma inusual, los cofundadores de Google, Larry Page y Sergey Brin —quienes habían dejado sus cargos ejecutivos en Alphabet en 2019— fueron convocados para participar en reuniones estratégicas junto a los directivos actuales. En estos encuentros se discutió la mejor forma de responder al avance de ChatGPT. Aunque Google ya contaba con un modelo lingüístico de gran escala, LaMDA, los directivos expresaron reservas sobre un despliegue apresurado, citando posibles riesgos reputacionales debido al tamaño y visibilidad global de la empresa.
En enero de 2023, Demis Hassabis, director general de Google DeepMind, anunció oficialmente la intención de desarrollar un sistema rival de ChatGPT. Como parte de este esfuerzo, Google aceleró las pruebas internas de diversos bots conversacionales, entre ellos "Apprentice Bard".
Durante el primer trimestre de 2023, el CEO Sundar Pichai confirmó que la compañía tenía planes de ampliar las capacidades y disponibilidad de LaMDA. Sin embargo, el lanzamiento inicial de Bard fue recibido con críticas, especialmente tras proporcionar información incorrecta sobre el telescopio espacial James Webb.
En diciembre de 2023, Google integró el modelo Gemini Pro en la plataforma Bard para usuarios en inglés, dotándola de funciones mejoradas de comprensión, razonamiento, resumen y programación. Posteriormente, el 1 de febrero de 2024, Gemini Pro fue habilitado en más de 40 idiomas y distribuido en más de 230 países y territorios. Poco después, el 8 de febrero de 2024, la compañía anunció el cambio oficial de nombre de Bard a Gemini.
El 15 de febrero de 2024, fue presentada la versión Gemini 1.5. De acuerdo con información divulgada por Google, el modelo Gemini 1.5 Pro superó a su predecesor, Gemini 1.0 Pro, en el 87 % de las pruebas de referencia empleadas para evaluar modelos de lenguaje de gran escala (LLM, por sus siglas en inglés).
Recepción pública y controversias
Respuesta crítica
Tras su lanzamiento, Gemini —entonces conocido como Bard— recibió críticas mixtas. James Vincent, de The Verge, destacó su velocidad superior frente a ChatGPT y Microsoft Copilot, aunque lamentó la ausencia de notas al pie, lo cual consideró una ventaja y una desventaja. Su colega David Pierce criticó las respuestas poco interesantes e inexactas, y señaló que la interfaz se asemejaba a la de un motor de búsqueda, lo cual podría generar confusión sobre su propósito. Cade Metz, del The New York Times, describió a Bard como una herramienta «más cautelosa» en comparación con sus competidores, mientras que Shirin Ghaffary, de Vox, lo consideró «seco y poco controvertido».
Geoffrey A. Fowler, columnista de The Washington Post, observó una actitud precavida en las respuestas, pero con posibles sesgos derivados del contenido en línea. Sabrina Ortiz, de ZDNET, consideró que ChatGPT y Bing Chat eran más capaces, y Lauren Goode, de Wired, calificó su experiencia con Bard como la más extraña entre los asistentes probados. Kevin Roose, del New York Times, criticó como poco impresionantes las nuevas extensiones, mientras que Lakshmi Varanasi, de Business Insider, señaló una inclinación hacia la adulación más que hacia la precisión factual.
En una entrevista del programa 60 Minutes, el periodista Scott Pelley calificó a Gemini de «inquietante». Ethan Mollick, profesor en la Universidad de Pensilvania, expresó decepción por su limitada creatividad artística. En una prueba comparativa entre ChatGPT y Gemini realizada por The New York Times, se concluyó que ChatGPT tenía un rendimiento claramente superior en tareas propias de un asistente. No obstante, NewsGuard indicó que Gemini era más eficiente que ChatGPT al refutar teorías conspirativas. Por otro lado, un informe de la Associated Press advirtió sobre el riesgo de que Gemini y otros chatbots generaran información falsa que pudiera desinformar a los votantes.
Controversia por generación de imágenes
En febrero de 2024, Gemini fue objeto de críticas al generar imágenes históricamente inexactas, como personas racializadas representadas como soldados nazis o vikingos, y por negarse a crear imágenes de personas blancas bajo ciertas solicitudes. El incidente fue ampliamente comentado en redes sociales, especialmente por sectores conservadores, incluyendo al empresario Elon Musk, quien calificó los productos de Google como sesgados. Diversas publicaciones, como el New York Post, reflejaron el tema en sus portadas.
Ante la polémica, Google suspendió temporalmente la función de generación de imágenes humanas en Gemini. Jack Krawczyk, portavoz de la compañía, reconoció los errores y prometió mejoras inmediatas. Prabhakar Raghavan emitió un comunicado señalando un exceso de compensación en los esfuerzos de diversidad. Sundar Pichai calificó la situación de «ofensiva e inaceptable» en un memorando interno y anunció cambios estructurales y técnicos. Poco después, varios empleados del equipo de confianza y seguridad de Google fueron despedidos. Demis Hassabis, director ejecutivo de Google DeepMind, indicó que la función sería restaurada en dos semanas.
El escándalo provocó una caída del 4,4 % en el valor de las acciones de Google y aumentaron los llamados a la dimisión de Pichai. Ben Thompson, analista tecnológico, y otros comentaristas criticaron la gestión de la compañía. Los republicanos en la Cámara de Representantes de Estados Unidos citaron a Google ante posibles casos de colusión con la administración Biden. Analistas de Business Insider y Bloomberg atribuyeron los problemas al apresurado lanzamiento del producto, más que a sesgos ideológicos. Especialistas como Sasha Luccioni, de Hugging Face, y Alan Woodward, de la Universidad de Surrey, señalaron que los errores estaban profundamente arraigados en los datos de entrenamiento y los algoritmos del modelo.
Otros incidentes
Tras la controversia con las imágenes, surgieron acusaciones sobre un supuesto sesgo ideológico de izquierda en las respuestas textuales de Gemini. En un caso citado con frecuencia, el chatbot declaró que era difícil determinar si Elon Musk o Adolf Hitler habían tenido un impacto más negativo en la sociedad.
En la India, el ministro adjunto de Electrónica e Información, Rajeev Chandrasekhar, acusó a Google de violar las leyes de tecnología del país por negarse a resumir un artículo del sitio de derecha OpIndia. Además, Gemini afirmó que el primer ministro Narendra Modi había implementado políticas de carácter fascista, pero no expresó comentarios similares cuando se le preguntó sobre Donald Trump o Volodímir Zelenski. Por otra parte, en Francia, Google fue multada con 250 millones de euros por la Autorité de la concurrence, debido en parte al uso no informado de contenido de medios locales en el entrenamiento de Gemini.
Comparativa con otros modelos
Google Gemini se ha posicionado como uno de los principales competidores de otros modelos de inteligencia artificial generativa, destacándose frente a modelos como ChatGPT de OpenAI, Claude de Anthropic, y Grok de xAI. A continuación se analizan las principales características que distinguen a Gemini de sus competidores:
1. Capacidad Multimodal
Google Gemini destaca por su capacidad para manejar tanto texto como imágenes, lo que lo hace más versátil que otros modelos como ChatGPT, que en sus versiones previas no contaba con integración nativa de imágenes. Mientras que ChatGPT ha evolucionado para incorporar funciones multimodales, como la capacidad de analizar imágenes en su versión GPT-4, Gemini fue diseñado desde sus inicios para integrar estos aspectos de forma más fluida[1]. Este enfoque ha permitido a Gemini generar contenido visual y textual en combinación, mejorando la experiencia de usuario y ampliando su aplicabilidad en áreas como el diseño, marketing y educación.
2. Velocidad y Eficiencia
Google Gemini ha sido objeto de análisis comparativo con ChatGPT, particularmente en cuanto a velocidad y eficiencia. Un estudio realizado por Google mostró que Gemini 1.5 Pro superó a su predecesor, Gemini 1.0 Pro, en un 87% en las pruebas de referencia de grandes modelos lingüísticos[2]. En comparación con otros modelos de OpenAI, Gemini ha demostrado ser más rápido en algunas tareas de procesamiento de información, aunque ChatGPT ha sido elogiado por su precisión en la generación de respuestas más detalladas y específicas en ciertos casos[3].
3. Adaptabilidad en Idiomas
Google Gemini tiene un amplio soporte de idiomas, abarcando más de 40 lenguas y estando disponible en más de 230 países[4]. Esta capacidad multilingüe ha sido un punto fuerte frente a otros modelos como GPT-3 y GPT-4, que, aunque también soportan una variedad de idiomas, aún enfrentan limitaciones en cuanto a la precisión en lenguas no inglesas[5]. Gemini ha integrado su sistema de comprensión de idiomas con el objetivo de mejorar la interacción en diversos contextos culturales y lingüísticos.
4. Generación de Contenido Confiable y Sesgo
Un área en la que Google Gemini ha sido comparado con modelos como ChatGPT es la capacidad de generar contenido confiable y sin sesgo. Según un informe de NewsGuard, Gemini ha demostrado ser más efectivo que otros modelos en desacreditar teorías de conspiración conocidas[6]. Sin embargo, a pesar de estas mejoras, Gemini ha sido criticado por sesgos hacia ciertos temas y por su tendencia a generar respuestas conservadoras o cautelosas, en comparación con modelos como GPT-4, que tienden a ser más audaces en su procesamiento de datos[7].
5. Aplicaciones Empresariales y Comerciales
La integración de Gemini con herramientas de Google, como Google Docs, Gmail y su API, le ha permitido penetrar el mercado empresarial de manera más sólida que modelos como Claude, que, aunque especializado en tareas de conversación, tiene menos presencia en el ecosistema de productividad digital[8]. La implementación de Gemini en el ecosistema de Google ha facilitado la adopción por parte de empresas, especialmente en áreas como atención al cliente automatizada y análisis de datos.
Véase también
Referencias
Fuentes
- Wikipedia en español - "Gemini" (modelo de IA). Consultado el 11 de mayo de 2025. Disponible en: https://es.wikipedia.org/wiki/Gemini
- The New York Times - "Google Is Competing With OpenAI. Will It Win?. Consultado el 10 de mayo de 2025. Disponible en: https://www.nytimes.com/2023/02/08/technology/google-openai-chatbot-ai-bard.html
- The Washington Post - "Google Bard and ChatGPT: A comparison of AI chatbots. Consultado el 10 de mayo de 2025. Disponible en: https://www.washingtonpost.com/technology/2023/02/06/google-chatgpt-bard-ai-comparison/