Gemini modo Dios: IA de Google ahora “ve” a través de la cámara del celular

27 marzo, 2025 - 2:19 PM

5 minutos de lectura

Imagen sin descripción

Inteligencia Artificial

Escuchar el artículo

Detener el artículo

La inteligencia artificial continúa avanzando, y Google dio un nuevo paso con su modelo Gemini, que ahora puede “ver” en tiempo real lo que sucede en la pantalla del dispositivo o mediante su cámara, ofreciendo respuestas mucho más contextuales y precisas.

Esta nueva función está basada en la tecnología de Project Astra, una iniciativa presentada por Google hace un año, con el objetivo de desarrollar IA multimodal, es decir, capaz de interpretar simultáneamente texto, imágenes y video.

Actualmente, esta función se encuentra disponible solo para algunos usuarios suscritos a Google One, pero se espera que se extienda próximamente a un público más amplio.

Con esta actualización, los asistentes virtuales ya no se limitan solo a leer texto, sino que también pueden interpretar lo que el usuario ve, convirtiendo a Gemini en una herramienta aún más poderosa y versátil.

Ahora, esta tecnología se ha integrado plenamente en Gemini, permitiendo que el modelo no solo interprete texto, sino, además, lo que ocurre en la pantalla de un celular o lo que capta la cámara en tiempo real.

La implementación de esta tecnología en Gemini se traduce en una experiencia más inmersiva y práctica para los usuarios. El chatbot ahora puede analizar videos en tiempo real y generar conversaciones basadas en el contenido visual.

Esta nueva funcionalidad abre un abanico de posibilidades, desde resolver problemas técnicos hasta proporcionar información detallada sobre lo que se muestra en pantalla.

Entre las nuevas funciones destacadas se encuentra la opción de grabación de pantalla en tiempo real. Con esta herramienta, los usuarios pueden activar un botón que permite a Gemini observar todo lo que ocurre en su dispositivo. Esto incluye navegar por sitios web, disfrutar de videojuegos o reproducir videos.

Mientras tanto, el usuario puede interactuar con el chatbot, formulando preguntas o solicitando aclaraciones sobre el contenido que se está mostrando, una característica que convierte a Gemini en una herramienta versátil y muy funcional para una amplia gama de escenarios.

La capacidad de Gemini para interpretar contenido visual en tiempo real tiene implicaciones esenciales en diversos campos. Esta tecnología podría ser utilizada en áreas como la educación, donde los estudiantes podrían recibir explicaciones detalladas sobre videos o imágenes en tiempo real.

También, podría tener aplicaciones en el ámbito profesional e investigativo, facilitando tareas como la revisión de documentos visuales o la resolución de problemas técnicos.

Además, la integración de Project Astra en Gemini representa un avance hacia una interacción más natural y fluida entre humanos y máquinas. Al permitir que la inteligencia artificial “vea” y comprenda el contexto visual, se reduce la necesidad de explicaciones verbales o escritas, lo que agiliza la comunicación y mejora la experiencia del usuario.

La incorporación de estas capacidades coloca a Gemini en una posición destacada dentro del competitivo mercado de la inteligencia artificial. Según análisis de varios expertos, esta tecnología es comparable a la anunciada previamente por OpenAI, que también trabaja en dotar a sus modelos de capacidades visuales.

Algo que es diferente es que la implementación de Project Astra en Gemini parece haber sido diseñada para maximizar la utilidad y la accesibilidad para el usuario final, lo que podría darles una ventaja frente a sus competidores.

Google ha estado en una constante carrera por mejorar y expandir las capacidades de Gemini. En los últimos meses, la compañía ha lanzado actualizaciones, muchas de las cuales han incluido funciones que anteriormente eran exclusivas de los planes de pago, pero que ahora están disponibles de forma gratuita para los usuarios.

Esta estrategia podría ser una estrategia para buscar atraer a más usuarios, y así consolidar a Gemini como una de las herramientas de inteligencia artificial más avanzadas y accesibles del mercado.

Relacionadas

Más Vistas

Recientes

Gemini modo Dios: IA de Google ahora “ve” a través de la cámara del celular

Visita de Macron a China se enfoca en Ucrania y en fortalecer el equilibrio económico

Virgilio Merán destaca inversiones del presidente Abinader en SDN y apuesta a la continuidad municipal

Fallece Cary-Hiroyuki Tagawa, villano del filme 'Mortal Kombat'

Netflix compra Warner Bros. Discovery, HBO Max y HBO por 82.700 millones de dólares

La UE multa con 120 millones de euros a X, la red social de Elon Musk