Google incrusta aún más la IA en su buscador
La compañía impregna todos los productos y servicios de inteligencia artificial, pero pone en un segundo plano a la generativa
Barcelona120 veces pronunció este martes Sundar Pichai, el consejero delegado de Google, las mágicas siglas IA durante su intervención en la sesión inaugural del I/O 2024, el congreso anual del gigante de internet para creadores de aplicaciones y servicios digitales. Y la cifra no incluye las menciones a la tecnología que realizaron la décima larga de subordinados de Pichai que pasaron, en dos horas, por el escenario del Shoreline Auditorium de Mountain View, cerca de la sede de Google.
Estaba cantado que la inteligencia artificial sería la gran protagonista del acto. De hecho, no es el primer I/O en el que la empresa se esfuerza en recordar que lleva más de una década centrándose en la IA, desde la investigación básica hasta las capacidades de su infraestructura de centros de datos, pasando por la adopción en los productos y servicios. Pero OpenAI y su ChatGPT han monopolizado la atención del público en estos dos últimos años, y Google se ha propuesto cambiar esta percepción.
No está garantizado que lo consiga. En la sesión de este martes, el gigante de internet ha ido enumerando tantas variantes de grandes modelos lingüísticos, chatbots, aplicaciones, interfaces de programación y plataformas de IA que resulta difícil detallarlos todos para una audiencia no técnica. El resumen es que más de un millón y medio de desarrolladores ya incluyen a Gemini, el modelo de lenguaje multimodal de IA que Google presentó en la edición anterior del I/O, y que 2.000 millones de usuarios ya usan Gemini dentro de productos de Google, como el buscador web, el álbum de fotos, los mapas o el sistema operativo Android para móviles. La versión actual de Gemini es la 1.5 Pro, que según Google admite indicaciones mucho más precisas y con mayor contexto que cualquier otro competidor, sea el GPT-4 de OpenAI o el Claude más reciente de Anthropic. En esta ocasión se le ha añadido la nueva versión Flash, más ligera y menos exigente en recursos para tareas más sencillas.
Hasta que no podamos probarlo en acción, la mejor manera de explicar las capacidades de Gemini 1.5 Pro –disponible para el público sólo mediante la modalidad de pago Gemini Advanced, que añade 12 euros mensuales a la cuota del servicio Google One– es reseñar las funciones que añade a algunas aplicaciones de la propia Google. Como exhibición de la capacidad de Advanced, Google asegura que puedes cargarle un PDF de 1.500 páginas, 30.000 líneas de código o una hora de vídeo y realizarle consultas sobre todo este contenido.
El buscador web sigue avanzando en la llamada SGE (por las siglas inglesas de Experiencia Generativa de Búsqueda), donde el usuario no obtiene una lista de enlaces externos en respuesta a su búsqueda web, sino un párrafo con qué Google responde a la consulta en lenguaje natural a partir de la información procedente de diversas fuentes.
La empresa llama AI Overviews (resúmenes con IA), que inicialmente sólo estarán disponibles en EEUU y que amenazan a toda la industria del posicionamiento web (SEO) y, por otra parte, plantea numerosas dudas sobre las obligaciones adquiridas con los propietarios de la información original, como son los medios de comunicación: algunos ya han empezado a demandar a Google y otros se plantean esconder completamente su contenido en el buscador. Éste pasa a ser también la interfaz preferente para otras operaciones, como planificar los menús de la semana según nuestros gustos o el itinerario turístico de un viaje a partir de las reservas de avión y hotel.
La aplicación de Fotos –que cada día recibe 6.000 millones de imágenes y vídeos nuevos– incorpora la nueva función Ask Photos, con la que puedes pedirle que te recuerde cuando aprendió a nadar a tu hija y que te haga una recopilación visual de sus progresos. O que te muestre tu mejor foto de cada uno de los parques nacionales que has visitado. En una exhibición de multimodalidad, también puedes hacer una panorámica en vídeo de tu librería y Gemini te devuelve una lista estructurada de los títulos y autores.
En las aplicaciones de ofimática de Workspace, puedes pedirle a Gmail que te resuma todos los correos recientes relacionados con la escuela de tu hijo o los acuerdos de la última reunión telemática del AMPA. Si pagas por Gemini Advanced, las aplicaciones de Workspace muestran ahora un panel lateral (al estilo del Copiloto de Microsoft) para invocar estos resúmenes de conversaciones, o comparar los distintos presupuestos que hemos recibido por correo para una reforma del hogar. También se utiliza la IA para interactuar de forma cruzada entre aplicaciones, como crear una cita en el calendario desde Gmail.
En la misma línea, la aplicación NotebookLM incluye ahora el llamado Audio Overview: le das todos los apuntes de clase y te genera una disertación sonora sobre el tema, pero el usuario puede interrumpirla para pedir aclaraciones. O hacer que adapte la explicación teórica a un caso práctico: las leyes de la física en la trayectoria de una pelota de baloncesto.
Uno de los experimentos que ya se pueden probar en https://labs.google es el Proyecto Astra. Lo califican de asistente IA universal para la vida cotidiana: enfocas una escena con la cámara del móvil, le pides cuál de los objetos puede sonar, te indica el altavoz que hay en un rincón, y marcando con el dedo sobre la imagen puedes pedirle qué es este elemento y te explica que es el altavoz de agudos.
Google también ha presentado nuevos modelos de IA generativa para crear imágenes, música y vídeo. Impresiona especialmente al tercero, llamado Veo, que crea vídeos a partir de instrucciones de texto y de imágenes, incluso con efectos visuales. En YouTube pueden verse muestras, que Google asegura que no han sido editadas para desmarcarse de lo que han hecho algunos rivales con herramientas similares. Especialmente interesantes son los nuevos Gems, chatbots personalizables para ejecutar operaciones, consultas o extracciones de datos que necesitamos realizar a menudo.
Naturalmente, Google incluye cada vez más IA en los teléfonos móviles con el sistema Android. De hecho, insiste en destacar que sólo estos –en concreto sus Pixel y los Galaxy de Samsung– llevan a Gemini, justo mientras Apple está eligiendo entre la IA de Google y la de OpenAI para poner al día la Siri de los iPhones. A partir de ahora, el Gemini del teléfono se puede mostrar sobre las otras aplicaciones, por lo que puedes hacerle preguntas sobre el vídeo que estás mirando en YouTube o sobre el contenido del PDF que tienes abierto. Una nueva función asombrosa tiene que ver con la ciberseguridad: el Gemini del móvil puede escuchar las llamadas que recibes y si detecta alguna frase sospechosa te avisa de que podría ser una estafa.
La mayoría de estas novedades irán llegando progresivamente a las aplicaciones, los territorios y los idiomas. Veremos cuántas se pueden acabar utilizando en catalán.