Hoy hablamos de
Dígitos y Andróminas

La IA que razona: más marketing que realidad

Los agentes de IA, que también son tendencia, no ofrecen por el momento los resultados que prometen sus promotores

Inteligencia artificial.
11/04/2025
5 min
Regala este articulo

BarcelonaLas dos tendencias que están marcando en 2025 en lo que se refiere al desarrollo de la inteligencia artificial (IA) aplicada son el supuesto "razonamiento profundo" de los chatbots y los llamados "agentes de IA". Ambas prometen revolucionar nuestra interacción con la tecnología, pero ¿hasta qué punto estas promesas se corresponden con la realidad? ¿Y hasta qué punto podemos fiarnos?

Chatbots que "razonan"... ¿o lo hacen ver?

Los grandes desarrolladores como OpenAI, Google, Anthropic y DeepSeek aseguran que sus modelos más avanzados pueden ahora "razonar". A diferencia de las versiones iniciales, que respondían de inmediato, estos nuevos sistemas pueden pasar segundos o minutos trabajando en un problema antes de contestar, mientras nos entretienen explicándonos lo que hacen. Supuestamente, esta tecnología de "razonamiento" ya ha superado a los sistemas líderes en las pruebas –unas pruebas a menudo cuestionadas– que miden el progreso de la IA.

¿Pero qué significa realmente que una IA "razone"? Según Dan Klein, de la Universidad de California en Berkeley, "el razonamiento es cuando el sistema realiza un trabajo suplementario tras serle formulada la pregunta". En algunos casos, un sistema de razonamiento puede afinar el enfoque de una cuestión probando diversas formas de abordarla o revisando tareas anteriores. Básicamente, el sistema prueba todo lo que puede por responder.

Sin embargo, investigadores de la Universidad Carnegie Mellon y otras instituciones han sometido a los LLM (Large Language Models) a pruebas en tareas del mundo real, como organizar reuniones, analizar hojas de cálculo o evaluar actualizaciones de código. Los resultados no son muy alentadores: el mejor modelo de todos en ese momento, el Claude 3.5 de Anthropic, sólo alcanzó un 24% de éxito. Lo preocupante es que muchos errores se produjeron por falta de sentido común o por confundir el mundo real con el software.

Un reciente estudio de Apple también cuestiona seriamente las capacidades de razonamiento de los actuales modelos. Según Mehrdad Farajtabar, uno de los autores, no ha encontrado "ninguna evidencia de razonamiento formal en los modelos de lenguaje". "Su comportamiento se explica mejor como un sofisticado reconocimiento de patrones, tan frágil que cambiar nombres puede alterar sus resultados en aproximadamente un 10%".

Gary Marcus, uno de los principales críticos con la exageración sobre los avances en IA, ha señalado repetidamente que estos sistemas fallan sistemáticamente cuanto mayores son los problemas. Incluso los modelos más avanzados, como el O1 de OpenAI, sufren una pérdida de rendimiento cuando la complejidad de las tareas crece, a diferencia de lo que ocurriría con una calculadora convencional, que mantendría el 100% de precisión.

Una investigación particularmente reveladora de Anthropic publicada en octubre de 2024, titulada La biología de un LLM, examinó cómo funciona internamente su propio modelo Claude 3.5 Haiku. El estudio reveló notables discrepancias entre lo que el modelo dice que hace y lo que realmente hace cuando procesa la información. Por ejemplo, cuando se le preguntó cómo había calculado 36+59, el modelo respondió: "Sumé las unidades (6+9=15), llevé el 1, después sumé las decenas (3+5+1=9), con un resultado de 95". Pero el análisis interno mostró que en realidad estaba utilizando mecanismos muy diferentes, tales como características de "baja precisión" para aproximar el resultado y tablas de consulta para determinar el dígito exacto final.

Agentes de IA: promesas a la espera de resultados

Si el razonamiento en chatbots ya genera dudas, los "agentes de IA" -sistemas diseñados para actuar de forma autónoma en nombre de los usuarios- están aún más rodeados de confusión y expectativas exageradas. Según Gartner, sólo un 6% de las empresas afirman haber aplicado agentes de IA, aunque se estima que el gasto mundial en IA generativo superará los 600.000 millones de euros a finales de 2025.

imagina al animal de manera diferente", afirma Prem Natarajan, científico jefe de IA en Capital One. "Muchos de lo que las empresas llaman agentes de IA hoy en día son realmente sólo chatbots y asistentes de IA", añade Tom Coshow, analista de Gartner.

¿Qué hace que un sistema sea realmente un agente? Según Coshow, se define por dos preguntas simples: "La IA toma una decisión y el agente de IA ejecuta una acción". Si no se cumplen estos requisitos, probablemente sólo sea otro asistente.

Empresas como OpenAI, Google, Microsoft, Amazon y Anthropic están apostando fuertemente por los agentes, anunciando novedades como Nueva Act de Amazon, Operator de OpenAI o Computer Use de Anthropic. En entornos empresariales, tiene cierto sentido contagiar a un agente, por ejemplo, que vigile el rendimiento de cada una de las antenas de móvil de una operadora y aplique las correcciones pertinentes en caso de incidencia, como hace lo que Google ha presentado esta semana. En cambio, en el ámbito de los consumidores, los agentes prometen automatizar tareas básicas como encargar comida o realizar reservas de viajes, pero su fiabilidad es muy limitada. Las pruebas demuestran que estos sistemas son lentos, les cuesta operar de forma independiente durante mucho tiempo y cometen errores que un humano no haría.

Riesgos para la privacidad y la seguridad

El entusiasmo por estas tecnologías esconde a menudo los importantes riesgos asociados. Los agentes de IA necesitan acceso profundo al entorno digital de los consumidores, planteando problemas graves de privacidad: pueden recoger una gran cantidad de datos personales, desde información biométrica e historial de navegación hasta datos financieros y patrones de compra. Por lo general, los usuarios desconocen qué datos recogen estos agentes, cómo se utilizan y quién tiene acceso a ellos.

También existen riesgos de ciberseguridad: se descubrió que el agente experimental de Anthropic tenía una vulnerabilidad que podía ser aprovechada para descargar y ejecutar software malicioso. Los agentes de IA podrían ser manipulados por actores maliciosos, que podrían explotar sus capacidades para realizar acciones no autorizadas o exponer datos sensibles. Este riesgo se ve agravado por la falta de marcos reguladores completos para supervisar la creación de estas tecnologías y su aplicación.

Entre el escepticismo y las realidades comerciales

Los datos de Gartner sobre la inversión en IA generativa indican que el 80% del gasto se destinará a hardware, como servidores, teléfonos inteligentes y ordenadores, a medida que todos los fabricantes integran la IA como función estándar en sus dispositivos, tal y como se ha visto en el reciente MWC25. Esto refleja más una estrategia para forzar la compra de nuevos aparatos que una respuesta a las necesidades reales de los usuarios.

La realidad es que, a pesar de todas las promesas, ni los chatbots razonan cómo los humanos ni los agentes de IA son tan autónomos y capaces como quieren hacernos creer. Como señala Gary Marcus, "el refugio de los fans de los LLM siempre es descartar cualquier error individual, pero los patrones que vemos son demasiado amplios y sistemáticos".

Mientras los gigantes digitales y las empresas incipientes siguen promocionando estas nuevas capacidades –empujadas sobre todo por la necesidad de justificar enormes inversiones ante los accionistas–, tanto los consumidores como las empresas harían bien en mantener el escepticismo y evaluar estas tecnologías por sus resultados tangibles, no por lo que prometen.

stats