La IA es una gran caja negra que nos impedía saber cómo “pensaba” por dentro. Hasta ahora

La IA no tienen ni idea de lo que dice ni por qué lo dice. Cuando nos responde casi todo tiene sentido —incluso sus meteduras de pata—, pero solo nos lo parece a nosotros, porque las máquinas no entienden lo que hacen. Simplemente lo hacen. No sabemos cómo piensan por dentro las IAs, pero eso parece poder cambiar pronto.
Abriendo la caja negra. Los responsables de Anthropic, empresa creadora del chatbot Claude, afirman haber hecho un descubrimiento importante que permitirá comenzar a entender cómo funcionan los LLM. Estos modelos funcionan como grandes cajas negras: sabemos qué les damos de partida (un prompt) y qué obtenemos como resultado, pero sigue siendo un misterio qué pasa dentro de esa «caja negra» y cómo los modelos acaban generando el contenido que generan.
Por qué es importante saber cómo «piensa» la IA. La inescrutabilidad de los modelos de IA genera problemas importantes. Por ejemplo, hace difícil prever si «alucinarán» o cometerán errores, y por qué los han cometido. Precisamente saber cómo funcionan por dentro permitiría entender mejor esas respuestas incorrectas para corregir esos problemas y mejorar el comportamiento de estos modelos.
Más seguros, más fiables. Saber por qué las IAs hacen lo que hacen como lo hacen sería también crucial para poder fiarnos mucho más de ellas. Estos modelos permitirían por lo tanto dar muchas más garantías en ámbitos como la privacidad y protección de los datos, algo que puede ser una barrera para que las empresas los utilicen.
Y los modelos de razonamiento, qué. La aparición de modelos como o1 o DeepSeek R1 ha permitido que durante esos procesos de «razonamiento» la IA muestre aparentemente qué está haciendo en cada momento. Esa lista de minitareas que va completando («buscando en la web», «analizando la información», etc.) son útiles, pero la llamada «cadena de pensamiento» no refleja realmente cómo están procesando estos modelos nuestras peticiones.

¿Cómo calcula Claude cuánto son 36+59? El mecanismo no está del todo claro, pero en Anthropic comienzan a descifrarlo. Fuente: Anthropic.
Descifrando cómo piensa la IA. Los expertos de Anthropic han creado una herramienta que trata de descifrar esa caja negra. Es algo así como los escánares de resonancia magnética que estudian el cerebro humano y permiten detectar qué regiones del cerebro desempeñan su papel en ciertos ámbitos cognitivos.
Respuestas a largo plazo. Aunque modelos como Claude están entrenados para predecir la siguiente palabra en una frase, en algunas tareas parece que Claude hace una especie de planificación a más largo plazo de la tarea. Por ejemplo, si le pedimos que escriba un poema Claude primero encuentra palabras que se ajustan al tema del poema y luego vuelve atrás para crear las frases que permitirán generar los versos y las rimas del poema.
Un idioma para pensar, muchos para traducir. Aunque Claude tiene soporte multiidioma, los expertos de Anthropic revelan que su funcionamiento al manejar varios idiomas no es «pensar» en esos idiomas directamente. En lugar de eso usa conceptos que son comunes en varios idiomas, así que parece «razonar» en un mismo idioma y luego traduce la salida al idioma deseado.
Los modelos hacen trampas. Esa investigación también reveló que los modelos pueden mentir sobre lo que están haciendo e incluso pueden fingir que están pensando cuando en realidad ya tienen la respuesta a nuestra petición. Uno de los desarrolladores de Claude, Josh Batson, explicaba cómo «aunque [el modelo] afirma haber realizado un cálculo, nuestras técnicas de interpretabilidad no revelan ningún indicio de que se haya producido».
Cómo funciona el descifrado de Anthropic. El método de Anthropic hace uso del llamado Cross-Layer Transcoder (CLT) que trabaja analizando conjuntos de características interpretables en lugar de tratar de analizar «neuronas» individuales. Por ejemplo, esas características podrían ser todas las conjugaciones de un verbo concreto. Eso permite a los investigadores identificar «circuitos» completos de neuronas que tienden a unirse en esos procesos.
Un buen comienzo. En el pasado OpenAI ya trató de lograr descubrir cómo pensaban sus modelos de IA, pero no tuvo mucho éxito. El trabajo de Anthropic tiene limitaciones notables, y por ejemplo no sabe por qué los LLM prestan más atención a ciertas partes del prompt que a otras. Aun así según Batson «en un año o dos sabremos más de cómo piensan estos modelos de lo que sabemos sobre cómo piensa la gente».