La próxima revolución de la IA generativa no será razonar mejor, sino integrarse en robots físicos. Y cambiará la robótica para siempre
En el mundo tecnológico estamos fascinados con chatbots que escriben ensayos y se toman su tiempo razonando. Grok 3 va, Claude 3.7 viene, mientras tanto está ocurriendo algo menos visible pero más profundo: el comienzo de la fusión entre la IA conversacional y los cuerpos mecánicos.
Por primera vez, los robots no solo ejecutan instrucciones preprogramadas. Ahora también, a su manera, comprenden.
Históricamente, la robótica y la IA han seguido caminos separados. Paralelos, pero separados. Los robots industriales eran tan precisos como estúpidos. Los sistemas de IA son inteligentes, pero incorpóreos.
Pensemos en los brazos robóticos que han existido en líneas de montaje desde hace décadas. Milimétricamente exactos, pero absolutamente perdidos si un solo componente aparecía en una posición ligeramente distinta a la esperada.
La nueva generación de robots conectados a LLMs puede ahora interpretar instrucciones ambiguas, como «tráeme algo para la sed», y resolver el problema mediante razonamiento (palabra del año), evaluando qué bebidas hay disponibles, si el usuario mostró preferencia por alguna y hasta si hay hielo en el congelador.
Ya no programamos movimientos específicos, sino más bien objetivos generales.
Los robots de Figure son buenos ejemplos. Tan buenos que ya hasta trabajan de forma autónoma en una fábrica de BMW. Según acaba de publicar la empresa, hasta pueden recibir instrucciones verbales genéricas, como recoger piezas, y sin necesidad de una programación específica previa son capaces de analizar visualmente el entorno y detectarlas.
Hasta pueden pausar, reevaluar la situación y corregir el error si alguien modifica las piezas. Esta capacidad de adaptación contextual era impensable hace un par de años.
Lo realmente rompedor de esta IA incrustada en robots es que puede aprender de forma muy distinta. Los LLMs entrenados con texto carecen de comprensión física del mundo. Los robots tradicionales carecen de intuición contextual. Al fusionarlos emerge una inteligencia que comprende tanto la semántica como la física.
Un robot equipado con LLMs no solo es capaz de entender la instrucción «abre esa caja sin dañar su contenido», sino que puede improvisar ante cajas nunca vistas, evaluando materiales, cierres y fragilidades.
La revolución, lamentablemente, no va a ser espectacular como en la ciencia-ficción noventera, sino que llegará en forma de brazos robóticos en fábricas que podrán reconfigurarse con una orden verbal. O de robots de almacén que entenderán prioridades contextuales. O asistentes médicos capaces de interpretar necesidades no verbalizadas de sus pacientes.
Boston Dynamics, el no-va-más de la robótica durante esta última década gracias a sus robots saltando y haciendo parkour, ya no está tan interesada en las acrobacias como en integrar sistemas de comprensión que permitan a sus máquinas entender instrucciones complejas en entornos de construcción e industria. Solo hay que ver su web. Y en el horizonte asoman el Optimus de Tesla o el CyberOne de Xiaomi. O Unitree como una de las grandes apuestas tecnológicas chinas.
El gran cambio llegará cuando estos sistemas dejen de fallar ante lo imprevisto y empiecen a aplicar principios generales de razonamiento físico y contextual. No estamos viendo el nacimiento de la conciencia artificial, pero sí el de la comprensión del mundo físico y del mundo del significado en un solo sistema integrado.
Lo que hace esta convergencia tan potente es su naturaleza silenciosa. Nos pilla discutiendo sobre si Grok 3 merece un mejor producto o sobre si ChatGPT 4.5 será suficiente durante lo que queda de año, pero los robots están empezando a comprender el mundo como nosotros. No solo calculando una trayectoria, sino entendiendo intenciones, contextos y significados.
Eso es muchísimo más transformador y valioso que cualquier ensayo de diez páginas generado en siete minutos.
Imagen destacada | Figure, Ryunosuke Kikuno en Unsplash