"Hola, computadora": el futuro que nos pinta la IA de Anthropic ahora es el mismo que planteaba Star Trek en 1986
«¿Le importaría que el profesor usara su computadora?». La pregunta la hacía el Dr. McCoy en ‘Star Trek IV: Misión salvar la Tierra‘. «Por favor», responde el ingeniero al que están visitando. Scotty, muy decidido, se acerca a la pantalla y dice «¿Computadora?» esperando una respuesta de un PC de 1986. Al ver que no pasa nada, el Dr. McCoy le da el ratón creyendo que es un micrófono. «¡Hola, computadora!». Es entonces cuando el ingeniero, extrañado, le indica que use el teclado. «¿El teclado? ¡Qué pintoresco!», dice Scotty. La escena es mítica. Y visionaria.
De hecho, es casi un meme irónico de lo que muchas películas de ciencia ficción antes y después de aquella daban por sentado. Los seres humanos no teclean o manejan el ratón en una pantalla para interactuar con las máquinas. No andan tocando la pantalla de un móvil.
A Matthew McCoughnahey no le ves hablando así con TARS y CASE. en ‘Interstellar’. Tampoco a HAL 9000 cuando dice aquello de «Lo siento Dave, no puedo hacer eso». No lo hace con un mensaje en una pantalla. Lo dice. En todas esas escenas los hombres y las máquinas hablaban de forma natural. Y ese futuro de ciencia ficción es cada vez más real. Ya nos lo dejó claro OpenAI con GPT-4o, pero ahora es Anthropic la que nos ha situado un poco más cerca de ese futuro.
Lo ha hecho con la presentación de ‘Computer Use’, una herramienta con la que su modelo de IA, Claude, puede interactuar con nuestro ordenador. De momento lo hace a través de una demo técnica en un entorno aislado —no vaya a ser que…—, pero esto deja claro que este tipo de función podría llegar a nuestras máquinas en un futuro cercano.
Con esta nueva API, explican en Anthropic, es posible convertir prompts en comandos que el ordenador ejecuta. Lo logra porque la IA de Anthropic no para de sacar capturas de pantalla para analizarlas y saber dónde está cada cosa. Hay un ejemplo sencillo:
- Escribes como prompt «Abre Firefox»
- El modelo de IA, que ve lo que vemos nosotros en la pantalla, recorre la captura buscando el icono de Firefox.
- Lo localiza y mueve el puntero del ratón de forma automática hasta allí.
- Simula el clic del ratón sobre el icono para abrir Firefox.
- Listo. Firefox en pantalla.
Esa sencilla interacción puede ser mucho más compleja porque, como decimos, podemos pedirle a ‘Computer Use’ que haga de todo. Por ejemplo, programar una página web con un diseño de finales de los 90, buscar información sobre ti mismo, rellenar formularios para encontrar trabajo o hasta pedir comida a domicilio.
En esas interacciones de momento el teclado sigue siendo el modo de entrada de peticiones, pero es inevitable que en lugar de eso acabemos usando la voz. Es de hecho lo que se muestra en las demos de los empleados de Anthropic, que hablan y luego confirman lo que quieren pinchando en el botón Send del mensaje que ha «escuchado» la máquina.
La voz, parece, acabará imponiéndose gradualmente. Es desde luego lo que hace meses planteaban todas las espectaculares demos que OpenAI realizó con GPT-4o. En aquel momento se habló mucho de la analogía inevitable que existía con la película ‘Her‘, y ciertamente todo apuntaba a un futuro similar.
Cada vez más estamos llegando a ese punto en el que el ratón y el teclado (y los gestos y el tacto en el móvil) podrán difuminarse para dejar de ser los periféricos eternos. Y cuando lo haga y alguien nos pida que los usemos, probablemente podamos responder lo mismo que Scotty.
Qué pintoresco.
Imagen | Paramount Pictures