Operator también "mira" a la pantalla y mueve tu ratón por ti como otros agentes IA. Lo hace mejor gracias a CUA

Ser Noticia 24 enero 2025

Ya tenemos el agente de IA de OpenAI. Se llama Operator, y es un sistema capaz de ver nuestra pantalla y realizar acciones de forma autónoma en el navegador a partir de nuestras peticiones. Es algo que ya habíamos visto con ‘Computer Use’ de Anthropic o Mariner de DeepMind, pero aquí la empresa liderada por Sam Altman tiene su propio ingrediente especial.

Computer-Using Agent (CUA). Operator usa un modelo llamado Computer-Using Agent (CUA) que está basado en GPT-4o. CUA interpreta capturas de pantalla e interactúa con sitios web a través de los controles típicos del navegador, como un cursor o un ratón.

Cómo funciona CUA. Como explican en la documentación de OpenAI, este sistema procesa esos «píxeles en crudo» de las capturas que va realizando y usa un ratón y un teclado virtual para completar sus acciones. Una vez tiene la captura de pantalla, «razona» y sigue una línea de «pensamiento» en la que tiene en cuenta las acciones pasadas para adaptarse.

"Hola, computadora": el futuro que nos pinta la IA de Anthropic ahora es el mismo que planteaba Star Trek en 1986

Un rendimiento prometedor. Hay varios benchmarks ya que permiten evaluar la capacidad de estos modelos agénticos. Según las pruebas realizadas internamente en OpenAI, CUA logra un 38,1% de rendimiento en OSWorld (uso de un ordenador en general) frente a plataformas como la de Anthropic, que logra un 22%. Los humanos, eso sí, logran un 72,4% de media, lo que deja claro que estos sistemas aún tienen mucho margen de mejora. En el uso del navegador, los benchmarks WebArena y WebVoyager también permiten que Operator puntúe muy alto: un 58,1% y un 87% respectivamente, frente al 36,2% y el 56% de sus competidores.

Captura De Pantalla 2025 01 24 A Las 10 06 53

El rendimiento de Operator es por el momento superior al de sus competidores según pruebas internas de la compañía. Fuente: OpenAI

Qué pasa con esas capturas que recolecta Operator. Operator realiza continuamente capturas de pantalla para «ver» la interfaz del navegador con la que interactúa. Ese navegador no se ejecuta en nuestro PC, sino en un navegador remoto en los servidores de OpenAI. Los datos del usuario, incluidas esas capturas, se usan de acuerdo a la política de privacidad de OpenAI. Esto es: pueden usarse para detectar actividades fraudulentas y para mejorar el servicio. Eso implica que nuestros datos se pueden usar para entrenar y mejorar el modelo, aunque podemos desactivar esa opción en los ajustes de Operator. El usuario, eso sí, tiene la capacidad de cuánto tiempo se almacenan esos datos en Operator. Por defecto esos datos se guardan hasta que el usuario decida borrarlos.

Un agente que pide ayuda (y confirmación) cuando las necesita. Como hemos visto en otros agentes como ‘Computer Use’ de Anthropic, Operator es un agente que no actúa a lo loco. Si se encuentra con un obstáculo –como un código CAPTCHA o la petición de introducir usuario y contraseña en un sitio web– pedirá que el usuario tome el control, y también pedirá confirmación final del usuario si por ejemplo tenemos que validar una reserva o la compra de un producto que nos ha buscado Operator. El usuario de Operator puede además tomar el control en cada momento.

Captura De Pantalla 2025 01 24 A Las 9 28 33

Así funciona CUA. Fuente: OpenAI

No sueltes las manos del volante. Esto nos recuerda los sistemas de conducción asistida como el FSD de Tesla. Es cierto que es capaz de llevarnos de un sitio a otro una vez introducimos la dirección de destino, pero es importante seguir prestando atención y tener las manos en el volante por si ocurren imprevistos. Con Operator y el resto de agentes de este tipo ocurre algo parecido.

Hay cosas que no puede hacer. De momento Operator no puede completar tareas especializadas como la de gestionar sistemas de calendario complejos o interactuar con sitios web muy personalizados o no estándares. También se negará a hacer algunas tareas con riesgo elevado de provocar perjuicios. Por ejemplo, enviar correos electrónicos, realizar transacciones electrónicas o borrar eventos del calendario. Sus prestaciones y capacidades irán aumentando, sin duda, pero lo harán gradualmente y siempre garantizando que la posibilidad de error es la menor posible.

Imagen | OpenAI

En Xataka | La IA generativa parece estancada. Las Big Tech creen tener un as en la manga: «agentes» que hagan cosas por nosotros

source

Relacionado

Ser Noticia 24 enero 2025

Operator también "mira" a la pantalla y mueve tu ratón por ti como otros agentes IA. Lo hace mejor gracias a CUA

Me gusta esto:

Relacionado

Read Next

En 1953 Estados Unidos decidió poner una base naval en Rota. Ahora la instalación mira a su futuro con incertidumbre

Las ayudas parecían el único camino para vender coches eléctricos. Alemania está demostrando que estábamos equivocados

El truco de Shein para vender ropa sin aranceles en EEUU ha llegado a su fin: un imperio de 44.000 millones está temblando

Cómo traducir un cartel, letrero o cualquier texto con ChatGPT, incluso pidiendo que te lo explique

EEUU gana: TSMC fabricará sus mejores chips en suelo estadounidense, aunque presumiblemente serán un 30% más caros

Ante el pánico por los aranceles de EEUU hay tecnológicas haciendo algo infrecuente: acopio de productos

España ha visto en la guerra comercial una oportunidad para cumplir un viejo sueño: vender más cerdos en China

Ya sabemos cuál es el proyecto de Pat Gelsinger después de salir de Intel: aceleradores de partículas para fabricar chips

El Gobierno de EEUU acaba de dar un golpe muy duro a NVIDIA: ya no podrá vender su chip para IA más exitoso en China

Hay 2.400 Tesla Cybertruck sin dueño. Arreglar el fracaso pasa por venderlas en un lugar sorprendente: Arabia Saudí

En 1953 Estados Unidos decidió poner una base naval en Rota. Ahora la instalación mira a su futuro con incertidumbre

Las ayudas parecían el único camino para vender coches eléctricos. Alemania está demostrando que estábamos equivocados

El truco de Shein para vender ropa sin aranceles en EEUU ha llegado a su fin: un imperio de 44.000 millones está temblando

Cómo traducir un cartel, letrero o cualquier texto con ChatGPT, incluso pidiendo que te lo explique

EEUU gana: TSMC fabricará sus mejores chips en suelo estadounidense, aunque presumiblemente serán un 30% más caros

Ante el pánico por los aranceles de EEUU hay tecnológicas haciendo algo infrecuente: acopio de productos

España ha visto en la guerra comercial una oportunidad para cumplir un viejo sueño: vender más cerdos en China

Ya sabemos cuál es el proyecto de Pat Gelsinger después de salir de Intel: aceleradores de partículas para fabricar chips

El Gobierno de EEUU acaba de dar un golpe muy duro a NVIDIA: ya no podrá vender su chip para IA más exitoso en China

Hay 2.400 Tesla Cybertruck sin dueño. Arreglar el fracaso pasa por venderlas en un lugar sorprendente: Arabia Saudí

Israel-Palestina: Israel no puede negarse a garantizar la entrega y distribución de ayuda humanitaria

Gaza, desperdicio de alimentos, derechos de las personas con discapacidad… Las noticias del miércoles

Acusación de genocidio en Gaza, Yemen, migrantes muertos… Las noticias del martes

Me gusta esto:

Relacionado

Read Next

En 1953 Estados Unidos decidió poner una base naval en Rota. Ahora la instalación mira a su futuro con incertidumbre

Las ayudas parecían el único camino para vender coches eléctricos. Alemania está demostrando que estábamos equivocados

El truco de Shein para vender ropa sin aranceles en EEUU ha llegado a su fin: un imperio de 44.000 millones está temblando

Cómo traducir un cartel, letrero o cualquier texto con ChatGPT, incluso pidiendo que te lo explique

EEUU gana: TSMC fabricará sus mejores chips en suelo estadounidense, aunque presumiblemente serán un 30% más caros

Ante el pánico por los aranceles de EEUU hay tecnológicas haciendo algo infrecuente: acopio de productos

España ha visto en la guerra comercial una oportunidad para cumplir un viejo sueño: vender más cerdos en China

Ya sabemos cuál es el proyecto de Pat Gelsinger después de salir de Intel: aceleradores de partículas para fabricar chips

El Gobierno de EEUU acaba de dar un golpe muy duro a NVIDIA: ya no podrá vender su chip para IA más exitoso en China

Hay 2.400 Tesla Cybertruck sin dueño. Arreglar el fracaso pasa por venderlas en un lugar sorprendente: Arabia Saudí

Perplexity estrena un asistente para Android. Un todo en uno que marca un antes y un después

Justicia detienen en Metepec a ex alcaldesa de Santo Tomás de los Plátanos.

Publicaciones relacionadas

Israel-Palestina: Israel no puede negarse a garantizar la entrega y distribución de ayuda humanitaria

Gaza, desperdicio de alimentos, derechos de las personas con discapacidad… Las noticias del miércoles

Acusación de genocidio en Gaza, Yemen, migrantes muertos… Las noticias del martes