OpenAI presentó ayer GPT-4o, con ‘o’ de ‘Omni’ porque es multimodal y lo quiere todo: quiere ver, quiere escuchar, quiere hablar, quiere leer y quiere escribir. Y todo al mismo tiempo.
En las demos que mostró la empresa sobre sus primeros casos de uso pudimos detectar un cierto patrón: el móvil se le queda corto. Y no estamos pensando en el ordenador: estamos pensando en algo que pueda hacer más fácil la labor de ver, escuchar y hablar.
Por qué importa. Una IA generativa multimodal y simultánea necesita una herramienta capaz de sacar partido a todos esos modelos a la vez. Y con la menor fricción posible. Un teléfono móvil que se interpone entre nosotros y el mundo y que nos ocupa una mano es una fricción.
Unas gafas. Ese sería el factor de forma ideal para ejecutar GPT-4o. En una de las demos se mostraba cómo puede ayudar a resolver un problema matemático. Transmitía incomodidad. No es lo mejor tener que escribir en el folio con una mano mientras lo enfocamos con el móvil en la otra mano. Unas gafas serían ideales. Esta es la demo:
El modelo a seguir. Las Ray-Ban Meta. Su aspecto es el de unas gafas normales, no intimidan, incluyen cámara, micrófonos y altavoces muy discretos y bien dirigidos, y se conectan con nuestro móvil.
Las Ray-Ban Meta integran a Meta AI, el chatbot de Meta, especialmente capaz en Estados Unidos, sobre todo tras su última actualización. GPT-4o es un modelo que encaja como un guante en un producto así.
- Podemos pedirle información sobre lo que vemos sin tener que sacar y sostener el móvil.
- Podemos recibir sus respuestas por voz sin que unos auriculares tapen nuestros oídos, algo importante en ciertos contextos.
- Podemos hablar directamente con el modelo a través de un comando, sin tener que sacar el móvil ni acceder a una aplicación concreta.
El contexto. Es público desde hace meses que Sam Altman y Jony Ive están buscando crear un hardware conjunto específico para su IA generativa. Y andan buscando inversores. Si algo nos queda claro tras la presentación de GPT-4o es que unas gafas con el formato ideal.
El hype. Aunque el pulso general tras la presentación de ayer hace comparaciones con la película ‘Her’, la capacidad de ver y no solo escuchar le aleja del modelo de los auriculares apoyados por un móvil en la solapa (no es tan cómodo, y si no que se lo pregunten a Humane). Las gafas son más apropiadas.
Imagen destacada | Ray-Ban, OpenAI, Xataka