Ultimas Noticias

GPT-4o es capaz de explicarnos lo que ve. Eso puede ser una ayuda excepcional para personas ciegas

El nuevo GPT-4o no solo nos ha asombrado por su capacidad para «hablar» o revolucionar campos como la enseñanza: el carácter multimodal de este desarrollo permite que además sea capaz de reconocer aquello que captura la cámara de nuestro móvil. Es una opción que OpenAI destacó en varias demos, pero que fue especialmente protagonista en una.

Sé mis ojos. La empresa Be My Eyes ayuda a invidentes o gente con problemas graves de visión y les pone en contacto con gente que ve y los ayuda con sencillas llamadas de asistencia. Ahora OpenAI se ha aliado con este proyecto para hacer que precisamente el nuevo ChatGPT con GPT-4o sea el singular lazarillo de personas ciegas.

Una demo singular. El vídeo publicado por OpenAI e X (antes Twitter) durante la presentación de ayer es en realidad una versión corta del que compartió uno de sus directivos, Greg Brockman. En él una persona ciega usaba ChatGPT para que le describiera lo que tenía ante él en diversas localizaciones en Londres.

¡Taxi!. Otra acción cotidiana que quienes pueden (podemos) ver sin pensar es levantar el brazo para coger un taxi. ChatGPT es capaz (al menos, en la demo) de detectar cómo venía uno para que la persona ciega pudiera avisar al taxi de que quería cogerlo. Para el protagonista del vídeo la normalidad que ofrecía esta opciónd de ChatGPT «está llena de esperanza» para las personas ciegas.

Un lazarillo virtual. Hubo otras demos en las que ChatGPT mostró esa capacidad de reconocer objetos o la escritura en problemas matemáticos, y aunque sin duda todas esas aplicaciones son interesantes, la posibilidad de facilitar la vida a las personas ciegas o con problemas graves de visión destaca especialmente de cara al futuro.

Implicaciones profundas. La colaboración con OpenAI lleva ya tiempo en marcha y de hecho se activó con una versión preliminar de GPT-4 que planteaba ese «voluntario virtual» que ofrecía contexto sobre lo que el teléfono móvil captaba con la cámara. Con los avances de GPT-4o en cuanto a síntesis de voz y lenguaje natural las implicaciones son «profundas», como afirmaba Michael Buckley, CEO de Be My Eyes.

Más avances. En Be My Eyes explicaban el logro de un usuario que fue capaz de viajar en tren —con instrucciones paso por paso— gracias a este proyecto, pero además puede ser una gran ayuda como complemento a los lectores de pantallas que usan los ciegos: gracias a ChatGPT ahora pueden detectar las partes importantes de la pantalla que deben destacar o resumir para estos usuarios, algo especialmente útil por ejemplo en sitios de comercio electrónico.

En Xataka | OpenAI acaba de acercarnos más que nunca a ‘Her’: su nuevo modelo de voz nos acompañará (y quizás enamorará)


source

Mostrar más
Botón volver arriba