Google ya tiene una IA que "razona". Y hay un padre, un hijo, un mono y comida que lo demuestran

Ser Noticia 20 diciembre 2024

En Google están plantando cara muy seriamente a OpenAI. El lanzamiento de la familia de modelos de IA Gemini 2.0 destacó por su agente de IA, Project Mariner, pero ahora llega con una novedad igualmente llamativa. Con nosotros tenemos ya una versión preliminar de Gemini 2.0 Flash Thinking, un modelo de IA que «razona» —como siempre, entre comillas— como también lo hace o1 de OpenAI. Lo hemos probado, y su comportamiento es notable.

Este modelo ya se puede probar en AI Studio, donde basta seleccionarlo en la parte derecha en la que podemos elegir con qué modelo queremos trabajar en cada momento. Al hacerlo, podremos ya introducir todo tipo de preguntas, pero las que realmente tiene sentido aquí hacer son preguntas matemáticas o de lógica en las que se note que el modelo tiene la capacidad de intentar resolver un problema volviendo hacia atrás y revisando sus respuestas.

Hagamos un pequeño experimento: os proponemos intentar resolver dos problemas que Gemini 2.0 Flash Thinking sí resolvió. El primero, con una imagen:

Captura De Pantalla 2024 12 20 A Las 7 49 19

Dadas esas bolas de billar con esos números, ¿sois capaces de encontrar una combinación en la que tres de ellas sumen 30? Pensadlo un momento.

¿Lo tenéis? Aparentemente no hay solución: ninguna combinación con esos números logra el resultado adecuado. Pero claro, hay truco. La bola de billar con el número 9 puede «darse la vuelta», con lo cual el número resultante es el 6. Y gracias a ese número sí podemos lograr una combinación (6+11+13) que soluciona el problema.

Captura De Pantalla 2024 12 20 A Las 7 52 45

Logan Kilpatrick, máximo responsable de AI Studio, se encargaba de presentar el nuevo modelo y de demostrar su capacidad con ese mismo ejemplo (de ahí la mala calidad de la imagen de las bolas de billar, disculpad). Si pincháis en el vídeo y observáis el proceso de razonamiento, veréis cómo efectivamente Gemini 2.0 es capaz de detectar justo ese «truco» para resolver el problema. Asombroso.

El segundo ejemplo es igual de llamativo. Hay muchos problemas lógicos que podemos utilizar para poner a prueba a estos modelos, y uno de ellos lo encontramos en Reddit, donde un usuario lo enunciaba (en inglés) de forma que fuera fácilmente entendible por un chatbot.

El problema nos sitúa en un escenario con un padre, un hijo, un mono y comida. Deben cruzar un río y hay varias condiciones para hacerlo de forma adecuada:

Deben cruzar el río en un pequeño bote
El bote solo puede llevar dos cosas, pero también puede llevar solo una
El bote no puede cruzar el río por sí mismo
Solo el padre o el hijo pueden pilotar el bote, y ambos pueden ir juntos si es necesario
No puedes dejar la comida sola con el hijo porque se la come
No puedes dejar la comida sola con el mono porque se la come
¿Cómo logra el padre cruzar a todos y todo a la otra orilla?

Captura De Pantalla 2024 12 20 A Las 8 06 37

La solución propuesta con Gemini, con ese paso 4 que el chatbot califica de «contraintuitivo» porque efectivamente lo puede parecer.

Una vez introducido el problema, Gemini analiza primero las instrucciones para desglosarlas, y luego comienza a «experimentar». Al cabo de menos de un minuto da con la solución, que tiene un paso especialmente llamativo:

El padre lleva la comida al otro lado del río
El padre vuelve solo
El padre lleva al hijo al otro lado
El padre vuelve, pero con la comida para evitar que el hijo se la coma
El padre deja la comida y se lleva al mono al otro lado
El padre vuelve solo
El padre lleva la comida al otro lado
¡Solucionado!

Captura De Pantalla 2024 12 20 A Las 8 05 42

Claude 3.5 Sonnet no pudo resolverlo.

El problema, que no es especialmente difícil para nosotros, es muy complejo para modelos de este tipo. De hecho lo probamos en Claude 3.5 Sonnet y este chatbot, tras pensarlo un par de veces, nos respondió preguntando si el problema era imposible de resolver.

Lo cierto es que pruebas como esta demuestran que este tipo de modelos que «razonan» van un paso más allá y son especialmente útiles en este tipo de situaciones. Jeff Dean, científico jefe en DeepMind, indicó en X que este nuevo modelo «está entrenado para usar el pensamiento para fortalecer su razonamiento», y aunque su afirmación es hasta cierto punto polémica —comparar lo que hacen estos chatbots puede no ser considerado como «pensar»—, la realidad es que esto va más allá de un modelo estocástico que genera texto a partir de su conjunto de entrenamiento.

Este tipo de modelos tardan desde luego más en responder, pero es curioso «verlos trabajar» y comprobar cómo van analizando estos problemas para intentar resolverlos.

Captura De Pantalla 2024 12 20 A Las 8 17 49

Nosotros de hecho hicimos una tercera prueba. El famoso de contar erres. En este caso, le pedimos que contara las erres en la frase «el perro de San Roque no tiene rabo porque Ramón Ramírez se lo ha robado». No es un problema estrictamente lógico, pero aquí Gemini se equivocó y contó 10 erres cuando en realidad hay nueve.

Incluso insistiéndole en que revisara su respuesta volvió a dar la respuesta incorrecta una y otra vez. Así pues, asombroso en unas cosas, y sorprendentemente terrible en otras que a nosotros nos parecen triviales.

Imagen | Xataka con Freepik

En Xataka | He usado ChatGPT Search como buscador por defecto gracias a la extensión de Chrome. Y creo que Google tiene un problemón

source

Relacionado

Ser Noticia 20 diciembre 2024

Google ya tiene una IA que "razona". Y hay un padre, un hijo, un mono y comida que lo demuestran

Me gusta esto:

Relacionado

Read Next

China ha respondido a EEUU poniendo la industria de los chips global contra las cuerdas. Esta es su estrategia

El tiempo en Semana Santa 2025: las mejores webs y apps para saber qué tiempo vas a tener en tus vacaciones

Shopify se pone dura con el uso de IA para sus empleados: si no la usas "el estancamiento es inevitable"

Amazon rompe su techo en España: ya supera los 8.000 millones en ingresos y consigue ser rentable

El Bombardier Global 8000 se prepara para entrar en servicio: será el avión civil más rápido del mundo desde el Concorde

Tras la crisis de ventas en China, los coches de lujo se volcaron en EEUU: los aranceles les han devuelto a la dura realidad

Cada vez sabemos más sobre por qué tenemos hambre o sed. Y el principal sospechoso es nuestro cerebro

Hemos logrado que los lobos gigantes vuelvan tras 10.000 años extintos. El problema es que "vuelvan" quizá no sea la palabra correcta

La Lista Robinson ha sido supuestamente hackeada. De ese “supuestamente” dependen los datos de más de 600.000 personas

Los aranceles de EEUU ya están hiriendo a dos de las empresas que sostienen la economía de Taiwán: TSMC y Foxconn

China ha respondido a EEUU poniendo la industria de los chips global contra las cuerdas. Esta es su estrategia

El tiempo en Semana Santa 2025: las mejores webs y apps para saber qué tiempo vas a tener en tus vacaciones

Shopify se pone dura con el uso de IA para sus empleados: si no la usas "el estancamiento es inevitable"

Amazon rompe su techo en España: ya supera los 8.000 millones en ingresos y consigue ser rentable

El Bombardier Global 8000 se prepara para entrar en servicio: será el avión civil más rápido del mundo desde el Concorde

Tras la crisis de ventas en China, los coches de lujo se volcaron en EEUU: los aranceles les han devuelto a la dura realidad

Cada vez sabemos más sobre por qué tenemos hambre o sed. Y el principal sospechoso es nuestro cerebro

Hemos logrado que los lobos gigantes vuelvan tras 10.000 años extintos. El problema es que "vuelvan" quizá no sea la palabra correcta

La Lista Robinson ha sido supuestamente hackeada. De ese “supuestamente” dependen los datos de más de 600.000 personas

Los aranceles de EEUU ya están hiriendo a dos de las empresas que sostienen la economía de Taiwán: TSMC y Foxconn

Israel-Palestina: Israel no puede negarse a garantizar la entrega y distribución de ayuda humanitaria

Gaza, desperdicio de alimentos, derechos de las personas con discapacidad… Las noticias del miércoles

Acusación de genocidio en Gaza, Yemen, migrantes muertos… Las noticias del martes

Me gusta esto:

Relacionado

Read Next

China ha respondido a EEUU poniendo la industria de los chips global contra las cuerdas. Esta es su estrategia

El tiempo en Semana Santa 2025: las mejores webs y apps para saber qué tiempo vas a tener en tus vacaciones

Shopify se pone dura con el uso de IA para sus empleados: si no la usas "el estancamiento es inevitable"

Amazon rompe su techo en España: ya supera los 8.000 millones en ingresos y consigue ser rentable

El Bombardier Global 8000 se prepara para entrar en servicio: será el avión civil más rápido del mundo desde el Concorde

Tras la crisis de ventas en China, los coches de lujo se volcaron en EEUU: los aranceles les han devuelto a la dura realidad

Cada vez sabemos más sobre por qué tenemos hambre o sed. Y el principal sospechoso es nuestro cerebro

Hemos logrado que los lobos gigantes vuelvan tras 10.000 años extintos. El problema es que "vuelvan" quizá no sea la palabra correcta

La Lista Robinson ha sido supuestamente hackeada. De ese “supuestamente” dependen los datos de más de 600.000 personas

Los aranceles de EEUU ya están hiriendo a dos de las empresas que sostienen la economía de Taiwán: TSMC y Foxconn

Los cohetes de SpaceX están abriendo agujeros de color rojo en la atmósfera. Los llaman "auroras de SpaceX"

OpenAI no da tregua a Google: anuncia o3 y o3 mini tras del lanzamiento del modo de pensamiento de Gemini

Publicaciones relacionadas

Israel-Palestina: Israel no puede negarse a garantizar la entrega y distribución de ayuda humanitaria

Gaza, desperdicio de alimentos, derechos de las personas con discapacidad… Las noticias del miércoles

Acusación de genocidio en Gaza, Yemen, migrantes muertos… Las noticias del martes