Ultimas Noticias

El nuevo Claude 3.7 de Anthropic simplifica lo que otros modeloscomplican. Y de paso programa y "razona" como los mejores

Anthropic ha anunciado el lanzamiento y disponibilidad de Claude 3.7 Sonnet, su nuevo modelo de IA fundacional. El salto es prometedor, pero destaca especialmente por una cosa: se apuntan a modelos de razonamiento.

No es Claude 4.0, es Claude 3.7. La numeracion de la nueva versión confirma una vez más que el salto de prestaciones no justifica un número más «redondo». Muchos esperábamos Claude 4.0, pero en Anthropic dejan claro que esta es una versión mucho más evolucionaria que revolucionaria.

Un modelo híbrido. En Anthropic presumen de contar con un modelo híbrido que no diferencia entre si tiene que conversar y responder preguntas rápidamente, razonar o cualquier otra aplicación, porque todo se basa en el modelo fundacional Claude 3.7 Sonnet, que lo hace todo y se comporta de esa forma multidisciplinar. Y como hace todo, es algo más caro que la competencia: su API cuesta 3 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida

Claude ya puede «razonar». En un anuncio separado Anthropic nos hablaba de su nuevo modo de razonamiento, llamado «extended thinking mode», que ahora se convierte en una opción más entre las que podemos desplegar al usar su modelo. Si la activamos, el modelo «pensará más profundamente sobre preguntas complejas». Como explican sus responsables, este modo usa el mismo modelo de IA, pero lo hace dándole más tiempo e invirtiendo más esfuerzo para llegar a una respuesta.

Cómo piensa Claude. Este modo de razonamiento ofrece la posibilidad de ver qué está pensando el modelo al ir procesando esas respuestas. Aquí avisan de que esa información puede resultar sorprendente, porque podremos ver cómo la IA puede «pensar» cosas incorrectas, pero además mostrar ese proceso no significa que la respuesta solo se base en él. «Nuestros resultados sugieren que los modelos a menudo toman decisiones basadas en factores que no se debaten de forma explícita en su proceso de razonamiento».

Se guarda cosas. Es decir: el modelo parece guardarse cosas para sí mismo mientras piensa, pero no está claro cuáles ni por qué. Hay otra razón para no mostrarlo todo: eso plantea problemas de seguridad, ya que tener toda esa información le da potencialmente recursos a malos actores para que aprovechen el modelo de formas inapropiadas.

Pokemon

Fuente: Anthropic

Puede jugar solito a Pokémon. El nuevo modelo de Anthropic también es más «agéntico» que nunca. Responde mejor a cambios en el entorno y continúa actuando hasta que una tarea abierta se ha completado. Eso hace que la función «Computer Use» que permite que la IA controle nuestro ordenador sea cada vez más prometedora. Lo demostraron con Pokémon: Claude 3.7 llegó mucho más lejos que anteriores modelos.

Llega Claude Code. El modelo de Anthropic siempre ha destacado en el ámbito de la programación, y ahora han querido impulsar esa capacidad con Claude Code, una herramienta basda en Claude 3.7 Sonnet pero específicamente centrada en ayudar a los programadores a desarrollar sus proyectos.

Un agente de programación. Este podría ser además considerado como el primer agente de Anthropic, porque Claude Code es capaz de completar proyectos de programación de forma autónoma sin necesitar interacción del usuario. Así, Claude puede buscar entre bases con código en los que basarse, leer y editar ficheros, escribir y ejecutar pruebas, publicar el código en los repositorios de GitHub y ejecutar comandos en una consola mientras va informando a los desarrolladores de todo el proceso. El vídeo demostrativo de Anthropic permite comprobar algunas de esas funciones.

Similar a Grok3 en rendimiento. El nuevo Grok 3 presentado estos días por xAI mostró dar un paso más en su rendimiento en los benchmarks más exigentes en la actualidad, y Claude 3.7 está también en esa línea, lo que significa que es algo superior en esas pruebas a modelos como o1 y o3-mini (de OpenAI) y a DeepSeek R1.

En Xataka | He probado DeepSeek en la web y en mi Mac. ChatGPT, Claude y Gemini tienen un problemón

source

Mostrar más
Botón volver arriba