He probado Grok 3 y es realmente inteligente y rápido. El problema es que eso ya no es suficiente

Ser Noticia 21 febrero 2025

He pasado algunas horas probando Grok 3, la nueva versión de la IA de xAI. Quería ver sus capacidades reales y sobre todo cómo se comporta, qué tipo de resultados da, frente a ChatGPT, Claude, Le Chat, DeepSeek…

Razonamiento y resolución de problemas

Destaca en problemas matemáticos. Le hice completar el reto AIME’24, del cual acertó 6 de los 15 problemas, por los 9 aciertos de o3-mini-high de OpenAI. Además, Grok 3 tardó algo menos de cinco minutos, pero o3-mini-high tardó casi seis. Muy llamativo ver sus autoevaluaciones hasta dar con la respuesta correcta (aunque a veces no lo era).

Un fragmento de los pasos que dio Grok 3 para evaluar sus propias conclusiones antes de presentarlas como resultado final. Imagen: Xataka con Grok 3.

En pruebas de razonamiento básico, como determinar el número de letras repetidas en palabras algo complejas (el clásico «Lollapalooza») o comparar decimales (9,11 vs 9,9), Grok 3 responde correctamente tras unos segundos de «pensamiento» visible.

o3-mini-high acierta tras 6 segundos. Imagen: Xataka con ChatGPT.

Grok 3 también acertó, pero tras más de cuatro veces más tiempo. Imagen: Xataka con Grok 3.

En una pregunta de mitología griega sobre el bisabuelo materno de Jasón, Grok 3 encontró la respuesta correcta en 18 segundos… mientras que o3-mini-high necesitó 22 segundos para fallar. Bien jugado, Grok.

o3-mini-high erró. Imagen: Xataka con ChatGPT.

Grok 3 en cambio dio una respuesta mejor construida, además de correcta. Y tardando menos. Imagen: Xataka con Grok 3.

He probado DeepSeek en la web y en mi Mac. ChatGPT, Claude y Gemini tienen un problemón

Búsqueda y síntesis

Su función DeepSearch es rápida pero a veces no es del todo precisa y no menciona algún detalle importante. Le pedí analizar el impacto de la IA en el diseño de chips y, aunque generó un texto de 1.504 palabras con varias citas en poco más de un minuto, omitió mencionar avances importantes como el marco AlphaChip de Google. En intentos posteriores e insistentes sí lo hizo.
También le pedí un informe completo sobre Xataka a nivel financiero, mediático, reputacional, etc. Estuvo bastante acertado, aunque mostró una limitación inherente a todo sistema Deep Research: sabe mucho de lo que hay en público, pero no tiene muchos insights, carece del criterio de experto que conoce no solo lo público, sino lo que subyace. Esto es algo de Grok y de cualquier otro con Deep Research. Cuando pides información sobre algo que no controlas, es fácil asumir que Deep Research (o en este caso, DeepSearch) te lo da todo. Cuando estás en el ajo es fácil detectar carencias. Como en este ejemplo.

Imagen: Xataka con Grok 3.

La velocidad impresiona: es notablemente más rápido que Deep Research de OpenAI… pero a costa de sacrificar profundidad por velocidad. Eso sí, su selección de fuentes y citas suele ser realmente buena.
A diferencia de Gemini, no permite exportar reportes directamente a documentos ni personalizar el enfoque de la investigación. Nuevamente: Grok es muy inteligente y capaz, a su manera, pero le falta producto. De poco sirve un gran LLM si obliga a empezar de cero y procesar a mano toda la información.

Creatividad y tono

Para probar su escritura creativa le pedí una historia sobre un viajero del tiempo enfrentando una paradoja. El resultado fue bastante sólido en construcción de personajes, detalles, descripciones y atmósfera, superando incluso a la que considero la mejor en ese aspecto, Claude 3.5 Sonnet. Eso sí, algunos giros argumentales parecen bastante forzados.

Imagen: Xataka con Grok 3.

Su humor es básico y predecible, limitándose casi todo el tiempo a juegos de palabras bastante obvios. Humor adolescente. Si el concepto del valle inquietante se puede trasladar a un chatbot, Grok 3 está en ese 99%: demasiado fino como para parecer un robot cándido, demasiado predecible como para terminar de convencer.
Mantiene neutralidad política incluso en temas como la inmigración o los derechos trans. Musk dice que puede ser políticamente incorrecta, pero parece que es algo que tiene más que ver con lo que el usuario requiera que un rasgo de su personalidad. Es decir: se le puede sacar de la corrección, pero solo cuando el usuario empuja a ello.

Algunas limitaciones

No permite personalizar el comportamiento del modelo, a diferencia de ChatGPT; o el estilo de respuesta, como sí permite Claude.
Se limita a ser un cajón de texto. Solo le acompañan los botones para adjuntar un archivo, activar su DeepSearch o activar su modo razonador. Eso, y unas pocas instrucciones elementales. Nada de proyectos como los de Claude o los GPTs de ChatGPT, ni los agentes de Le Chat. En definitiva: nada que permita retener contextos y directrices preestablecidas o documentación para facilitar el trabajo. Siempre tenemos que partir de un nuevo lienzo.

La interfaz es buena, intuitiva, simple… pero se echan de menos herramientas que la hagan más versátil y apetecible para integrarla en nuestro día a día. Es potente y capaz para usos puntuales, pero el producto construido en torno a ChatGPT, Claude o Le Chat (proyectos, agentes, instrucciones previas, etc) hacen de esas alternativas algo bastante más interesante para el uso serio y recurrente.Imagen: Xataka con Grok 3.

Los guardaraíles de seguridad son más estrictos que los de Grok 2. Con aquella versión alucinamos por su falta de escrúpulos, pero Grok 3 parece recuperarlos: se negó a generarme una plantilla para una campaña de fraude masivo por correo simulando que soy un príncipe valenciano en búsqueda de heredera.
La generación de imágenes sí parece, nuevamente, más laxa. Midjourney no permite crear nada que contenga las palabras «Donald Trump» ni «presidente de Estados Unidos». Nada. Grok 3 no pone tantos reparos. Ni siquiera con su dueño.

Imagen: Xataka con Grok 3.

Puedes probar Grok 3 desde su web oficial o desde su integración en X (motivo por el cual has visto dos interfaces algo distintas en este artículo). Temporalmente es gratuito, pero ya sabemos que será uno de los motivos por los que pagar una suscripción a X, y no de las baratas.

Su capacidad es innegable, pero tenemos tanta oferta de alternativas similares que ser un poco más inteligente o veloz no es lo diferencial. La diferencia la marca el producto, y ahí es donde Grok 3 tiene más margen de mejora.

Imagen destacada | Xataka con Mockuuups Studio

En Xataka | Deep Research no es solo una nueva función de IA. Es el principio del fin del trabajo intelectual tal y como lo conocemos

source

Relacionado

Ser Noticia 21 febrero 2025

He probado Grok 3 y es realmente inteligente y rápido. El problema es que eso ya no es suficiente

Razonamiento y resolución de problemas

Búsqueda y síntesis

Creatividad y tono

Algunas limitaciones

Me gusta esto:

Relacionado

Read Next

Comprar un móvil en China supone un ahorro brutal respecto a España. La cuestión es si termina saliendo caro

La gran crisis de la caña: cómo España está dejando de lado a su medida favorita para beber cerveza

"No tiene nada que ver conmigo": cada vez más jóvenes en España recurren a máquinas láser para borrarse tatuajes

No tengo ni idea de cómo se programa una app. Acabo de crear una en 20 segundos con Google Firebase

En Jerusalén acaban de descubrir un jardín de 2.000 años que coincide con una descripción de la Biblia: la tumba de Jesús

En 1990, miles de personas solo podían recurrir a una cosa para pasarse un videojuego: llamar a Nintendo por teléfono

Sabíamos que los olivos eran árboles muy viejos. Lo que no imaginábamos es que llegaran a los 4.000 años de edad

Los millones de turistas que recibe Roma están subiendo el precio de la carbonara. Y los vecinos se han cansado

Hay un sitio donde las renovables están ganando la partida sobradamente a los combustibles fósiles: las patentes

El coche eléctrico más rápido del mundo parece sacado de Batman. Su secreto: "entrena" en un túnel del siglo XIX

Comprar un móvil en China supone un ahorro brutal respecto a España. La cuestión es si termina saliendo caro

La gran crisis de la caña: cómo España está dejando de lado a su medida favorita para beber cerveza

"No tiene nada que ver conmigo": cada vez más jóvenes en España recurren a máquinas láser para borrarse tatuajes

No tengo ni idea de cómo se programa una app. Acabo de crear una en 20 segundos con Google Firebase

En Jerusalén acaban de descubrir un jardín de 2.000 años que coincide con una descripción de la Biblia: la tumba de Jesús

En 1990, miles de personas solo podían recurrir a una cosa para pasarse un videojuego: llamar a Nintendo por teléfono

Sabíamos que los olivos eran árboles muy viejos. Lo que no imaginábamos es que llegaran a los 4.000 años de edad

Los millones de turistas que recibe Roma están subiendo el precio de la carbonara. Y los vecinos se han cansado

Hay un sitio donde las renovables están ganando la partida sobradamente a los combustibles fósiles: las patentes

El coche eléctrico más rápido del mundo parece sacado de Batman. Su secreto: "entrena" en un túnel del siglo XIX

Israel-Palestina: Israel no puede negarse a garantizar la entrega y distribución de ayuda humanitaria

Gaza, desperdicio de alimentos, derechos de las personas con discapacidad… Las noticias del miércoles

Acusación de genocidio en Gaza, Yemen, migrantes muertos… Las noticias del martes

Razonamiento y resolución de problemas

Búsqueda y síntesis

Creatividad y tono

Algunas limitaciones

Me gusta esto:

Relacionado

Read Next

Comprar un móvil en China supone un ahorro brutal respecto a España. La cuestión es si termina saliendo caro

La gran crisis de la caña: cómo España está dejando de lado a su medida favorita para beber cerveza

"No tiene nada que ver conmigo": cada vez más jóvenes en España recurren a máquinas láser para borrarse tatuajes

No tengo ni idea de cómo se programa una app. Acabo de crear una en 20 segundos con Google Firebase

En Jerusalén acaban de descubrir un jardín de 2.000 años que coincide con una descripción de la Biblia: la tumba de Jesús

En 1990, miles de personas solo podían recurrir a una cosa para pasarse un videojuego: llamar a Nintendo por teléfono

Sabíamos que los olivos eran árboles muy viejos. Lo que no imaginábamos es que llegaran a los 4.000 años de edad

Los millones de turistas que recibe Roma están subiendo el precio de la carbonara. Y los vecinos se han cansado

Hay un sitio donde las renovables están ganando la partida sobradamente a los combustibles fósiles: las patentes

El coche eléctrico más rápido del mundo parece sacado de Batman. Su secreto: "entrena" en un túnel del siglo XIX

BOMBEROS Y ELEMENTOS DE PROTECCIÓN CIVIL DE TLALNEPANTLA CONTIENEN EMERGENCIA POR DERRAME DE QUÍMICOS EN SAN LUCAS PATONI.

Reino Unido se ha encontrado con el mismo problema que Japón. Ha aparecido un enorme agujero en una calle, y luego otro

Publicaciones relacionadas

Israel-Palestina: Israel no puede negarse a garantizar la entrega y distribución de ayuda humanitaria

Gaza, desperdicio de alimentos, derechos de las personas con discapacidad… Las noticias del miércoles

Acusación de genocidio en Gaza, Yemen, migrantes muertos… Las noticias del martes