Ultimas Noticias

La polémica de los 5 millones de dólares: el debate sobre cuánto le ha costado a DeepSeek realmente su IA

5,576 millones de dólares. Eso es lo que los creadores de DeepSeek V3 afirman que se gastaron en el entrenamiento completo de este sorprendente modelo de IA. Lo dejan claro en su informe técnico oficial, que nos habla de cómo usaron 2,788 millones de horas de GPU (NVIDIA H800) para completarlo.

¿Nos lo creemos? Las cuentas les salen a ellos, claro, pero ¿y al resto del mundo? Ese es el debate abierto desde que este fin de semana explotó la noticia del lanzamiento de DeepSeek-R1. Este modelo de razonamiento, derivado de DeepSeek V3, compite de tú a tú con o1 de OpenAI, y que dé tanto por tan poco ha hecho que empresas como NVIDIA pierdan 400.000 millones de dólares en un solo día en bolsa.

Difícil de creer. La pregunta es si nos podemos fiar de las cifras que ofrece DeepSeek. Ben Thompson trató de ofrecer alguna luz al respecto y recordó que en el informe técnico de DeepSeek V3 sus responsables desglosan el coste del entrenamiento, pero aclaran algo importante. Los 5,576 millones de dólares no incluyen «costes asociados con investigaciones previas y experimentos en arquitecturas, algoritmos o datos». 

La opinión de los analistas. Ben Thompson indica en Stratechery que eso deja claro que uno no puede coger 5,6 millones de dólares y replicar lo que ha hecho DeepSeek, pero es que además añde que «aun así sigo sin creerme ese número». Otros analistas como  como Nathan Lambert, que en su newsletter Interconnect también debatía sobre este tema.

Hubo (por supuesto) gastos previos. Como explican en Financial Times, hay otros analistas que también dudan de ese dato interno de DeepSeek. Dylan Patel, de SemiAnalysis, argumenta según las citas del diario económico que DeepSeek ha tenido acceso a «decenas de miles» de GPUs de NVIDIA que se usaron para entrenar a los modelos que precedieron a R1. 

Pero eso pasa con otros modelos. «DeepSeek ha gastado claramente más de 500 millones de dólares en GPUs en su historia», afirmó Patel, «y aunque su entrenamiento fue muy eficiente, requirió mucha experimentación y pruebas para funcionar». Es un apunte interesante, aunque también es cierto que otras muchas empresas se gastan cientos e incluso miles de millones de dólares en infraestructura para entrenar sus modelos y luego ofrecerlos a los usuarios.

Y costes no tan transparentes. Esos 5,6 millones de dólares no reflejan además gastos adicionales como los que seguramente tuvieron que asumirse al adaptar DeepSeek V3 –que es la base– a DeepSeek R1. No se habla de salarios, del trabajo en anotación de los datos para que estos fueran de calidad de cara al entrenamiento, o en posibles procesos de entrenamiento incompletos o que por alguna razón se interrumpieron y fallaron.

Comparando con Llama 3. Un investigador de IA llamado Praneet Rathi (@pseuddd) publicaba hace unas horas una extensísimo y detalladísimo análisis sobre el coste del entrenamiento de DeepSeek V3 671B (con 37B activos, lo que reduce las necesidades para entrenarlo) y lo comparaba al de Llama 3, de Meta. En él indica cómo Llama 405B necesitó 30 millones de horas de GPU frente a las 2,8 millones de las que hablan en DeepSeek. 

Puede que sí, puede que no. Aquí estimaba que 1 hora de H800 (más limitada que la H100) usada en DeepSeek V3 equivalía a unas 0,75 horas de H100 usada en Llama 3, y tras aportar muchos datos más (como el hecho de usar solo aprendizaje por refuerzo y precisión FP8, lo que ahorra mucho en recursos) sus datos parecían apoyar la tesis de que el coste de DeepSeek es el que afirma ser. Otros comentarios con argumentos similares en Reddit también parecen dar credibilidad a los números publicados por la startup china. Por supuesto, es imposible saberlo con seguridad y otros usuarios comentan en Threads como esa comparación «es demasiado buena para ser verdad».

Pero es que cada vez es más barato entrenar modelos. Lo cierto es que la infraestructura es cada vez más potente y los procesos más eficientes. No solo para DeepSeek, sino para todos. Un análisis reciente estimó que el entrenamiento de GPT-4 a principios de 2023 había costado unos 63 millones ed dólares. En el tercer trimestre de 2023 ese coste hubiera sido de 20 millones de dólares, y es razonable pensar que hoy en día ese proceso hubiera sido aún más barato. Sería interesante saber qué dirían en OpenAI de esa estimación.

¿Es posible replicar DeepSeek R1? Que DeepSeek-R1 sea un modelo Open Source y que sus responsables hayan dado tantos datos sobre cómo han logrado desarrollar este modelo abre la puerta a que otros cojan el testigo y desarrollen modelos similares para luego irlos mejorando. Es precisamente lo que pretende hacer el proyecto Open-R1 cuyos participantes adelantan que aun así hay piezas del puzle que faltan, como por ejemplo qué datos se usaron para el entrenamiento o con qué «hiperparámetros» entrenaron el modelo.

Imagen | Taylor Vick

En Xataka | La siguiente fase de la IA no es ver quién invierte más sino quién invierte menos

source

Mostrar más
Botón volver arriba