Ultimas Noticias

Este es uno de los secretos del éxito de DeepSeek: solo recluta talento chino y paga más de 1,3 millones de dólares

El hardware utilizado por DeepSeek para entrenar su modelo de inteligencia artificial (IA) de código abierto continúa generando desconfianza. Si nos ceñimos a la información que ha hecho pública esta compañía china la infraestructura utilizada para entrenar DeepSeek R1 aglutina 2.048 chips H800 de NVIDIA. Y el entrenamiento con 671.000 millones de parámetros ha costado 5,6 millones de dólares. Sin embargo, algunos analistas defienden que estas cifras no reflejan la realidad.

El jugosísimo informe elaborado por SemiAnalysis sostiene que, en realidad, la infraestructura empleada por DeepSeek para entrenar su modelo de IA aglutina aproximadamente 50.000 GPU de NVIDIA con microarquitectura Hopper. Según Dylan Patel, AJ Kourabi, Doug O’Laughlin y Reyk Knuhtsen, al menos 10.000 de estos chips son GPU H100 de NVIDIA, y como mínimo otros 10.000 son GPU H800. Los chips restantes, según estos analistas, son las GPU recortadas H20.

De estar en lo cierto, el coste real del entrenamiento de DeepSeek R1 debería ser mucho más alto. Patel y sus colegas aseguran que la inversión total que ha realizado esta empresa china en servidores asciende aproximadamente a 1.600 millones de dólares. Esta infraestructura está distribuida en varias ubicaciones y no se utiliza solo para entrenar modelos de IA; también está siendo empleada, siempre según SemiAnalysis, para investigación y modelado financiero.

Huawei está fortaleciendo su posición en el proceso de inferencia

Sea como sea DeepSeek tiene dos bazas muy importantes a su favor que merece la pena que no pasemos por alto. La primera de ellas consiste en que, como acabamos de ver, opera su propia infraestructura de procesamiento. Otras empresas emergentes que tienen una vocación similar se ven obligadas a recurrir a las granjas de los grandes proveedores de servicios en la nube. Tener su propio hardware permite a DeepSeek ser muy eficiente durante el proceso de desarrollo y optimización de sus modelos de IA.

DeepSeek recluta ingenieros exclusivamente dentro de China continental, y no los busca también en EEUU o Taiwán

Su segunda baza es su estrategia de adquisición de talento. Y es que DeepSeek recluta ingenieros exclusivamente dentro de China continental, y no los busca también en EEUU o Taiwán, como hacen otras compañías chinas similares. Además, paga muy bien: más de 1,3 millones de dólares anuales a sus mejores investigadores. Esta estrategia volcada en la adquisición de talento ha permitido a DeepSeek materializar innovaciones importantes en el ámbito de la IA y priorizar la eficiencia por encima de la mejora mediante la fuerza bruta.

Además, y esto también es importante que no lo pasemos por alto, DeepSeek no depende completamente del hardware de NVIDIA. Las GPU para IA desarrolladas por Huawei, como los chips Ascend 910C, están demostrando ser muy eficaces en los procesos de inferencia. La inferencia es, a grandes rasgos, el proceso computacional que llevan a cabo los modelos de lenguaje con el propósito de generar las respuestas que corresponden a las peticiones que reciben. Precisamente Huawei y SiliconFlow, que también es china y se dedica al despliegue de infraestructuras, son las responsables de que DeepSeek V3 y R1 estén disponibles a gran escala para los usuarios de todo el planeta.

Más información | SemiAnalysis | SCMP

En Xataka | China está vigilando de cerca el movimiento de Estados Unidos con Stargate. Y ya tiene preparada su respuesta

source

Mostrar más
Botón volver arriba