La empresa china DeepSeek ha sacudido el panorama global de la inteligencia artificial (IA) con el lanzamiento de modelos altamente eficientes y económicos, que están demostrando ser tan precisos como los desarrollos de gigantes tecnológicos como OpenAI. Su innovación ha provocado entusiasmo en la comunidad de investigación, un impacto significativo en los mercados bursátiles y dudas sobre el futuro de la industria de la IA.
Un modelo disruptivo y eficiente
El modelo V3, lanzado en diciembre de 2024, y su versión mejorada R1, presentada el 20 de enero de 2025, destacan por su capacidad de razonamiento avanzado y su eficiencia. Estos modelos no solo igualan en desempeño a tecnologías como GPT-4 de OpenAI, sino que lo hacen con una fracción del costo.
- Costo de entrenamiento: Mientras que GPT-4 necesitó más de US$100 millones para su desarrollo, DeepSeek entrenó su modelo V3 por apenas US$5,58 millones.
- Recursos utilizados: DeepSeek empleó solo 2.000 GPUs NVIDIA H800 para entrenar su modelo, frente a las más de 16.000 GPUs H100 usadas por sus competidores.
La versión R1 de DeepSeek incorpora técnicas avanzadas de razonamiento paso a paso, lo que la hace particularmente efectiva en tareas complejas como la comprensión lectora y la planificación estratégica.
Cómo lo logró DeepSeek
Los avances de DeepSeek se basan en dos innovaciones clave que optimizan la eficiencia:
- Uso de la escasez en los parámetros
Los modelos de IA como V3 contienen miles de millones de parámetros (671 mil millones en este caso) que determinan sus respuestas. Sin embargo, DeepSeek desarrolló una técnica que identifica qué parámetros son esenciales para cada entrada y entrena únicamente esos, reduciendo drásticamente el tiempo y los recursos necesarios. - Compresión de datos
DeepSeek implementó un método avanzado para comprimir la información almacenada en la memoria del modelo, lo que permite un acceso más rápido y eficiente a los datos relevantes durante el entrenamiento y uso.
Impacto en la industria tecnológica
El enfoque de DeepSeek no solo ha impresionado a la comunidad científica, sino que también ha alterado significativamente el panorama del mercado tecnológico.
- Bursátil: La presentación del modelo R1 de DeepSeek provocó una caída del 16,86% en las acciones de Nvidia, eliminando casi US$600 mil millones de su capitalización de mercado en un solo día.
- Código abierto: DeepSeek ha publicado sus modelos bajo una licencia MIT gratuita, permitiendo a cualquier persona descargar y modificar sus tecnologías, democratizando el acceso a la IA avanzada.
Qué significa para el futuro de la IA
- Mayor accesibilidad y menor costo
Los consumidores podrían acceder a modelos de IA más económicos, incluso ejecutados en sus propios dispositivos. Esto reduciría la dependencia de servicios basados en la nube que requieren suscripciones. - Investigación más inclusiva
Para investigadores de universidades y pequeñas empresas, la eficiencia de DeepSeek abre nuevas posibilidades, ya que ahora pueden experimentar con IA avanzada sin necesidad de enormes recursos computacionales. - Cambio en la competencia
El modelo disruptivo de DeepSeek cuestiona el dominio de gigantes tecnológicos estadounidenses y podría iniciar una nueva era en la que los modelos de código abierto compitan con sistemas privados.
Reacciones de la industria
- Sam Altman, CEO de OpenAI, reconoció la innovación de DeepSeek y calificó su entrada como un reto que motiva a seguir avanzando.
- Alexander Wang, CEO de Scale AI, enfatizó que este avance subraya la necesidad de que Estados Unidos acelere su innovación tecnológica y controle la exportación de chips avanzados.
El desafío para Occidente
El éxito de DeepSeek plantea interrogantes sobre si el enfoque de altos costos y dependencia de infraestructura avanzada seguirá siendo viable para las empresas de IA en Occidente. A largo plazo, la competencia por modelos más accesibles y eficientes podría democratizar la inteligencia artificial, pero también intensificar la rivalidad entre China y Estados Unidos en el campo tecnológico.