ADVERTISEMENT

| Tech

Cómo las restricciones de chips de EU dieron lugar a un monstruo llamado DeepSeek

Al no poder utilizar chips potentes, los investigadores fuera de EU se vieron obligados a encontrar formas de entrenar y operar modelos de IA utilizando menos memoria y capacidad de procesamiento.

Cómo las restricciones de chips de EU dieron lugar a un monstruo llamado DeepSeek [Fotos: Bonnie Cash/UPI/Bloomberg via Getty Images; Andrey Rudakov/Bloomberg via Getty Images]

La empresa china de inteligencia artificial DeepSeek ha provocado un gran revuelo en la industria de la IA.

A pesar de que no disponía de los chips más potentes que se creían necesarios para crear modelos de IA de última generación, DeepSeek realizó algunas jugadas maestras de ingeniería que permitieron a sus investigadores hacer más con menos. Los modelos DeepSeek-V3 y DeepSeek-R1 que la empresa lanzó recientemente lograron un rendimiento de vanguardia en las pruebas de referencia y su entrenamiento y funcionamiento costaron mucho menos tiempo y dinero que los modelos comparables.

Y la cereza del pastel: los investigadores de la empresa mostraron su trabajo —explicaron los avances en artículos de investigación y publicaron los modelos en código abierto para que otros puedan usarlos para crear sus propios modelos y agentes.

La principal razón por la que DeepSeek tuvo que hacer más con menos es que la administración Biden impuso una serie de restricciones a las exportaciones de chips, diciendo que los fabricantes de chips estadounidenses como Nvidia no podían enviar las GPU más potentes (unidades de procesamiento gráfico, el chip de referencia para entrenar a las IA) a países fuera de Estados Unidos.

Este esfuerzo comenzó en octubre de 2022 y se ha actualizado y ajustado varias veces para cerrar lagunas. Biden emitió una orden ejecutiva poco antes de dejar el cargo que endurecía aún más las restricciones. DeepSeek aparentemente siguió las reglas. Se conformó con los chips H800 que Estados Unidos permitió a Nvidia vender en China, en lugar de los H100 más potentes que utilizan las empresas estadounidenses de tecnología e IA.

Haciendo más con menos

Con chips menos potentes, los investigadores se vieron obligados a encontrar formas de entrenar y operar modelos de IA utilizando menos memoria y potencia de cálculo.

Los modelos de DeepSeek utilizan un enfoque de “mezcla de expertos”, que les permite activar solo un subconjunto de los parámetros del modelo que se especializan en un determinado tipo de consulta. Esto permite ahorrar potencia de cálculo y aumentar la velocidad.

DeepSeek no inventó este enfoque (el modelo GPT-4 de OpenAI y el modelo DBRX de Databricks lo utilizan), pero la empresa encontró nuevas formas de utilizar la arquitectura para reducir el tiempo de procesamiento informático necesario durante el preentrenamiento (el proceso en el que el modelo procesa enormes cantidades de datos para optimizar sus parámetros para responder correctamente a las consultas de los usuarios).

En DeepSeek-R1, un modelo de razonamiento comparable a la serie de modelos o1 más reciente de OpenAI (anunciada en septiembre), DeepSeek encontró formas de ahorrar durante el tiempo de inferencia, cuando el modelo está “pensando” en varias rutas para llegar a una buena respuesta. Durante este proceso de prueba y error, el sistema debe recopilar y almacenar cada vez más información sobre el problema y sus posibles soluciones en su “ventana de contexto” (su memoria) a medida que trabaja.

A medida que la ventana de contexto agrega más información, la memoria y la potencia de procesamiento requeridas aumentan rápidamente. Quizás la mayor innovación de DeepSeek sea reducir drásticamente la cantidad de memoria asignada para almacenar todos esos datos. En términos generales, el sistema R1 almacena los datos de contexto en forma comprimida, lo que genera ahorros de memoria y una mejor velocidad sin afectar la calidad de la respuesta que ve el usuario.

El modelo de IA de DeepSeek costó solo 5.5 mdd

DeepSeek dijo en un artículo de investigación que su modelo V3 costó apenas 5,576 millones de dólares para entrenar. En comparación, el CEO de OpenAI, Sam Altman, dijo que el costo de entrenar su modelo GPT-4 fue de más de 100 millones de dólares.

Desde el lanzamiento de la V3 de DeepSeek, los desarrolladores han estado entusiasmados con el rendimiento y la utilidad del modelo. Los consumidores ahora están adoptando un nuevo chatbot de DeepSeek (impulsado por los modelos V3 y R1), que ahora es el número uno en el ranking de Apple de aplicaciones gratuitas. (Sin embargo, ese éxito ha atraído ciberataques contra DeepSeek y ha hecho que la empresa limite temporalmente los registros de nuevos usuarios).

Durante los últimos dos años, la narrativa en la industria ha sido que la creación de modelos de vanguardia requiere miles de millones de dólares, muchos de los chips Nvidia más rápidos y una gran cantidad de investigadores de primer nivel. En toda la industria y en los círculos de inversión, esa suposición ha sido cuestionada.

Como resultado, las acciones de Nvidia cayeron casi 17% el lunes, ya que los inversionistas cuestionaron sus suposiciones sobre la demanda de las costosas GPU. Y todo esto está sucediendo porque un pequeño grupo de investigadores chinos sabía que necesitarían grandes avances de ingeniería para crear modelos de última generación utilizando chips que no son precisamente de última generación.

Author

  • Mark Sullivan

    Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan

    View all posts

Author

  • Mark Sullivan

    Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan

    View all posts

Sobre el autor

Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan

ADVERTISEMENT

ADVERTISEMENT