El asistente DeepSeek llegó a App Store el pasado 11 de enero y desde entonces, escaló hasta ocupar la primera posición en la tienda de Apple en Estados Unidos, por delante de ChatGPT, de OpenAI; un hito para una aplicación que apenas acaba de llegar al mercado y que compite con el ‘chatbot’ más popular desde hace más de dos años.
DeepSeek es un asistente de inteligencia artificial (IA) generativa que la firma china del mismo nombre lanzó el pasado 11 de enero en la App Store, donde se ofrece bajo una modalidad de uso gratuito. Además de responder preguntas en un formato conversacional, puede navegar por la web para ofrecer respuestas actualizadas, resumir documentos de texto de manera rápida y utilizar el razonamiento para resolver problemas complejos.
En su base se encuentra el modelo DeepSeek V3, que se lanzó en diciembre. Este ha sido entrenado con 671.000 millones de parámetros con arquitectura Mixture of Experts (MoE), que divide un modelo de IA en pequeñas redes neuronales para que actúen de forma separada como si fueran distintos expertos.
Dispone también de 37.000 millones de parámetros activados para cada token, como explican en el repositorio de GitHub. Y sus responsables han recurrido al mecanismo de atención latente multicabezal (MLA) para “lograr una inferencia eficiente y una capacitación rentable”.
La compañía tecnológica ha empleado 14,8 billones de tokens “diversos y de alta calidad” junto con un ajuste supervisado y aprendizaje de refuerzo por fases. Aseguran, además, que cada token ha requerido para su entrenamiento 3,7 días con 2.048 GPU Nvidia H800, lo que hace que el entrenamiento total alcance los 2.788 millones de horas de GPU y un coste total de 5.576 millones de dólares.
Según afirman, el modelo “supera a otros modelos de código abierto y logra un rendimiento comparable al de los principales modelos de código cerrado”. Así, en la evaluación de la comprensión del lenguaje (MMLU Pro) en una variedad de tareas, DeepSeek V3 alcanza una puntuación de 75.9 frente al 78.0 de Claude 3.5 Sonnet, el 72.6 de GPT 4o y el 73.3 de Llama 3.1 405B.
En la evaluación de la capacidad para responder preguntas complejas de nivel posgrado (GPAQ Diamond), DeepSeek V3 ha obtenido una puntuación de 59.1, por debajo de Claude 3.5 Sonnet (65.0), pero por encima de GPT 4o (49.9), Qwen 2.5 de 72B (49.0) y Llama 3.1 405B (51.1).