DeepSeek lanza la serie de modelos de código abierto V4 con 1,6T de parámetros y licencia MIT

Mensaje de Gate News, 24 de abril — DeepSeek ha lanzado la serie V4 de modelos de código abierto bajo la Licencia MIT, con pesos ahora disponibles en Hugging Face y ModelScope. La serie incluye dos modelos (MoE) de mezcla de expertos: V4-Pro con 1,6 billones de parámetros totales y 49 mil millones activados por token, y V4-Flash con 284 mil millones de parámetros totales y 13 mil millones activados por token. Ambos admiten una ventana de contexto de 1 millón de tokens.

La arquitectura presenta tres mejoras clave: un mecanismo de atención híbrida que combina atención dispersa comprimida (CSA) y atención altamente comprimida (HCA) que reduce significativamente la sobrecarga para contextos largos: los FLOPs de inferencia para 1M de contexto de V4-Pro son solo el 27% de los de V3.2, y la caché KV (VRAM para almacenar información histórica durante la inferencia) es solo el 10% de la de V3.2; enlaces hiperconectados con restricción de manifold (mHC) que reemplazan las conexiones residuales tradicionales para mejorar la estabilidad de la propagación de señales entre capas; y el optimizador Muon para una convergencia de entrenamiento más rápida. El preentrenamiento utilizó más de 32 billones de tokens de datos.

El postentrenamiento emplea un enfoque de dos etapas: primero, entrenar expertos específicos del dominio mediante fine-tuning supervisado (SFT) y aprendizaje por refuerzo con GRPO, luego fusionarlos en un único modelo mediante destilación en línea. V4-Pro-Max (modo de inferencia más alto) afirma ser el modelo de código abierto más potente, con puntos de referencia de codificación de nivel superior y brechas significativamente reducidas frente a modelos de frontera de código cerrado en tareas de razonamiento y de agentes. V4-Flash-Max logra un rendimiento de razonamiento a nivel Pro con un presupuesto de cómputo suficiente, pero se ve limitado por la escala de parámetros en conocimiento puro y tareas de agentes complejas. Los pesos se almacenan en precisión mixta FP4+FP8.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

DeepSeek V4 logra una puntuación perfecta en Putnam-2025 y empata con Axiom en razonamiento matemático formal

Mensaje de Gate News, 24 de abril — DeepSeek V4 ha publicado resultados de evaluaciones de razonamiento matemático formal, logrando una puntuación perfecta de 120/120 en Putnam-2025, empatando con Axiom por el primer lugar. En el régimen práctico, usando LeanExplore y muestreo con restricciones, V4-Flash-Max obtuvo 81.00 en el

GateNewsHace8m

¿Qué IA te hace destacar de la manera más evidente en tu estatus e identidad? Un estudio revela que los ingresos de los usuarios de Claude superan con creces a los de sus competidores, Meta AI queda en el último lugar

La investigación de Epoch AI muestra que los usuarios de Claude pertenecen mayoritariamente a grupos de altos ingresos: el 80% tiene un ingreso anual de más de 100.000 dólares; la distribución de ingresos de Meta AI es la más amplia, con un 36,5% por encima de 100.000, y la proporción de ingresos bajos es la más alta. Con el precio de Claude en aumento y con facturación por niveles, los costos podrían aumentar; Meta tiene una entrada más fácil. En el futuro, ¿qué IA podría convertirse en una etiqueta de identidad implícita?

ChainNewsAbmediaHace13m

V4-Pro logra una tasa de aprobación de codificación del 67% en pruebas internas de dogfooding, acercándose al rendimiento de Opus 4.5

Mensaje de Gate News, 24 de abril — V4 ha divulgado públicamente datos internos de dogfooding de su modelo V4-Pro. La empresa recopiló aproximadamente 200 tareas de ingeniería del mundo real de más de 50 ingenieros, que abarcan el desarrollo de funciones, correcciones de errores, refactorización y diagnósticos en pilas tecnológicas que incluyen

GateNewsHace28m

Reino Unido pone sus ojos en la IA de Anthropic para reforzar la ciberseguridad bancaria

El Reino Unido está explorando un paso importante en la ciberseguridad financiera trabajando con la empresa de IA Anthropic. Las primeras conversaciones sugieren que el gobierno podría desplegar el avanzado modelo Claude Mythos de Anthropic en bancos e instituciones financieras. Este movimiento tiene como objetivo mejorar las defensas ante las amenazas cibernéticas

CryptometerIoHace32m

La Oficina de PI de China añade IA, semiconductores e interfaces cerebro-computadora al programa de protección acelerada

Mensaje de Gate News, 24 de abril — La Administración Nacional de Propiedad Intelectual de China anunció el 24 de abril que establecerá una protección integral de la propiedad intelectual para tecnologías emergentes mediante reformas institucionales, servicios mejorados y aplicaciones ampliadas. La administración wi

GateNewsHace39m
Comentar
0/400
Sin comentarios