Arquitectura de DeepSeek V4 verificada: 3 de 4 predicciones acertaron, no aparece el módulo Engram

Mensaje de Gate News, 24 de abril — DeepSeek lanzó hoy la ficha del modelo V4, validando predicciones arquitectónicas anteriores realizadas mediante el análisis de la biblioteca de kernels TileKernels lanzada ayer (23 de abril). Según el monitoreo de Beating, se confirmaron tres componentes principales: mHC (Conexiones hiperconstriñidas mediante manifold) reemplazando HyperConnection original de ByteDance, arquitectura MoE con enrutamiento de expertos Top-k, y almacenamiento de pesos de precisión mixta FP4+FP8. El módulo de memoria condicional Engram predicho no apareció en la ficha del modelo.

La ficha del modelo reveló nuevos componentes no cubiertos en TileKernels: mecanismos de atención híbrida (CSA + HCA) impulsan las ganancias de eficiencia de contexto largo de V4, reduciendo los FLOPs de inferencia a solo el 27% del nivel de V3.2 en ventanas de contexto de 1M y la caché KV al 10%. El entrenamiento ahora utiliza el optimizador Muon.

La verificación demuestra cómo implementaciones de kernels a nivel de producción pueden revelar la arquitectura subyacente del modelo antes de que se publiquen las especificaciones oficiales.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Tencent lanza en código abierto Hy3, versión preliminar; las pruebas de referencia del código mejoran un 40% con respecto a la generación anterior

Tencent el 23 de abril lanzó oficialmente como código abierto el modelo de lenguaje grande Hy3 en versión preliminar en las plataformas GitHub, Hugging Face y ModelScope, y también ofrece servicios de API de pago a través de Tencent Cloud. Según informó Decrypt el 24 de abril, la versión preliminar de Hy3 inició el entrenamiento a finales de enero y, para la fecha de publicación, habían transcurrido menos de tres meses.

MarketWhisperHace6m

Inversiones de cartera de FTX por valor de 158 billones de won si no hubiera quebrado

FTX, el exchange centralizado de criptomonedas que se acogió al Capítulo 11 de protección por bancarrota en noviembre de 2022 debido a la falta de liquidez y a la salida de capitales, habría mantenido inversiones valoradas en aproximadamente 158.796 billones de wones si no hubiera colapsado, según un análisis citado por Park

CryptoFrontierHace9m

Xiaomi Revela Detalles del Entrenamiento de MiMo-V2-Pro: Parámetros de Modelo 1T, Miles de GPUs Desplegadas

Mensaje de Gate News, 24 de abril: la jefa del equipo de modelos de lenguaje de Xiaomi, Luo Fuli, reveló en una entrevista en profundidad que el modelo MiMo-V2-Pro cuenta con un total de 1 billón de parámetros y que requirió miles de GPUs para el entrenamiento. Señaló que la escala de 1T representa el umbral mínimo para lograr

GateNewsHace23m

DeepSeek V4 logra una puntuación perfecta en Putnam-2025 y empata con Axiom en razonamiento matemático formal

Mensaje de Gate News, 24 de abril — DeepSeek V4 ha publicado resultados de evaluaciones de razonamiento matemático formal, logrando una puntuación perfecta de 120/120 en Putnam-2025, empatando con Axiom por el primer lugar. En el régimen práctico, usando LeanExplore y muestreo con restricciones, V4-Flash-Max obtuvo 81.00 en el

GateNewsHace31m

¿Qué IA te hace destacar de la manera más evidente en tu estatus e identidad? Un estudio revela que los ingresos de los usuarios de Claude superan con creces a los de sus competidores, Meta AI queda en el último lugar

La investigación de Epoch AI muestra que los usuarios de Claude pertenecen mayoritariamente a grupos de altos ingresos: el 80% tiene un ingreso anual de más de 100.000 dólares; la distribución de ingresos de Meta AI es la más amplia, con un 36,5% por encima de 100.000, y la proporción de ingresos bajos es la más alta. Con el precio de Claude en aumento y con facturación por niveles, los costos podrían aumentar; Meta tiene una entrada más fácil. En el futuro, ¿qué IA podría convertirse en una etiqueta de identidad implícita?

ChainNewsAbmediaHace36m

V4-Pro logra una tasa de aprobación de codificación del 67% en pruebas internas de dogfooding, acercándose al rendimiento de Opus 4.5

Mensaje de Gate News, 24 de abril — V4 ha divulgado públicamente datos internos de dogfooding de su modelo V4-Pro. La empresa recopiló aproximadamente 200 tareas de ingeniería del mundo real de más de 50 ingenieros, que abarcan el desarrollo de funciones, correcciones de errores, refactorización y diagnósticos en pilas tecnológicas que incluyen

GateNewsHace50m
Comentar
0/400
Sin comentarios