DeepSeek-V4：中国AI技术栈的严肃展望

DeepSeek-V4 ou la perspective sérieuse d’une stack IA chinoise

Silicon.fr by Clément Bohic 2026-04-24 16:18 Original

摘要
DeepSeek于4月24日发布DeepSeek-V4系列模型（含Pro和Flash版本），采用MIT开源许可，参数规模达1600亿，支持百万token上下文窗口。华为声称其Ascend NPU芯片已“完全支持”该模型推理，且DeepSeek优先采用华为CANN框架而非英伟达CUDA，这加剧了英伟达CEO黄仁勋对软件生态被替代的担忧。尽管训练仍主要依赖英伟达GPU（可能涉及被美国限制出口的Blackwell芯片），但DeepSeek在架构上引入混合注意力机制和Muon优化器，显著降低推理算力消耗，为中国AI芯片生态独立铺平道路。

DeepSeek于4月24日发布了两款V4系列模型预览版，标志着中国AI自主技术栈迈出关键一步。此次发布正值NVIDIA CEO黄仁勋警告DeepSeek模型在华为芯片上表现更佳的风险之际，而V4版本确实展现出与华为Ascend NPU的深度适配。

核心模型参数：DeepSeek-V4-Pro拥有1.6万亿参数（490亿活跃参数），V4-Flash为2840亿参数（130亿活跃）。两者均采用MIT开源许可，支持百万token上下文窗口（输出38.4万token），并内置三级推理能力。多模态功能暂未集成，但已推出独立OCR模型。

架构创新：V4引入混合注意力机制，包含压缩稀疏注意力（CSA，按m个token分组压缩KV缓存并选取k个最优token）和重度压缩注意力（HCA，更激进压缩但采用密集注意力）。通过改进残差连接增强层间信号传播，并首次在MoE规模模型上实现Muon优化器，显著提升训练稳定性与收敛速度。

性能飞跃：相比V3.2，V4-Pro在最大上下文下每token计算量降低73%，键值缓存占用减少90%；V4-Flash更分别达到90%和93%的降幅。这为推理扩展和"热学习"等新兴范式铺平道路。

华为适配争议：华为声称V4训练部分使用其Ascend芯片，但主要算力仍依赖NVIDIA（可能包括被美国出口管制的Blackwell架构）。华盛顿方面指控DeepSeek违反出口限制，而该公司此前用华为芯片训练R2模型时遭遇严重问题。关键转折在于推理环节：华为宣称其Supernode服务器（搭载Ascend芯片）能"完全"运行V4模型，且DeepSeek优先采用华为CANN框架而非NVIDIA CUDA，这直接威胁到后者的软件生态主导地位。

基础设施优化：为降低专家并行化开销，DeepSeek合并通信与计算流水线，采用分批专家调度策略——同批次通信完成后立即启动计算，无需等待其他专家。训练阶段将专家权重存储为FP4精度，使模型适应低精度运算。此外引入路由索引预计算等机制提升训练稳定性。

智能体沙盒：通过Python SDK提供四种执行模式：函数调用（预热容器池分布式调用）、容器（EROFS按需加载）、微VM（Firecracker基础）、全VM（QEMU基础）。当前API端点（deepseek-trainer和deepseek-chat）分别指向V4-Flash有无推理版本，计划7月下线。

地缘政治影响：在美国限制H200等GPU对华出口、中国推动自主可控的双重背景下，DeepSeek与华为的深度绑定可能重塑AI算力格局。黄仁勋担忧的不仅是硬件替代，更是CUDA生态被CANN框架侵蚀的长期风险。北京已通过限制H200进口为国产芯片创造市场空间，而V4的华为适配能力将加速这一进程。

Summary
DeepSeek released two open-weight V4 models (Pro and Flash) on April 24, with Huawei claiming partial training on its Ascend NPUs, though most work likely used NVIDIA hardware, raising US export concerns. The key shift is DeepSeek’s apparent preference for Huawei’s CANN software framework over NVIDIA’s CUDA, threatening NVIDIA’s ecosystem dominance in China amid US export restrictions. The models feature hybrid attention mechanisms, reduced FLOP consumption (73-90% less per token), and FP4 weight storage, enabling more efficient inference and potentially accelerating China’s push for AI self-sufficiency.

DeepSeek has released two new models in preview, DeepSeek-V4-Pro and DeepSeek-V4-Flash, marking a significant step toward a fully Chinese AI stack. The launch comes amid heightened geopolitical tensions, with NVIDIA CEO Jensen Huang recently warning that DeepSeek models could eventually run better on Huawei chips than on NVIDIA hardware.

Huawei claims that training of the V4 models was partially conducted on its Ascend NPUs, though it provided no further details. Most of the training appears to have been done on NVIDIA GPUs, potentially including Blackwell chips, which would violate US export restrictions. Washington has made such allegations, and DeepSeek’s history with Huawei chips—including significant problems training the R2 model—lends credibility to these claims.

NVIDIA’s concern is less about losing training workloads and more about inference. Huawei asserts that its Supernode servers, equipped with Ascend chips, now “fully” support DeepSeek-V4 models, implying better compatibility than with earlier versions. Crucially, DeepSeek appears to have prioritized Huawei’s CANN framework over NVIDIA’s CUDA. This shift in software ecosystem is the core threat for Huang, especially given US export bans on many NVIDIA GPUs to China and Beijing’s own block on H200 imports to promote self-sufficiency.

Model details and architecture

DeepSeek-V4-Pro has 1.6 trillion parameters (49 billion active), while DeepSeek-V4-Flash has 284 billion (13 billion active). Both are released under the MIT open-weight license. Each offers three reasoning levels and a context window of 1 million tokens (384,000 for output). They are available via API, though multimodal capabilities remain absent—DeepSeek has released OCR models but does not prioritize vision.

At maximum context, DeepSeek-V4-Pro consumes 73% fewer flops per token than DeepSeek-V3.2, with a 90% reduction in key-value cache footprint. For V4-Flash, the reductions are 90% and 93% respectively. These efficiencies enable inference scaling and support emerging paradigms like “hot” learning.

Architecturally, DeepSeek introduces hybrid attention, interleaving two mechanisms:

Compressed Sparse Attention (CSA): compresses KV caches in groups of m tokens and applies sparse attention (selecting the k best tokens).
Heavily Compressed Attention (HCA): compresses more aggressively (more tokens per group) but uses dense attention.

DeepSeek also improved residual connections to enhance signal propagation between layers, and stabilized training by implementing the Muon optimizer—a first for a MoE model of this scale.

Infrastructure and inference optimizations

To reduce overhead from expert parallelism, DeepSeek merged communication and computation pipelines, finding that the system could tolerate lower bandwidth without performance loss. Experts are scheduled in waves: once communication within a wave completes, computation begins immediately without waiting for other experts.

During training, expert weights were stored in FP4, forcing the models to adapt to reduced precision. DeepSeek also incorporated techniques whose theoretical foundations it does not fully understand, such as “anticipatory” routing index computation, which improved training stability.

A dedicated “agentic AI” sandbox was built, exposed via a Python SDK with four execution modes:

Function call (distributed invocations to a pool of pre-warmed containers)
Container (on-demand EROFS loading)
MicroVM (Firecracker-based)
Full VM (QEMU-based)

Currently, the `deepseek-trainer` and `deepseek-chat` endpoints point to DeepSeek-V4-Flash with and without reasoning, respectively. These endpoints are scheduled for removal in July.

Résumé
DeepSeek a publié deux modèles V4 en préversion le 24 avril, avec une compatibilité améliorée pour les NPU Ascend de Huawei, bien que l'entraînement principal ait utilisé des puces NVIDIA, potentiellement des Blackwell, en violation des restrictions américaines. Huawei affirme que ses serveurs Supernode gèrent pleinement ces modèles, et DeepSeek a privilégié le framework CANN de Huawei au détriment de CUDA, menaçant l'écosystème logiciel de NVIDIA. Les modèles, disponibles en open-weight avec une licence MIT, intègrent des innovations comme l'attention hybride et une réduction significative des flops par token, renforçant la perspective d'une stack IA chinoise autonome.

Gare au jour où les modèles DeepSeek fonctionneront mieux sur les puces Huawei…

Jensen Huang, patron de NVIDIA, a brandi l’épouvantail il y a quelques jours. En toile de fond, le lancement imminent de la génération DeepSeek-V4. Et les rumeurs à son sujet. En particulier, une compatibilité améliorée avec les NPU Ascend de Huawei.

Le jour est arrivé… ou peut-être pas. Ce 24 avril, DeepSeek a en tout cas publié deux modèles V4, en préversion. Huawei affirme que leur entraînement s’est fait en partie sur ses puces, sans en dire davantage. Le gros du travail semble toutefois avoir été réalisé sur du NVIDIA. Y compris, potentiellement, du Blackwell, au mépris des restrictions américaines à l’export. C’est tout du moins ce qu’on prétend à Washington. Des allégations que tend à accréditer l’historique de DeepSeek avec les puces Huawei : l’entraînement du modèle R2 a posé des problèmes, et pas des moindres.

NVIDIA ne s’inquiète pas tant d’être court-circuité sur l’entraînement que sur l’inférence. En la matière, Huawei clame que ses serveurs Supernode – dotés de puces Ascend – gèrent « pleinement » les modèles DeepSeek-V4, laissant entendre que la prise en charge est meilleure que pour les générations précédentes. Surtout, DeepSeek paraît avoir privilégié le framework CANN de Huawei… aux dépens de CUDA. Là est le cœur du problème pour Jensen Huang : un risque de basculement de l’écosystème logiciel. Il l’estime d’autant plus probable dans le contexte des restrictions américaines à l’export de nombreux GPU NVIDIA vers la Chine. Pékin, dans sa volonté d’autosuffisance, a lui-même apporté sa pierre à l’édifice, bloquant les importations de H200.

À long contexte, attention hybride

Les modèles DeepSeek-V4-Pro (1600 milliards de paramètres dont 49 milliards actifs) et DeepSeek-V4-Flash (284/13) sont publiés en open-weight (licence MIT). Chacun a trois niveaux de raisonnement et une fenêtre de contexte d’un million de tokens (384 000 en sortie). Ils sont aussi disponibles sur l’API*. Pour la multimodalité, on attendra : ce n’est toujours pas une priorité de DeepSeek, même s’il a déjà sorti des modèles d’OCR.

À contexte maximal, DeepSeek-V4-Pro consomme 73 % moins de flops par token que DeepSeek-V3.2, nous annonce-t-on. Et l’empreinte du cache clé-valeur diminue de 90 %. Avec DeepSeek-V4-Flash, les rapports sont respectivement de 90 et 93 %. Ce qui favorise la mise à l’échelle de l’inférence, tout en ouvrant la voie à la mise en œuvre de paradigmes émergents tel l’apprentissage « à chaud ».

Entre autres innovations architecturales, DeepSeek a mis en place une attention hybride. Elle entrelace deux mécanismes. L’un, dit CSA (Compressed Sparse Attention), compresse les caches KV par groupes de m tokens et y associe une attention parcimonieuse (sélection des k meilleurs tokens).

L’autre, dit HCA (Heavily Compressed Attention), compresse plus agressivement (davantage de tokens par groupe), mais utilise une attention dense.

DeepSeek a aussi introduit une technique qui améliore les connexions résiduelles, et par là même la propagation du signal entre les couches. Il a par ailleurs stabilisé l’entraînement et accéléré la convergence en implémentant l’optimiseur Muon – une première sur un modèle MoE de cet ordre de grandeur.

Habituer les modèles à travailler en précision réduite

Au niveau infrastructure, des ajustements ont été effectués pour limiter la surcharge liée à la parallélisation des experts. Constatant que le système pouvait tolérer une bande passante réduite sans dégradation de la performance d’ensemble, DeepSeek a fusionné les pipelines de communication et de calcul. Pour réduire davantage la bande passante nécessaire, il a planifié les experts par vagues. Une fois la communication achevée au sein d’une vague, le calcul peut commencer immédiatement, sans attendre les autres experts.

Pour accélérer l’inférence, le stockage des poids des experts s’est fait en FP4 lors de l’entraînement. Les modèles se sont ainsi adaptés à travailler avec une précision réduite.

DeepSeek a intégré plusieurs techniques dont il n’a pas pleinement saisi les fondements. Par exemple, une forme de calcul « anticipé » des index de routage, qui s’avère améliorer la stabilité de l’entraînement. Il a aussi conçu une sandbox « spécial IA agentique ». Exposée via un SDK Python, elle donne accès à 4 modes d’exécution :

Appel de fonction (invocations distribuées vers un pool de conteneurs « préchauffés »)

Conteneur (chargement EROFS à la demande)

MicroVM (base Firecracker)

VM complète (base QEMU)

Architecture des modèles DeepSeek-V4

* Pour le moment, les endpoints deepseek-trainer et deepseek-chat pointent respectivement sur DeepSeek-V4-Flash avec et sans raisonnement. DeepSeek prévoit de les supprimer en juillet.

Illustration principale générée par IA

The post DeepSeek-V4 ou la perspective sérieuse d’une stack IA chinoise appeared first on Silicon.fr.

AI Insight

中文 EN

Core Point

DeepSeek发布V4模型，部分训练基于华为昇腾芯片，但主力仍是NVIDIA，此举可能推动中国AI软件生态从CUDA转向华为CANN框架。

Key Players

DeepSeek — 中国AI模型开发商，发布V4系列（V4-Pro 1600B/49B参数，V4-Flash 284B/13B），开源MIT许可。
华为 — 中国科技巨头，宣称其昇腾NPU和Supernode服务器完全支持DeepSeek-V4推理。
NVIDIA — 美国GPU巨头，担忧华为CANN框架取代CUDA，因美国出口限制削弱其在中国市场地位。

Industry Impact

Computing/AI: High — DeepSeek-V4采用混合注意力机制（CSA+HCA）、Muon优化器、FP4权重存储等创新，推理效率大幅提升（V4-Pro每token FLOPs降73%）。
ICT: Medium — 华为CANN框架与DeepSeek深度适配，可能加速中国AI芯片生态独立，削弱NVIDIA CUDA垄断。
Terminals/Consumer Electronics: Low — 模型暂不支持多模态，但OCR能力已存在。

Tracking

Strongly track — DeepSeek-V4的华为适配和CANN框架采用，可能重塑全球AI芯片竞争格局，尤其在中美科技脱钩背景下。

Highlights

Tech Breakthrough

Related Companies

Silicon.fr

mature

negative

Nvidia

mature

negative

Huawei

mature

negative

DeepSeek

startup

positive

Blackwell

negative

Ascend

neutral

CANN

negative

CUDA

negative

Supernode

negative

Pékin

neutral

Muon

negative

Firecracker

neutral

QEMU

neutral

EROFs

neutral

AI Processing

2026-04-24 21:58

deepseek / deepseek-chat