DeepSeek V4 对 CXL 是明确的重大影响

1. V4 的核心变化：Engram + 1M 上下文
Engram（存算分离）：把约 80% 静态知识从昂贵的 GPU 显存（HBM）里搬出来，放到系统内存（DRAM）+ SSD。
1M 超长上下文：KV Cache、记忆表急剧膨胀，显存不够、内存来凑。
一句话：从“显存堆叠”转向“内存池化+分层存储”。
2. 为什么这必须用 CXL
要让 GPU 像访问自己显存一样低延迟、高带宽地访问远端 DRAM/SSD，传统 PCIe 不够用：
CXL 提供内存一致性：GPU 直接访问主机内存池，不用拷贝、不用中转。
CXL 内存扩展（MXC）：单服务器可挂载 TB 级 DDR5，成本远低于 HBM。
CXL 连接存储：低频冷数据放 CXL-SSD，按需调入内存。
3. 实际效果（已被测算）
CXL 一体机：参数容量可从 671B 扩到 1200B，推理性能 +20%。
CXL-NDP：推理吞吐量 +43%，不损失精度。

# 快报