DeepSeek V4 对 CXL 是明确的重大影响

1. V4 的核心变化:Engram + 1M 上下文
Engram(存算分离):把约 80% 静态知识从昂贵的 GPU 显存(HBM)里搬出来,放到系统内存(DRAM)+ SSD。
1M 超长上下文:KV Cache、记忆表急剧膨胀,显存不够、内存来凑。
一句话:从“显存堆叠”转向“内存池化+分层存储”。
2. 为什么这必须用 CXL
要让 GPU 像访问自己显存一样低延迟、高带宽地访问远端 DRAM/SSD,传统 PCIe 不够用:
CXL 提供内存一致性:GPU 直接访问主机内存池,不用拷贝、不用中转。
CXL 内存扩展(MXC):单服务器可挂载 TB 级 DDR5,成本远低于 HBM。
CXL 连接存储:低频冷数据放 CXL-SSD,按需调入内存。
3. 实际效果(已被测算)
CXL 一体机:参数容量可从 671B 扩到 1200B,推理性能 +20%。
CXL-NDP:推理吞吐量 +43%,不损失精度。

© 版权声明

相关文章

暂无评论

暂无评论...