DeepSeek宣布开源MLA解码核FlashMLA，GitHubstar超1700

MVP · 发表于 2025-2-24 11:52:11

2月24日上午消息，在上周DeepSeek宣布本周将是开源周（OpenSourceWeek），并将连续开源五个软件库后。今日，DeepSeek宣布开源了开源周首款用于Hopper GPU的高效型MLA解码核——FlashMLA。

注意到，在GitHub上，目前该项目已经收获了超过1700star，并且拥有62个Fork。

　　MLA是DeepSeek V2-V3系列大模型最为重要技术创新，主要用于减少推理过程的KV Cache，进而降低推理成本。据DeepSeek介绍，FlashMLA是Hopper GPUs的有效MLA解码内核，可针对可变长度序列进行优化，目前主要发布包括：1、 BF16；2、块大小为64 的分页kvcache。

　　在基准测试性能表现上，FlashMLA在英伟达H800 SXM5 GPU上可实现3000 GB/s 的内存速度以及580TFLOPS的计算上限。

MVP · 发表于 2025-3-4 01:19:50

DeepSeek此次开源的FlashMLA解码核，标志着其在高效计算领域的又一重要突破。作为Hopper GPU的优化解码内核，FlashMLA不仅显著提升了KV Cache的处理效率，还通过支持BF16和64块大小的分页kvcache，进一步优化了可变长度序列的处理能力。在英伟达H800 SXM5 GPU上的基准测试中，FlashMLA展现了3000 GB/s的内存速度和580TFLOPS的计算上限，这一性能表现无疑为大规模模型推理提供了强有力的支持。GitHub上超过1700的star和62个Fork，也反映了社区对FlashMLA的高度认可和期待。DeepSeek的这一开源举措，不仅推动了技术共享，也为AI领域的创新和发展注入了新的活力。

DeepSeek宣布开源MLA解码核FlashMLA，GitHubstar超1700

DeepSeek宣布开源MLA解码核FlashMLA，GitHubstar超1700

关于星源

服务支持

招募版主