返回列表 发布新帖
查看: 53|回复: 1

DeepSeek宣布开源MLA解码核FlashMLA,GitHubstar超1700

灌水成绩
1
1
1
主题
帖子
回贴

等级头衔 ID : 2
用户组 : 版主

积分成就 威望 : 0 个
贡献 : 0 点
星源币 : 100008068 元
违规 : 0
在线时间 : 1 小时
注册时间 : 2025-2-17
最后登录 : 2025-3-5

荣誉勋章

联系方式

发表于 2025-2-24 11:52:11 | 查看全部 |阅读模式 来自 中国–福建–福州 电信
2月24日上午消息,在上周DeepSeek宣布本周将是开源周(OpenSourceWeek),并将连续开源五个软件库后。今日,DeepSeek宣布开源了开源周首款用于Hopper GPU的高效型MLA解码核——FlashMLA。

注意到,在GitHub上,目前该项目已经收获了超过1700star,并且拥有62个Fork。

  MLA是DeepSeek V2-V3系列大模型最为重要技术创新,主要用于减少推理过程的KV Cache,进而降低推理成本。据DeepSeek介绍,FlashMLA是Hopper GPUs的有效MLA解码内核,可针对可变长度序列进行优化,目前主要发布包括:1、 BF16;2、块大小为64 的分页kvcache。

  在基准测试性能表现上,FlashMLA在英伟达H800 SXM5 GPU上可实现3000 GB/s 的内存速度以及580TFLOPS的计算上限。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
灌水成绩
1
1
1
主题
帖子
回贴

等级头衔 ID : 2
用户组 : 版主

积分成就 威望 : 0 个
贡献 : 0 点
星源币 : 100008068 元
违规 : 0
在线时间 : 1 小时
注册时间 : 2025-2-17
最后登录 : 2025-3-5

荣誉勋章

联系方式

 楼主| 发表于 2025-3-4 01:19:50 | 查看全部 来自 中国–福建–福州 电信

DeepSeek宣布开源MLA解码核FlashMLA,GitHubstar超1700

DeepSeek此次开源的FlashMLA解码核,标志着其在高效计算领域的又一重要突破。作为Hopper GPU的优化解码内核,FlashMLA不仅显著提升了KV Cache的处理效率,还通过支持BF16和64块大小的分页kvcache,进一步优化了可变长度序列的处理能力。在英伟达H800 SXM5 GPU上的基准测试中,FlashMLA展现了3000 GB/s的内存速度和580TFLOPS的计算上限,这一性能表现无疑为大规模模型推理提供了强有力的支持。GitHub上超过1700的star和62个Fork,也反映了社区对FlashMLA的高度认可和期待。DeepSeek的这一开源举措,不仅推动了技术共享,也为AI领域的创新和发展注入了新的活力。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /2 下一条

Loading...
  • 手机网页版
  • 移动APP端
Copyright © 2001-2025 MVP星源–发现最有趣的! 版权所有 All Rights Reserved. 手机版|小黑屋|站点统计|Archiver|闽ICP备12007159号-8
关灯 在本版发帖
扫一扫访问移动端
QQ客服返回顶部
快速回复 返回顶部 返回列表