云天励飞DeepEdge10适配DeepSeek开源周“首个大招”:FlashMLA
2025-02-27 15:36:54爱云资讯4945
2月24日,DeepSeek"开源周"正式启动,并发布首个代码库FlashMLA,引发全球关注。
FlashMLA是针对英伟达Hopper GPU优化的高效MLA解码内核,专为可变长度序列优化设计,是DeepSeek高效使用算力的核心程序模块。FlashMLA通过MLA解码优化与分页KV缓存技术,显著提升硬件利用率,加速大语言模型解码过程,有效提高响应速度与吞吐量,适用于各种实时对话生成场景。
云天励飞芯片团队在FlashMLA开源后,迅速完成了DeepEdge10平台与FlashMLA的适配工作。在适配过程中,云天励飞采用了Op fusion tiling、Online softmax、Double buffer、细粒度存算并行等先进技术,并基于自研的Triton-like编程语言快速开发验证了高效的FlashMLA算子。通过一系列优化,不仅显著提升了计算效率,还大幅降低了显存占用,充分展现了DeepEdge10平台“算力积木”芯片架构的卓越优势,以及其与DeepSeek生态的高度契合性。
今日,云天励飞已将相关代码提交至开源平台Gitee,为开源AI贡献了重要的技术力量。
DeepEdge10系列芯片是专门针对大模型时代打造的芯片,支持包括 Transformer 模型、BEV 模型、CV 大模型、LLM 大模型等各类不同架构的主流模型;基于自主可控的先进国产工艺打造,采用独特的“算力积木”架构,可灵活满足智慧城市、智慧交通、智能制造、智慧仓储、机器人、边缘智算中心等不同场景对算力的需求,为大模型推理提供强大动力。
目前,DeepEdge10芯片平台已成功适配DeepSeek R1系列模型及国产鸿蒙操作系统。未来,云天励飞将持续加大研发力度,推动芯片在国产化领域取得更大突破,为国产AI生态建设贡献更多力量。
相关文章
- 云天励飞DeepEdge10适配DeepSeek开源周“首个大招”:FlashMLA
- 云天励飞与昇腾联合打造智算中心解决方案,加速边缘AI向全场景渗透
- 云天励飞成立To C新品牌“噜咔博士”,为儿童打造探索世界的AI硬件
- 探索“大模型+智能眼镜”,云天励飞与闪极科技签署战略合作协议
- 成立仅10年,云天励飞何以成为智慧城市“深圳七杰”
- 四川卫视与云天励飞签署框架合作协议,推进全国首个“低空融媒中心”成立
- 云天励飞亮相2024北京安博会,以边缘AI开启“大模型+警务”新时代
- 广东省科技大会:云天励飞参与项目获唯一特等奖
- 从芯片架构到算力单元,云天励飞“算力积木”展现国产芯片自研新突破
- 云天励飞上半年业绩翻倍,边缘AI开辟智能行业新蓝海
- 云天励飞论文入选ACL24:SPACE引擎引领大模型推理无损加速时代
- 云天励飞推出全新云端推理加速卡X6000,夯实智算运营底座
- WAIC 2024聚焦边缘AI:云天励飞引领大模型产业新篇章
- 16亿营收落地!云天励飞正式签署AI算力运营项目服务合同
- 大模型发展成果瞩目,云天励飞世安会引领公共安全从被动治理向主动预防转变
- 数字中国峰会:云天励飞大模型技术落地,加速智慧城市建设步伐