大规模专家并行推理集群实现性能3倍跃迁,联通元景开启推理新纪元
2025-04-08 14:52:41爱云资讯8553
近日,中国联通持续技术攻坚,依托元景大模型MaaS平台成功搭建“大规模专家并行” 推理集群,实现DeepSeek MoE 大模型在多节点间的超高效集群推理,单卡吞吐提升 3 倍,解码时延降低 50%。这一成果不仅为人工智能技术的创新发展提供了强大助力,也让各行业以更高效率应用 AI 技术,加速推动千行百业的数字化转型。
伴随大模型MoE结构重大技术革新,以往少量“全能型”专家的模式逐渐被取代,大量“专科型”小专家逐渐成为主流。这一转变,极大地提升了模型的针对性和精细化程度,使得模型效果显著改善。
推理应用在各行业的落地随之全面加速,市场对于推理服务的需求呈井喷式增长,Tokens 处理量的需求与日俱增,这对推理系统的性能提出了更高的要求。为应对这一挑战,大规模专家并行推理技术应运而生,为大模型推理的加速规模应用提供了强大的技术支撑。
联通元景大模型与昇腾深度合作,围绕大规模专家并行推理技术展开全方位创新,将 DeepSeek 671B满血版大模型的数百个“专科型” 小专家按最优方式分布到不同的NPU上,使得单卡权重占用显存降低 75%,权重加载耗时大幅减少,可用于数据计算的显存显著增加。
在通信环节,双方对集群跨机通信方案进行深度优化,通过引入先进计算与通信并行算法,整体通信效率提升40%。此外,双方联合创新多级负载均衡算法,精准识别并均衡各NPU 的负载,将卡间负载差异成功控制在 10% 以下,有效提升系统吞吐和计算资源利用率。
联通元景大模型MaaS平台结合大规模专家并行推理集群系统,基于DeepSeek 671B 满血版大模型持续进行针对性推理优化创新,打造高可靠、高性能、易运维推理服务。
围绕高可靠
依托实例内和实例间的多级容灾机制,保障业务连续性,提供长稳推理服务。围绕高性能,进行高并发请求调度、管理、转发等,打造整个集群的高效数据请求管理入口。
围绕易运维
进行集群内推理业务状态监控、以及PD身份和资源管理与决策等,打造整个推理集群的状态监控器和决策大脑,持续提升大规模专家并行推理集群易用性。
在数字经济蓬勃发展的浪潮中,中国联通始终勇立潮头,全面发力人工智能。从精心搭建智算基础设施,构建强大算力“引擎”,到成功落地大规模专家并行推理集群,打造高性能低时延推理“中枢”,联通元景大模型持续筑牢国产化智算底座,以技术需求双轮驱动,打造“普惠速成”的元景MaaS平台,让人工智能更简单,为 AI 产业发展注入强劲的“加速度”。
这一推理创新举措必将助力各行业在复杂多变、竞争激烈的市场环境中抢占先机,以智能化驱动数字化转型,进而推动实体经济高质量发展。
相关文章
- 运营商重磅首发!大规模专家并行推理集群实现3倍吞吐
- 科大讯飞联合华为率先实现国产算力大规模跨节点专家并行集群推理
- MWC 2025 | 广和通赋能浙江永强实业旗下昶氪科技实现全球首款纯视觉割草机大规模商用
- 金仓数据库:深耕医疗核心业务,加速大规模落地应用
- 2025:智能体时代启航,AI应用即将迎来大规模爆发
- 焱融F9000X性能创新高,释放大规模AI计算效能
- 一场面向算力产业的超大规模会议|第十九届中国IDC产业年度大典圆满闭幕!
- 天数智芯联合无问芯穹完成智铠GPU百卡推理集群测试与适配,支持多场景大规模实时推理
- 英特尔® 至强® 6处理器:专为云原生和超大规模工作负载打造
- 10+院士/大咖上演思想盛宴 重庆史上最大规模数字产业生态伙伴大会来啦!
- 移远通信推出全新5G RedCap模组RG255AA系列,以更高性价比加速5G轻量化大规模商用
- 超大规模分布式资源池!浪潮云海助力中国铁塔斩获IDC未来企业大奖
- VPS600超大规模无透镜显微成像芯片获“中国芯”芯火新锐产品奖
- HarmonySpace鸿蒙座舱大规模OTA升级 为用户带来更智慧的交互体验
- OpenAI拟议大规模重组成营利性公司
- 企企通:大规模、跨地域、多品类,项目类采购如何做好数字化建设?