商汤大装置加码“算电一体化协同”,推理性能提升4倍!

2024-09-01 10:20:00爱云资讯阅读量:10,635

随着大模型对算力需求的剧增, “算电一体化协同”势在必行!去年12月,国家发改委等部门联合印发《深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》明确提出,2025年底,算力电力双向协同机制初步形成,国家枢纽节点新建数据中心绿电占比超过80%。作为国内AI基础设施服务的领导者,商汤大装置积极推进训推一体、算电协同等创新技术的应用,并取得显著成效:

根据商汤科技2024 H1财报,在推理场景中,商汤大装置实现了相同算力及电力成本下的每秒请求数(QPS)4倍提升,并实现了推理服务弹性按需伸缩,优化了大规模AI推理的整体成本。

在本周举办的中国智算产业绿色科技大会上,商汤科技大装置事业群智算中心运维总监张煦具体分享了商汤推进“算电一体化协同”,打造下一代可持续AI基础设施的相关实践。

搭乘“东数西算”东风,

打造算电一体化协同管理平台

算电协同的出发点在于通过集约化的AI基础设施建设和运营,降低全生命周期成本(TCO)。提升系统负载率优化算力利用率、通过合理选址和绿电接入降低电费成本,均是实现算电协同的有效手段。国家“东数西算”工程,更为算电协同提供了政策东风。在我国,西部电力成本相对低廉,清洁能源资源丰富,但应用场景相对较少,需要更多算力基础设施来促进清洁能源的消纳;而东部虽然清洁能源资源相对较少,但用户场景丰富,有着大量的算力需求。西部丰富的清洁能源与东部旺盛的算力需求,形成了良好的互补关系。

为助推东部与西部的算电协同,商汤提出了“源、网、储、荷”一体化的解决路径,从发电侧到用户侧进行全方位的协同管理,实现算力基础设施和电力网络的统一规划、智能调度。在发电侧,商汤通过合理选址,实现绿电能源的本地消纳,并结合大模型赋能虚拟电厂的区域调度;在用户侧,进行精准用电负荷的用能管理,并提高算力复合预测的准确性。商汤还打造了算电一体化协同管理平台,对算力和电力两个维度的数据进行整合、运营和预测,不断提高CUE(Compute Utilization Efficiency,计算利用效率)、增进算力效率;降低PUE(Power Usage Effectiveness,电源使用效率)、减小电费成本。

那么,如何提高CUE,降低PUE?智算中心的训练任务具有非常大的波动性,且不规律,需求时间段不稳定;而推理任务有规律,需求时间段稳定。如果按传统的训、推分离模式,那么计算资源将闲置。为此,商汤引入了更加灵活的“训推一体"调度架构,通过动态调度、离线推理、后台微调、断点续训、削峰填谷,最大程度地提高算效CUE,减少资源的闲置和浪费。在PUE能效优化方面,商汤不仅通过调整暖通运行策略等方式降低能源消耗,还利用基于“日日新”大模型打造的能源大模型体系,对算力的应用场景进行负载率和电力需求量的趋势预测,以实现更精准的能耗管理。此外,商汤还构建了全生命周期标准化运维管理体系,研发了运维大模型与 AI智能运维管理平台,利用数字化与智能化技术提升运营效率15%,通过动态制冷优化,实现能耗降低5%。

商汤大装置运营总算力突破20,000P,为行业输出高能效

比绿色智算服务

目前,商汤已在AIDC开展算电协同试点实践,通过能源大模型进行精准的能耗预测和设备调优调参,有效降低了PUE,并通过软件层面的训练框架优化,不断提升CUE。截至2024年8月,商汤大装置运营总算力规模已突破20,000 PetaFLOPS。随着算电一体化协同的推进,大装置将能够为行业输出更高能效比的绿色智算服务,帮助更多企业高效、低成本地拥抱生成式AI技术的红利。根据此前IDC发布的《中国智算服务市场(2023下半年)跟踪》,商汤大装置跻身2023年下半年中国GenAI IaaS服务厂商TOP 3,位居行业第一梯队。此外,经中国电子技术标准化研究院专家审核,商汤大装置还通过了算力服务能力成熟度(CPMM)增强级评估,成为首个通过该评估的企业。展望未来,算电协同的推进需要政府的统筹和产业上下游的紧密合作,通过更加灵活、更具针对性的选址和绿电接入,结合架构的调优和软件的优化,真正消除从电力到算力再到AI场景应用上的不等式,推动AI基础设施的可持续发展。


相关文章
人工智能技术
人工智能公司
人工智能硬件
人工智能产业
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023