鲲泰新闻｜神州鲲泰创新智算之旅北京站开幕，发布全新智算架构和液冷整机柜产品应对 “多云、异构、绿色”挑战-爱云资讯

5月17日，神州鲲泰智算中国行北京站盛大召开。在本次活动上，神州鲲泰针对用户对大模型训练、大算力需求的痛点，重磅发布多云异构环境下智算中心绿色着陆的产品及方案，包含异构智算调度运营平台HISO、异构智算加速平台HICA以及一体化交付的神州鲲泰全液冷整机柜产品。帮助企业客户在整个异构智算资源池中匹配更优算力组合、有效提升GPU服务器集群的资源使用效率、有效解决节点和节点间互联的能耗问题，助力企业构建性能更优、成本更低、能效更高、能耗更低的智算基础设施底座。

神州数码信创业务集团副总裁、研发中心总经理周川

异构智算时代，企业智算落地如何降本增效？

在全新的异构智算时代，多云异构智算基础设施已成为必然，一个独特的“智算攒机时代”，正在呼唤全新的智算架构。与此同时，随着大模型和生成式AI加速落地，大量的模型训练和推理任务，在唤醒底层算力海量需求的同时，也对资源利用率提出了巨大挑战。有关资料显示，OpenAI训练GPT-4的MFU（Model Flops Utility）在32%到36%之间。而目前行业MFU利用率的平均水平仅为30%~40%，智算资源利用率的提升将为企业节省大量成本。

能耗是另一个大的挑战，算力本身会成为主要的能耗和二氧化碳排放来源，更不用说GPU的能耗本身是CPU能耗的2倍以上。根据MIT研究表明，未来人类需要为人工智能相关应用新增10%的能源需求，形象的说，“炼”大模型会比炼钢还费电。对于一个企业来说，每新增一个用于智算的机架，其运行一年约等于增加15w度电，够100个家庭生活用电一年，约排放1.5吨二氧化碳，能耗和碳排放都十分巨大。

尽精微，神州鲲泰“双管齐下”提升算力资源利用率

神州鲲泰推出异构智算调度运营平台HISO、异构智算加速平台HICA，有效解决智算集群间以及集群内面临的复杂异构兼容问题，显著提升算力资源的利用率。

神州鲲泰异构智算调度运营平台HISO基于云原生技术，整合GPU硬分片和虚拟分片技术，能实现GPU资源虚拟化或池化，完成跨集群之间的算力调度。根据用户业务需求，该平台可以在整个异构智算资源池中匹配优选算力组合，提升GPU服务器集群的资源使用率。神州鲲泰异构智算调度运营平台HISO拥有将国内外GPU资源混合组网、混搭调度，算力精细隔离等关键能力，可以“像管理一台GPU主机一样，管理和调度多个集群的GPU资源”。通过GPU容器直通、IaaS卸载，该平台加速了模型加载时间，相比传统方式，模型加载速度提升３倍。同时还能实时收集智算中心全栈、全链路指标，发现和定位软硬件故障，实现算力可观测性。

神州鲲泰异构智算加速平台HICA则着重解决集群内部的算力调度优化问题，通过屏蔽集群内底层算力生态差异，突破关键计算效率瓶颈，有效提升算力利用率与可用性。神州鲲泰异构智算加速平台HICA通过自研的服务层、中间适配层以及调度编排算法，采用数据并行、模型并行等方式，把并行计算任务进行有效分解，匹配相应的软件栈和算力资源来承接。当GPU资源变化，该平台可以实时动态调度计算子任务并调整模型拓扑和架构，以充分聚合各种算力资源。

神州鲲泰异构智算加速平台HICA具有一云多芯特性，支持国内外主流AI芯片，可实现训练推理任务在不同品牌、不同型号芯片组成的智算集群中的混合训练推理，预计可降低20%闲置算力。

此外，根据不同模型、不同算子之间集合通信流特点，该平台还可自适应选择最合适的通信参数，达到更高的通信效率。同时，在不同模型运行过程中，充分考虑存算比要求的不同，异构智算加速平台HICA还可从宏观到微观多个尺度选择最合适的存算比资源加载模型，加速吞吐，降低时延，使MFU提升10~20%，MBU提升5%。

硅光+液冷冷却跳动的电表，一体化交付让客户省时省力

随着生成式AI落地对算力需求的暴涨、带宽的狂飙提速，智算中心节点的高能耗痛点日益加剧。而以一个万卡智算中心为例，采用200G接口互联，需要约80000个光模块，其互联所需的能耗则占到总体的5%。节点间互联的高能耗问题也日益凸显。

针对节点间互联的能耗问题，神州鲲泰采用硅光技术，通过单光源多调制器，降低调制器电压，同时采用分布式反馈激光器等一系列技术，有效降低25%的互联能耗。

同时，针对节点的能耗问题，神州鲲泰推出液冷服务器，通过一体化冷板，智能流量调节来提升系统的散热效率，采用负压管线系统，漏液近端探测技术，并联动服务管控系统提升冷却系统的可靠性，有效降低30%的节点能耗。

而为了帮助客户规避接口多、接头复杂、现场实施部署难度大、实施周期长等难题，数云原力大会2024开幕式上，神州鲲泰正式发布“KunTai Pod2000全液冷整机柜”方案产品。采用一体化交付方式，有效降低部署和运维的复杂度的同时，整机柜还能实现100%全液冷及高性价比液冷方案，助力数据中心PUE迈向1.15，并且凭借60KW+的最大单柜功率，实现1.5倍于行业平均水平的能效比，在为客户提供强大算力的同时有效控制能耗成本。

神州鲲泰整机柜产品搭载鲲鹏+昇腾主板，一体化交付的方式已经在运营商客户得到落地验证，广受好评，硅光+液冷更是让整机柜产品得到全面升级，为客户打造出功能更强、能耗更低、效率更高的智算中心。

随着2022年底ChatGPT的问世，AI正成为推动创新的核心引擎。现在的IT基础架构已经到了一个由模型和算力相互促进，螺旋上升的新发展阶段。面对新的发展机遇，神州鲲泰从智算中心系统整体性能提升出发，提出了走新智算架构之路的策略，建立了高通量、高并行、高效率，低能耗的多样化智算架构。新的智算架构能够快部署、低投入地突破算力瓶颈，构建出性能更优、成本更低、能效更高的智算中心。未来每个智算中心，每台计算机都将是这样一种新的智算架构，从而实现算力的普惠。

鲲泰新闻｜神州鲲泰创新智算之旅北京站开幕，发布全新智算架构和液冷整机柜产品应对 “多云、异构、绿色”挑战

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业