成功的基石 寒武纪推第四代智能处理器架构
2021-12-09 12:11:46爱云资讯1176
伴随着寒武纪思元370的正式推出,寒武纪第四代智能处理器架构MLUarch03也终于浮出水面,MLUarch03带来哪些改进和优化,又有哪些值得关注的特点呢?
在全新的MLUarch03架构加持之下,思元370算力最高可达256TOPS(INT8),是上一代产品思元270算力的2倍。相较于峰值算力的提升,思元370在实测性能和能效方面的表现更为优秀:以ResNet-50为例,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。
MLUarch03架构采用新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完备,更高效且向前兼容。
Supercharger和多算子硬件融合技术
稳步提升定点算力的同时,思元370全面加强了FP16、BF16以及FP32等不同类型的浮点算力,可同时推理和训练任务,增强兼容性以实现更快部署。市场只会留给有准备的人。寒武纪作为初创企业,对客户需求的把握也精细到全流程跟进。比如思元370,不仅可以作为推理芯片,也可以作为训练芯片使用。这样做的好处不仅是寒武纪自己的产品能够兼顾训练与推理,也方便客户全流程的模型部署、业务落地。
此外,思元370还是国内第一款公开发布支持LPDDR5的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。
寒武纪智能芯片架构演进
值得强调的是,寒武纪坚持自研智能芯片架构、指令集的研发工作,是国内外在该技术方向积累最为深厚的公司之一。
通过如思元370这样更具效率的AI芯片在云端场景替代传统GPU,就能够大幅降低前期基础设施建设成本,减少后期运行能耗。可以说,思元370成功推出的背后,不仅是寒武纪研发人员的日夜努力,也是社会各行各业对更高效率AI芯片的迫切需求。
相关文章
- 探索创新人才培养模式 寒武纪积极开展产学合作
- 寒武纪积极助力人工智能的实际应用落地
- 寒武纪AI训练卡MLU370-X8荣获2023年度卓越创新产品奖
- 寒武纪统一的平台级基础系统软件打破开发壁垒
- 寒武纪通用型智能芯片:技术壁垒高但应用面广
- 寒武纪:通用型智能芯片在性能和功耗上存在优势
- 寒武纪:具备云、边、端芯片产品和生态开发协同优势
- 寒武纪2022年业绩说明会:研发成果显著,核心技术持续突破,知识产权积累创新高
- 寒武纪入选星辰20:2023中国AI算力层创新企业
- 寒武纪灵活多样产品满足多元市场需求
- 寒武纪:通用型智能芯片对人工智能具备较好普适性
- 寒武纪云边端产品线日益完善 商业场景逐步落地
- 寒武纪行歌获博世创投投资 合作双赢加速发展
- 寒武纪思元370入选2022世界人工智能大会SAIL奖TOP30
- 寒武纪2022年半年报:营收增长24.6% 商业客户批量出货
- 提前布局新兴场景 寒武纪抢占发展先机