GLM-4-Plus在SuperCLUE基准测评和司南Compass Arena榜单均位居国内第一
2024-11-16 13:24:32爱云资讯阅读量:683
11月8日,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》,智谱GLM-4-Plus凭借出色的能力表现,在43个国内外大模型中位居第一梯队,总得分位列国内大模型首位。
SuperCLUE中文大模型基准测评旨在通过多维度综合性测评,对国内外大模型的发展趋势和综合效果进行实时跟踪。本次10月报告聚焦通用能力测评,选取了国内外有代表性的43个大模型,采用多维度、多层次的综合性测评方案进行测评。测评结果显示,o1-preview的推出进一步拉大了与其他模型的差距,国内大模型第一梯队竞争激烈,持续迭代表现不俗。其中国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异,与ChatGPT-4o-latest相距2分以内。基于大模型在基础能力和应用能力的表现,共有23个国内大模型入选SuperCLUE模型象限。智谱GLM-4-Plus位居【卓越领导者】,代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。
11月14日,在司南OpenCompass公布的大语言模型对战榜单Compass Arena中,智谱GLM-4-Plus的竞技场评级分数位列榜首,领先GPT-4o-20240513。
Compass Arena 大语言模型对战榜单致力于构建一个完全基于用户真实反馈的公正、开放、透明的榜单。用户根据与大模型的真实对话体验进行投票,依据投票结果,使用 Elo 评分系统对大模型进行排名。
据悉,GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本,它标志着智谱继续瞄准通用人工智能,持续推进大模型技术的独立自主创新。作为智谱最新旗舰模型,在语言理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。GLM-4-Plus 成为智谱全模型家族坚实的能力底座,在代码计算、数据分析、图像/视频特征识别等领域均实现性能的大幅提升,及成本的大幅下降,目前已上线智谱开放平台。
相关文章
- 阿里云通义智能语音技术助力听力熊打造领先的AI智能终端——用大模型陪伴青少年学习成长|看见新力量NO.139
- 大模型技术新里程碑:任度双网络架构实现数推分离
- 提效30%,降本80%!商汤大模型让智慧园区效能倍增
- 雪浪工业大模型,首秀来了!
- 探索“大模型+智能眼镜”,云天励飞与闪极科技签署战略合作协议
- 我国首个船舶与海洋工程行业大模型“文鳐”在厦门发布
- 安恒信息人工智能大模型“恒脑”完成与麒麟软件适配认证
- 搭载自研星火大模型,讯飞翻译机4.0星火版全面升级翻译体验
- “网上问粮”语言基座大模型正式发布,引领储粮智能化新变革
- 近3000道题,商汤大模型拿了金牌
- 易鑫自研“智鑫多维”大模型通过备案,赋能行业智慧服务
- 直击进博会现场,百度吴华分享文心大模型最新应用成果
- 思迈特x智谱达成战略合作,携手探索大模型+BI发展新范式
- 共建行业生态,智谱大模型生态合作伙伴联盟成立
- 美图受邀参与CCF YOCSEF,分享视频大模型创新应用落地经验
- 技术解码 | 多模态大模型AI安全员为无人驾驶保驾护航