首家!讯飞星火通过中国信通院可信AI基础大模型全模块评估
2024-12-20 16:44:07爱云资讯阅读量:17,126
近日,科大讯飞股份有限公司参与中国信通院基础大模型-模型应用模块标准符合性验证,其自主研发的讯飞星火大模型4.0 Turbo顺利通过评估,并最终获得5级评级。此次验证,依据《大规模预训练模型技术和应用评估方法 第4部分:模型应用》开展,包含应用丰富度、应用灵活度、应用成熟度等3个能力域、30余个能力项,应用丰富度关注大模型的模态支持度、任务支持度、行业覆盖度和场景适配度,能力支持度重点考察大模型的个性化服务和多样化管理能力,应用成熟度全面评估大模型的效果优越性、服务可靠性和服务配套性。
科大讯飞于2023年8月参与基础大模型首个模块评估,截至目前,已顺利完成模型开发、模型能力、模型运营、模型应用和可信要求五个模块的评估,成为首家通过基础大模型全能力域评估的企业。
截至目前,中国信通院已累计为22家企业提供41项基础大模型评估服务。为进一步促进技术提升、扩展应用效能、辅助产品选型,中国信通院持续开展基础大模型评估工作,评估依据《大规模预训练模型技术和应用评估方法》系列标准,分为模型开发、模型能力、模型运营、模型应用、可信要求五个模块。
1、模型开发
关注大模型开发阶段,包含数据构建、模型构建、模型管理、模型部署共4个能力域、29个能力项,全面评价研究主体开发大模型的能力。
2、模型能力
关注大模型具体能力,包含智能语义、智能视觉、智能语音、跨模态、服务稳定性等5个能力域、40个能力项,全面评价大模型的各项技术能力及产品服务。
3、模型运营
关注大模型工程化阶段,包括数据工程、模型调优、模型交付、服务运营、平台能力共5个能力域,面向大模型平台或工具展开测试。
4、模型应用
关注大模型落地应用阶段,围绕行业覆盖度、场景适配度、任务支持度、个性化服务、多样化管理、效果优越性等评价大模型应用能力。
5、可信要求
关注大模型的可信能力,包含基础软硬件可信、数据可信、模型可信、应用可信四个能力域。
依托认知智能全国重点实验室的技术和应用积累,以及成建制的研发团队,2023年5月6日,科大讯飞正式对外发布讯飞星火大模型(以下简称“讯飞星火”)。2023年10月24日,科大讯飞与华为联合发布了国内首个全国产算力平台“飞星一号”。2024年10月24日,基于全国首个国产万卡算力集群训练的全民开放大模型讯飞星火4.0 Turbo正式发布,根据真实数据背靠背的测试,七项核心能力在中文领域全面超过GPT-4 Turbo,代码能力和数学能力超越GPT-4o;在艾伦人工智能研究所、OpenAI等权威机构发布的14项主流测试集中,讯飞星火4.0 Turbo实现对美国三大主流模型(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5pro)的9项超越,效率相对提升50%;同时,国产超大规模智算平台“飞星二号”正式启动。
讯飞星火具备文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态等七大核心能力。其从海量数据和大规模知识中持续进化,帮助用户实现从提出、规划到解决问题的全流程闭环。讯飞星火整体布局为“1+N”体系。其中,“1”是指通用底座大模型;“N”是指大模型在教育、医疗、金融、汽车、运营商、工业等各个领域的落地。
相关文章
- 中石油发布700亿参数昆仑大模型,讯飞星火助力央国企再突破
- 讯飞星火深度赋能科研,加速AI for Science成为科技变革新引擎
- 讯飞星火与华为数据存储强强联手,“以存强算” 助力AI集群算力利用率飙升30%
- 讯飞星火4.0 Turbo正式发布,7项“第一”引领大模型规模化应用落地
- 科大讯飞10月24日举行开发者节,讯飞星火大模型底座能力再升级
- 为商通全球蓄势赋能,讯飞星火大模型产品组团亮相第三届全球数贸会
- 讯飞星火首批通过大模型国家标准测试认证
- 中国石油发布330亿参数昆仑大模型,“讯飞星火”成头部央国企大模型首选
- 讯飞星火讯链营·AI TechDay杭州:见证人工智能与历史文化的交融
- 讯飞星火科研助手覆盖1000+所高校,80%“双一流”高校的师生都在使用
- 讯飞星火讯链营·Al TechDay武汉站:探索AI技术新前沿,共筑产业智能化
- 大小模型皆可用,智能体即插即用,讯飞星火让企业工作简单高效
- 超越GPT-4 Turbo讯飞星火V4.0发布,全球首款智能批阅机强势来袭
- 讯飞星火V4.0线下首秀,2024世界人工智能大会现场秀绝活:讲故事、做卷子、写书法样样在行
- 打造“懂你的AI助手”,讯飞星火V4.0首次亮相2024世界人工智能大会
- 国产大模型群雄逐“沪”,讯飞星火如何闪耀WAIC?