首家！讯飞星火通过中国信通院可信AI基础大模型全模块评估-爱云资讯

近日，科大讯飞股份有限公司参与中国信通院基础大模型-模型应用模块标准符合性验证，其自主研发的讯飞星火大模型4.0 Turbo顺利通过评估，并最终获得5级评级。此次验证，依据《大规模预训练模型技术和应用评估方法第4部分：模型应用》开展，包含应用丰富度、应用灵活度、应用成熟度等3个能力域、30余个能力项，应用丰富度关注大模型的模态支持度、任务支持度、行业覆盖度和场景适配度，能力支持度重点考察大模型的个性化服务和多样化管理能力，应用成熟度全面评估大模型的效果优越性、服务可靠性和服务配套性。

科大讯飞于2023年8月参与基础大模型首个模块评估，截至目前，已顺利完成模型开发、模型能力、模型运营、模型应用和可信要求五个模块的评估，成为首家通过基础大模型全能力域评估的企业。

截至目前，中国信通院已累计为22家企业提供41项基础大模型评估服务。为进一步促进技术提升、扩展应用效能、辅助产品选型，中国信通院持续开展基础大模型评估工作，评估依据《大规模预训练模型技术和应用评估方法》系列标准，分为模型开发、模型能力、模型运营、模型应用、可信要求五个模块。

1、模型开发

关注大模型开发阶段，包含数据构建、模型构建、模型管理、模型部署共4个能力域、29个能力项，全面评价研究主体开发大模型的能力。

2、模型能力

关注大模型具体能力，包含智能语义、智能视觉、智能语音、跨模态、服务稳定性等5个能力域、40个能力项，全面评价大模型的各项技术能力及产品服务。

3、模型运营

关注大模型工程化阶段，包括数据工程、模型调优、模型交付、服务运营、平台能力共5个能力域，面向大模型平台或工具展开测试。

4、模型应用

关注大模型落地应用阶段，围绕行业覆盖度、场景适配度、任务支持度、个性化服务、多样化管理、效果优越性等评价大模型应用能力。

5、可信要求

关注大模型的可信能力，包含基础软硬件可信、数据可信、模型可信、应用可信四个能力域。

依托认知智能全国重点实验室的技术和应用积累，以及成建制的研发团队，2023年5月6日，科大讯飞正式对外发布讯飞星火大模型（以下简称“讯飞星火”）。2023年10月24日，科大讯飞与华为联合发布了国内首个全国产算力平台“飞星一号”。2024年10月24日，基于全国首个国产万卡算力集群训练的全民开放大模型讯飞星火4.0 Turbo正式发布，根据真实数据背靠背的测试，七项核心能力在中文领域全面超过GPT-4 Turbo，代码能力和数学能力超越GPT-4o；在艾伦人工智能研究所、OpenAI等权威机构发布的14项主流测试集中，讯飞星火4.0 Turbo实现对美国三大主流模型（GPT-4o、Claude 3.5 Sonnet、Gemini 1.5pro）的9项超越，效率相对提升50%；同时，国产超大规模智算平台“飞星二号”正式启动。

讯飞星火具备文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态等七大核心能力。其从海量数据和大规模知识中持续进化，帮助用户实现从提出、规划到解决问题的全流程闭环。讯飞星火整体布局为“1+N”体系。其中，“1”是指通用底座大模型;“N”是指大模型在教育、医疗、金融、汽车、运营商、工业等各个领域的落地。

首家！讯飞星火通过中国信通院可信AI基础大模型全模块评估

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业