科大讯飞全球1024开发者节举办在即，重磅发布多模态视觉交互及超拟人虚拟人交互能力-爱云资讯

2024 年诺贝尔物理学奖和化学奖都与人工智能研究相关。物理学奖授予了机器学习先驱约翰·霍普菲尔德和杰弗里·欣顿，他们使用物理学工具设计了人工神经网络。化学奖则一半授予了谷歌旗下 DeepMind 公司的德米斯·哈萨比斯和约翰·江珀，他们设计的人工智能模型「阿尔法折叠」可以预测几乎所有蛋白质的三维结构。这些成果不仅展示了人工智能在基础科学中的突破性应用，也反映出人工智能正在人类社会终扮演越来越重要的角色。而大模型作为 AI 的集大成者，也在社会发展中扮演了重要角色，成为 AI 公司竞逐的核心。近日，人工智能「国家队」科大讯飞官宣将在 10 月 24 日举办第七届世界声博会暨 2024 科大讯飞全球 1024 开发者节，除了现场将发布讯飞星火大模型最新版本外，还将再次升级大模型底座能力，并首次发布多模态视觉交互及超拟人交互能力，可谓是「猛料」众多，吸引了业界的共同关注。

值得一提的是，这一次科大讯飞还将重磅发布多模态视觉交互及超拟人虚拟人交互能力。语音是万物互联的入口，作为国内语音产业的王者，科大讯飞一直在引领语音交互的变革。早在 8 月全民开放的星火极速超拟人交互，就凭借更快响应速度的反应力、更具情感共鸣的感性力，更灵活可控的表达里以及更多种人设的角色扮演力，让万千用户体验到了 AI 超拟人化的魅力。而此次超拟人虚拟人交互，或将超拟人技术与虚拟人技术进行融合，让虚拟人交互更具人类特性，进一步打破现实世界与数字世界的边界。此前虚拟人技术已在讯飞多款软硬件产品中得到应用，比如搭载星火大模型 V4.0 的讯飞 AI 学习机就通过虚拟教师实现引导式伴学，星火语伴通过伴读老师提升用户口语能力，讯飞智作更让虚拟主播走进现实，降低自媒体创业门槛。

至于多模态视觉交互，可以让 AI 看见世界，成为「万物智联」的关键一环。目前大模型从单模态走向多模态，通过理解和处理更多类型数据，也具备了更智能、自主的决策和行动力，将为包括汽车、工业、智造等产业应用开拓更多可能性。

都说「万丈高楼平地起」，摩天大楼的高度取决于地基的深度。而对于大模型来说，底座能力相当于地基，决定着应用的高度与赋能行业的广度。作为国产大模型的第一梯队选手，自 2022 年底 ChatGPT 发布以来，科大讯飞发布的讯飞星火大模型已进行过多次升级。今年 6 月 27 日，讯飞星火 V4.0 正式发布，底座能力全面对标 GPT-4 Turbo，讯飞星火也是目前唯一基于全国产算力训练的全民开放大模型，自主可控的讯飞星火承担了国家发改委、工信部、科技部和中科院的多项国家战略任务，不断夯实「国家队」地位。在国务院发展研究中心、新华社研究院、《麻省理工科技商业评论》等权威机构的评测中，讯飞星火的综合能力在国内排名均在首位。

讯飞星火大模型还凭借领先的语音交互能力在赋能人机交互。在讯飞星火大模型 V4.0 中，基于星火底座能力的星火语音大模型支持 74 个语种方言自由切换，首批 37 个主流语种效果超过了业界领先的 Whisper V3。以星火底座能力为基础，科大讯飞将星火大模型引入智能座舱，助力奇瑞、长安、广汽、大众等品牌汽车智能化水平提升，让车机语音交互由好用迈入常用阶段，让人机交互更便捷。

为了快速提升大模型底座能力，科大讯飞还与华为展开紧密合作。去年全球 1024 开发者节上，科大讯飞联合华为打造国内首个万卡规模国产算力平台「飞星一号」后，启动了更大参数规模的大模型训练。在强大底座能力基础上，科大讯飞与华为在华为全联接大会上联合发布了企业智算平台解决方案，将算力与算法深度融合，为企业提供端到端的全栈 AI 能力，帮助更多中小企业降低 AI 布局门槛。同时共创医疗大模型软硬一体化方案，通过开箱即用的简单、高效部署，让每个医生都能拥有自己的 AI 诊疗助理，对医疗行业发展裨益巨大。这些联创或共创方案高度依赖大模型底座能力，其本质是探索更多行业赋能的落地路径，这也让业界对星火大模型底座能力的再度升级充满期待。

大模型鏖战的五百天里，科大讯飞凭借在大模型底座能力与创新技术上的不断积累，早已证明自身具备行业引领力，并通过携手各行业的头部企业，加速大模型在产业端的应用部署。相信我们将在这一次科大讯飞全球 1024 开发者节上，抢先看到大模型行业的前瞻技术与赋能未来的最新进展。

科大讯飞全球1024开发者节举办在即，重磅发布多模态视觉交互及超拟人虚拟人交互能力

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业