支持速记和同传的AI录音笔来了!搜狗王小川:让信息获取更简单
2020-02-27 08:18:34爱云资讯阅读量:1,314
2月26日,搜狗通过线上发布会官宣了两款AI录音笔新品:不仅能录音,还具有语音转写、外语翻译等功能。
在很多手机App支持录音和实时转写的今天,AI录音笔的必要性在哪里?搜狗CEO王小川认为,录音笔在专业性上的表现更加出色。他坦言,录音笔本身就是偏小众的市场,无法跟手机市场的规模相匹敌。然而,AI技术的加入,仍然能够给行业带来颠覆。
利用深度学习提升降噪能力
时隔一年,搜狗再次推出AI录音笔。受疫情影响,此次发布会采取了线上形式。主持开场的,是搜狗的AI虚拟主播雅妮。
发布会开始,王小川首先介绍了搜狗抗疫的情况。“在这十几天中,我们几乎是以一天一个的速度上线了十几款网络服务,通过与央视、学习强国等30多家媒体、网站手机厂商、移动应用程序达成深入合作,这些产品目前的访问量已经超过5亿次。”他说,搜狗还通过捐款、捐物资、设立健康基金的方式,驰援疫情一线。同时,搜狗也为前线的部分记者送去了AI录音笔产品。
此次发布的两款录音笔,在前代产品的基础上进行了迭代和升级,有了更多的AI元素:录音时使用降噪算法进行人声增强;可以区分不同讲话者的声音及笑声、掌声;支持录音实时转写和多种外语、方言的在线翻译;存储录音文件时,会智能提取关键字和段落摘要。
在发布会的开箱环节,搜狗AI硬件事业部首席产品经理李健涛与嘉宾做了一个实验:李建涛一边朗读朱自清的散文《春》一边录音,嘉宾则在不到一米的距离内使用吹风机、塑料袋等道具“疯狂”干扰,制造出各种噪音。最终播放时,录音笔中的人声比人耳听到得更为清晰,噪声几乎消失不见。
搜狗AI交互技术部总经理陈伟告诉AI前哨站,AI录音笔的降噪能力与软硬件都有关系。硬件方面,录音笔上搭载了8颗麦克风,可以更好地分辨和收取远处的声音。“使用一颗麦克风进行收音和降噪,更多是基于语音的时域和频域。使用多颗麦克风同时收音,则有了空间信息,能更好定位说话人的位置,从而形成更好的指向性。”陈伟说。
在软件方面,陈伟表示,这是搜狗“第一次将基于深度学习的降噪能力完全产品化”。他解释说,人声和噪声在频域和时域上的特征是不同的,研发团队使用了4万多种噪声,让算法模型学习到人声和噪声的区别,从而把最好的人声从嘈杂的声音里提取出来。
与机器同传一样,加入了实时转写功能的录音笔,也面临着转写准确率的问题。
陈伟说,想提升准确率,首先得让录音笔克服远距离收音的问题。“麦克风收集来的声音有很大的衰减,转写文字时就会出现丢字漏字。”针对这一问题,研发团队在前端信号增强和后端语音识别上一起做了优化。
录音笔不仅要“听”,还要“懂”,这就涉及到自然语言理解技术。陈伟说,新款录音笔和搜狗输入法做了联通,用户在输入法内积累的个性化词库可以导入到录音笔系统内,从而得到个性化的功能增强。不过,方言、文化方面的问题,还是“长期需要解决的问题”。此次两款产品支持10种外语和10种方言的转写,属于阶段性的成果体现。
“虽然它是以硬件载体为形态,但是实际上它有大约百分之七八十的核心竞争力是在语言和语音的AI技术上。”搜狗CTO杨洪涛说。
···
“让用户的信息获取变得更简单”
在很多手机App支持录音和实时转写的今天,AI录音笔的必要性在哪里?有人在发布会上抛出疑问,王小川对此的回答是,AI录音笔更专业——不会被微信、电话等操作打断,并且在软硬件方面有着针对性的优化。
“录音笔中最核心的元素是语音背后的文字和知识,我们的目标是能够把核心的语言给抽取出来。”在王小川看来,从搜索、输入法到AI录音笔,都是为了帮助用户的知识表达和信息获取变得更自由、更简单。
他坦言,录音笔本身就是偏小众的市场,无法跟手机市场的规模相匹敌。然而,AI技术的加入,仍然能够给行业带来颠覆,并打开新的市场。“AI录音笔会逐渐演化成记录我们生活的专业设备。现在录音笔市场,可以看成被颠覆、被重新定义的状态。这也体现了AI赋能的趋势。”王小川说。
值得注意的是,在搜狗以往的财报中,智能硬件的成绩单并不算亮眼。对此,王小川表示,盈利不是AI录音笔等智能硬件本身的战略目标,更重要的是验证搜狗的能力,并找到可以拓展的AI服务。“对于搜狗的AI能力,录音笔是一个很好的衡量项。通过录音笔的成功上市,也验证了我们软硬件结合的能力,包括硬件制造、生产和销售能力,为下一步的产品打下基础。”
AI前哨站注意到,AI录音笔不仅给用户带来了更多的功能体验,也让企业有机会收集用户数据并进行更精确的分析。去年3月第一代产品发布后,搜狗已经基于相关用户数据,形成了一定规模的用户画像:44%的用户在会议场景下录音;41%的用户录音超过十分钟;15%的用户每周录音超过十次……
李健涛说,正是基于用户画像,搜狗将新产品的目标用户锁定到三类人群——记者、需要做会议纪要的职场人士,以及需要做课堂笔记的学生。“智能摘要、区分讲话人、分析开会过程中的笑声、掌声,都是为了方便用户整理会议纪要、笔记、采访内容,让他们可以更高效地整理文件和协同办公。”
企业的数据分析,以及AI录音笔的联网翻译、云端存储等功能,是否会导致用户的隐私风险?陈伟表示,在搜狗输入法的发展过程中,搜狗在用户数据脱敏方面已经积累了很多经验,比如确保数据传输的保密性,设置严格的数据管理流程,等等。“用户的帐号体系和我们后台的数据是完全解耦的,并不是说我们可以通过后台用户的ID数据拿到用户的隐私数据。”他补充说。
相关文章
- 讯飞听见助力BEYOND国际创新博览会,AI同传赋能“What's Next”
- 第四届进博会成功举办 腾讯同传连续4年提供AI翻译服务
- 百度大脑开放日召开机器翻译专场 百度AI同传翻译性能可媲美人类
- 百度翻译亮相中国服贸会 AI同传效果高能 惊艳会场
- 百度AI 亮相ACL 2020:11篇论文被录取 举办首届同传研讨会
- 云端共话创新 搜狗同传倾力支持科技版“One World”
- 打破语言壁垒,百度翻译同传为智源大会构建跨国沟通桥梁
- 中国AI技术再受国际青睐,腾讯同传将全程助力联合国75周年活动
- 腾讯同传助力世界经济论坛 疫情期间线上会议沟通无国界
- 支持速记和同传的AI录音笔来了!搜狗王小川:让信息获取更简单
- 搜狗首创语境引擎:AI同传最强进化,PPT翻译正确率猛升
- 进博会黑科技剧透:腾讯同传展示AI翻译成熟应用
- 腾讯同传助力2019游戏安全行业峰会 无国界共话游戏安全
- 世界人工智能大会AI同传成标配,表现日渐成熟
- 搜狗同传助力2019KCon黑客大会,秒懂全球科技前沿
- 连续两年支持金鼠标营销节 搜狗同传再度出任“AI翻译官”