支持速记和同传的AI录音笔来了!搜狗王小川:让信息获取更简单

2020-02-27 08:18:34爱云资讯阅读量:1,314

2月26日,搜狗通过线上发布会官宣了两款AI录音笔新品:不仅能录音,还具有语音转写、外语翻译等功能。

在很多手机App支持录音和实时转写的今天,AI录音笔的必要性在哪里?搜狗CEO王小川认为,录音笔在专业性上的表现更加出色。他坦言,录音笔本身就是偏小众的市场,无法跟手机市场的规模相匹敌。然而,AI技术的加入,仍然能够给行业带来颠覆。

利用深度学习提升降噪能力

时隔一年,搜狗再次推出AI录音笔。受疫情影响,此次发布会采取了线上形式。主持开场的,是搜狗的AI虚拟主播雅妮。

发布会开始,王小川首先介绍了搜狗抗疫的情况。“在这十几天中,我们几乎是以一天一个的速度上线了十几款网络服务,通过与央视、学习强国等30多家媒体、网站手机厂商、移动应用程序达成深入合作,这些产品目前的访问量已经超过5亿次。”他说,搜狗还通过捐款、捐物资、设立健康基金的方式,驰援疫情一线。同时,搜狗也为前线的部分记者送去了AI录音笔产品。

此次发布的两款录音笔,在前代产品的基础上进行了迭代和升级,有了更多的AI元素:录音时使用降噪算法进行人声增强;可以区分不同讲话者的声音及笑声、掌声;支持录音实时转写和多种外语、方言的在线翻译;存储录音文件时,会智能提取关键字和段落摘要。

在发布会的开箱环节,搜狗AI硬件事业部首席产品经理李健涛与嘉宾做了一个实验:李建涛一边朗读朱自清的散文《春》一边录音,嘉宾则在不到一米的距离内使用吹风机、塑料袋等道具“疯狂”干扰,制造出各种噪音。最终播放时,录音笔中的人声比人耳听到得更为清晰,噪声几乎消失不见。

搜狗AI交互技术部总经理陈伟告诉AI前哨站,AI录音笔的降噪能力与软硬件都有关系。硬件方面,录音笔上搭载了8颗麦克风,可以更好地分辨和收取远处的声音。“使用一颗麦克风进行收音和降噪,更多是基于语音的时域和频域。使用多颗麦克风同时收音,则有了空间信息,能更好定位说话人的位置,从而形成更好的指向性。”陈伟说。

在软件方面,陈伟表示,这是搜狗“第一次将基于深度学习的降噪能力完全产品化”。他解释说,人声和噪声在频域和时域上的特征是不同的,研发团队使用了4万多种噪声,让算法模型学习到人声和噪声的区别,从而把最好的人声从嘈杂的声音里提取出来。

与机器同传一样,加入了实时转写功能的录音笔,也面临着转写准确率的问题。

陈伟说,想提升准确率,首先得让录音笔克服远距离收音的问题。“麦克风收集来的声音有很大的衰减,转写文字时就会出现丢字漏字。”针对这一问题,研发团队在前端信号增强和后端语音识别上一起做了优化。

录音笔不仅要“听”,还要“懂”,这就涉及到自然语言理解技术。陈伟说,新款录音笔和搜狗输入法做了联通,用户在输入法内积累的个性化词库可以导入到录音笔系统内,从而得到个性化的功能增强。不过,方言、文化方面的问题,还是“长期需要解决的问题”。此次两款产品支持10种外语和10种方言的转写,属于阶段性的成果体现。

“虽然它是以硬件载体为形态,但是实际上它有大约百分之七八十的核心竞争力是在语言和语音的AI技术上。”搜狗CTO杨洪涛说。

···

让用户的信息获取变得更简单

在很多手机App支持录音和实时转写的今天,AI录音笔的必要性在哪里?有人在发布会上抛出疑问,王小川对此的回答是,AI录音笔更专业——不会被微信、电话等操作打断,并且在软硬件方面有着针对性的优化。

“录音笔中最核心的元素是语音背后的文字和知识,我们的目标是能够把核心的语言给抽取出来。”在王小川看来,从搜索、输入法到AI录音笔,都是为了帮助用户的知识表达和信息获取变得更自由、更简单。

他坦言,录音笔本身就是偏小众的市场,无法跟手机市场的规模相匹敌。然而,AI技术的加入,仍然能够给行业带来颠覆,并打开新的市场。“AI录音笔会逐渐演化成记录我们生活的专业设备。现在录音笔市场,可以看成被颠覆、被重新定义的状态。这也体现了AI赋能的趋势。”王小川说。

值得注意的是,在搜狗以往的财报中,智能硬件的成绩单并不算亮眼。对此,王小川表示,盈利不是AI录音笔等智能硬件本身的战略目标,更重要的是验证搜狗的能力,并找到可以拓展的AI服务。“对于搜狗的AI能力,录音笔是一个很好的衡量项。通过录音笔的成功上市,也验证了我们软硬件结合的能力,包括硬件制造、生产和销售能力,为下一步的产品打下基础。”

AI前哨站注意到,AI录音笔不仅给用户带来了更多的功能体验,也让企业有机会收集用户数据并进行更精确的分析。去年3月第一代产品发布后,搜狗已经基于相关用户数据,形成了一定规模的用户画像:44%的用户在会议场景下录音;41%的用户录音超过十分钟;15%的用户每周录音超过十次……

李健涛说,正是基于用户画像,搜狗将新产品的目标用户锁定到三类人群——记者、需要做会议纪要的职场人士,以及需要做课堂笔记的学生。“智能摘要、区分讲话人、分析开会过程中的笑声、掌声,都是为了方便用户整理会议纪要、笔记、采访内容,让他们可以更高效地整理文件和协同办公。”

企业的数据分析,以及AI录音笔的联网翻译、云端存储等功能,是否会导致用户的隐私风险?陈伟表示,在搜狗输入法的发展过程中,搜狗在用户数据脱敏方面已经积累了很多经验,比如确保数据传输的保密性,设置严格的数据管理流程,等等。“用户的帐号体系和我们后台的数据是完全解耦的,并不是说我们可以通过后台用户的ID数据拿到用户的隐私数据。”他补充说。

相关文章

人工智能技术

更多>>

人工智能公司

更多>>

人工智能硬件

更多>>

人工智能产业

更多>>
关于我们|联系我们|免责声明|会展频道

冀ICP备2022007386号-1 冀公网安备 13108202000871号

爱云资讯 Copyright©2018-2024