搜狗创新发布微信首款个性化TTS小程序——“故事大王”
2019-06-19 11:17:42爱云资讯1061
近日,搜狗上线了一款名为“故事大王”的小程序,它基于搜狗知音引擎的语音合成能力,首次将个性化TTS技术落地到微信当中。用户根据提示,录制5分钟左右的简短音频后,“搜狗故事大王”小程序就会自动生成用户的个性化合成音色,小朋友就可以听到用父母声音讲述的童话故事。
这样一款实用的带娃利器是不是很神奇?那它到底是如何快速准确地定制用户个性化音色的?又是怎么用合成音色声情并茂地为小朋友讲故事的呢?
颠覆传统“机器音”,搜狗独家提供个性化TTS技术
在专业领域,技术员们把“文本文件向语音的实时转换”称为TTS功能。还记得“哪里不会点哪里”的点读机么?这个曾经风靡一时的儿童英语学习神器就应用了这款功能,点读笔扫描文本内容,再通过点读机转换成人声朗读出来。在其他诸如电子书阅读、语音导航、语音提示等领域,TTS功能的应用也十分广泛,但他们拥有一个共同的缺点,即只能实现文本向特定声音模板的转变,且声音质量较为呆板,机器感十足。
使用过“搜狗故事大王”的用户都知道,在该小程序上用户可以定制自己专属的个性化合成音色。然后就能随时随地的通过手机为小朋友讲故事了,听起来声情并茂、自然流畅,明显区别于以往的机器音。
这都得益于搜狗知音引擎独创的个性化TTS合成技术,与传统技术相比,“搜狗故事大王”具有高表现力,更趋于真人口音。此外,除了可以定制个性化声音,还能使用该声音实现任意文本的合成,搜狗是目前成功将两项技术进行完美结合并成功落地的公司。
依托个性化TTS技术,“搜狗故事大王”对用户录制声音的要求很低,不需要去专业录音室、不需要长时间录制。用户只需5分钟左右的操作,搜狗的后台技术模型就能自动精准排除噪点,完美复制原始声音的各项数据,合成专属定制的个性化音色。该合成音色的朗读效果与真人相似度极高,可以做到“以假乱真”的地步。
坚持创新,克服难关,个性化定制终实现
搜狗独家推出的个性化TTS技术,在技术研发层面具有很多的挑战。
首先,声音来源的清晰度直接影响后续音色的定制。但不可避免的是,日常生活中通过普通录音设备,很难收集到噪音小、音质清的声源。个性化TTS技术集成了搜狗知音引擎已有的信噪比检测、口语评测、识别、降噪、去混响、高稳定性声学参数提取与模型自适应、深度学习平台等多项前沿技术,并在此基础上进行了突破。最终,“搜狗故事大王”终于交出一份满意的答卷,让用户无需去专业录音室录音,在卧室、会议室和甚至车内等常见的环境下就可以进行声音采集。
(搜狗个性化TTS技术)
其次,如何为机器声音赋有情感神经也是一大技术难点。人类拥有丰富的语言情感表达能力,是因为人的大脑皮层中有140亿个神经元,模拟这样一个人工智能大脑是不可能的。但是搜狗研发团队找到了另一个开发途径,一款基于人工智能的新技术——多目标学习技术。该技术可以同时学习三个目标对象,分别是表征音色的“说话人编码器”、表征内容的“文本编码器”和表征表现力的“风格编码器”,再经过模拟融合进行表现力迁移,为呆板的合成声音注入情感,使其听起来更真实。
最后,搜狗还采用了国际领先的波形合成模型WaveRNN,让最终输出的音质拥有更好效果。
至此,“搜狗故事大王”这款小程序可以完美实现用户声音的个性定制,并通过这个AI合成声音声情并茂地为小朋友讲故事了。“故事大王”作为搜狗知音引擎在人工智能领域开发出的又一创新应用,除了为当代人的日常生活提供了更大便捷性,也为智能科技研究领域提供了新选题,比如为未来人工智能机器人的开发提供语言系统搭建的参考,让机器人言谈更富情感,影视剧中的人机共享智能未来将成为现实。相关文章
- 哈利波特手游联动搜狗输入法!表情包为何能火爆出圈?
- 腾讯搭建公益平台免费开放无障碍输入技术,搜狗输入法发布眼动方案
- 金山文档联合搜狗输入法推出定制皮肤 实力诠释反差萌
- 完美适配Windows 11 搜狗输入法智能输入助手体验再升级
- 召唤搜狗输入法智能汪仔,精彩国庆节文案速度get
- 搜狗输入法手机版五笔新升级:业界主流方案全支持
- 搜狗完成私有化交易 搜索和输入法等保持搜狗品牌运营
- 搜狗宣布完成私有化交易并与腾讯完成合并
- 有口难言?搜狗输入法教你如何在七夕支棱起来
- 七夕朋友圈狗粮吃太多 看搜狗输入法如何教单身汪绝地反击
- 真会玩:搜狗输入法居然上线了这么多运动员表情包
- 跨界连线马斯克,搜狗AI合成主播惊艳亮相“全球数字经济大会”
- 从搜狗输入法智能汪仔的进化 看AI输入法的蜕变进阶之路
- 用搜狗输入法心情模板 快速获取朋友圈运动盛会加油文案!
- 搜狗输入法小米定制版更新,“智能汪仔”变身MARA助手啦
- 越加油越热爱!搜狗输入法智能汪仔解锁助威新姿势