比起西部世界的疯狂,李彦宏展示的这几项技术才是AI潮水的方向 | 百度AI语音语义一体化技术 识别的同时进行语义分析 | 快手平台研发和大数据负责人:AI是快手大脑数据驱动是心脏 | 普华发布操作系统漏洞运维管理工具 | 造车不是写PPT,李彦宏带来了全球首款量产无人驾驶巴士 | 共享单车二维码被覆盖? 360手机卫士提醒扫码需谨慎 | 世界杯黑马对抗险象环生 优酷球迷PK人工智能竞猜赛果 | 张亚勤王传福谈笑风生!自动驾驶界的Wintel开放联盟要来了? | 图普科技CEO李明强:用AI建立螺旋式渐进的商业闭环 | 百度发布智能小程序:“开放+AI”是最大特色 |
 
当前位置: 新闻>滚动>

百度AI语音语义一体化技术 识别的同时进行语义分析

发布时间:2018-07-05 14:08:04  |  来源:中国网科学  |  作者:陈蕊  |  责任编辑:科学频道

7月4日,百度AI开发者大会(Baidu Create 2018)盛大召开,在下午的百度大脑论坛上,百度语音技术部总监高亮公布了百度基于远场的语音语义一体化技术的三项重大突破,包括基于远场的语音语义一体化、多语种混合声学建模、以及融合拼接与WaveNet技术的全新语音合成技术等。此外,远场语音技术低成本解决方案“度小云”正式发布,将百度顶尖的合成、识别、交互、远程、唤醒等各项技术,全面开放给开发者。

在上午的百度AI开发者大会主论坛上,百度大脑3.0正式发布,核心是“多模态深度语义理解”。“多模态深度语义理解”是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,不仅能让机器听清、看清,更能深入理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。此次语音技术上的三项升级正是百度大脑3.0深度理解世界的具体体现。

语音识别的准确率是语音技术的基础,此次百度升级的基于远场的语音语义一体化技术,能提高远场交互中高频Query的识别率,让机器更好地听懂世界。

据高亮介绍,在智能设备的语音交互中,用户交互的内容高度集中,用户1%的Query覆盖了40%的PV,10%的Query带来了70%的PV,因此百度为提高分辨高频Query的准确率进行了技术优化和创新。

传统的语音识别框架是通过声学模型、语音模型,解码输出语义结果,百度对语义识别的技术和框架进行了重新设计,专门为高频Query建构解码空间,且对高频Query和普通Query两套架构并行解码。在动态解码阶段,百度引入了声学置信度、语义特征、用户特征等更多的语义特征,对这些特征进行Ranking综合排序,以保证高频Query的高权重。

百度基于高频Query的识别架构,目前能够将高频Query的准确性提升10个点,并能保证普通Query的识别率不降。

image.png

多语种混合Query的识别是语音技术中攻克的难点,百度发布的基于Deep Peak2采用的多语种音素组合建模,突破了以音素为基本建模单元的传统,对中英文统一建模,大大提高了中英文混合Query的识别准确率。

传统的建模以音素作为基本的建模单元,建模时要考虑音素的前后音连和上下文,建模单元要上万个之多。百度基于深度尖峰第二代技术,将音素建模改成了上下文无关的音素组合建模,不再需要上下文和音连,可以将元音、单辅音、双辅音等音素有机组合,也能将中英文发音单元统一建模。这项突破,不仅能将建模单元减少至一千多、将解码速度加快、解码效率增高,且因为模型对训练数据极高的多样性和包容性,模型能积累更多的训练数据,进而大大提高对中英文混合Query的识别准确率。

现场高亮也为开发者们展示了几个案例,当一个孩童对机器说“o-f-c-o-u-r-s-e Ican的中文”这段英文字母拼音+英文单词+中文的Query时,机器准确识别了对话的意义;对于对话中出现的“就是build一个非常strong、healthy的朋友圈”的中英文混杂问题,机器也能准确识别。

目前,基于中文Deep Peak2的多语种音素组合模型已在百度多个产品上线,相对错误率比业界最好竞品降低了20%。

image.png

技术质量与成本最优化是技术追求的目标,百度创新的WaveNet+拼接技术不仅能大幅提升流畅度和自然度,而且成本更低,能让技术得到更大规模的落地和运用。

传统的拼接技术,需要找一个非常好的发言人,录制海量数据组成一个音库,然后将人工录制的音库进行切分与组合,拼接技术因为将声音整段切分成很多快,所以能保留人说话时的抑扬顿挫和情感特征,但同时它需要录制大量的音库,且音库合成的质量不易控制。业界最近常用的WaveNet技术,则是一个基于端到端的神经网络深度学习技术,它合成的声音较平稳,且对数据的需求比较小,但需要耗费大量的计算资源,功耗和使用成本非常高。

百度将传统的拼接技术和最新的WaveNet技术有机结合在一起,使两项技术的优势都能得到发挥。既保证了合成声音的情感,保证了输出声音的稳定性,同时降低了需要使用的数据和成本,全新的语音合成技术的经济适用性,覆盖了更多的聊天场景,也让该技术能得到大规模的工业应用。

image.png

结合以上三项技术,百度专门打造了EtoE DuerOS整体语音解决方案,它结合了百度最新的语音技术,包括麦克风阵列技术、声源定位技术、超低功耗DSP解决方案等。

除了公布创新技术,百度还现场发布了远场语音技术低成本的解决方案“度小云”,它集成了百度在合成、识别、交互、远程、唤醒等各方面的技术,包括语音语义一体化技术、多语种混合声学建模、全新的语音合成技术,还包括深度学习语音切分技术、业界领先的五级唤醒技术、远场优化的音频通讯技术等,是远场语音技术的集大成者,这些技术都已开放在百度AI开放平台,供开发者们免费使用。

百度的语音技术发展至今,已经在各个领域得到广泛运用,不仅在百度系产品中接入了入口,也为基于DuerOS的合作伙伴、为所有使用百度AI开放平台的开发者们提供了一个平等获取AI的机会。(作者:陈蕊)