Siri、小度和小冰……它们是怎么做到和你相谈甚欢的

放大字体  缩小字体 2019-08-19 17:13:58  阅读:3372 作者:责任编辑NO。魏云龙0298

科技日报记者 陆成宽

你知道小冰吗?你呼叫过小度吗?你和小娜互动过吗?你运用过Siri吗?假如都没有,那你就out了。它们都是当下很火爆的智能语音机器人,很多人都和它们聊过天。

日前,美国出资组织Mangrove Capital Partners发布了2019年《语音技能陈述》。陈述剖析了语音助理服务的日益遍及,并猜测苹果2020年将推出Siri操作体系。那么,终究什么是语音技能?它有哪些运用?语音操作体系又是什么?为此,记者采访了相关专家。

经过纯语音信息完结与机器交互

视觉我国

与图像辨认、机器学习相同,智能语音是人工智能的一个分支。在人工智能反常炽热的当下,从Siri到小度,从小冰到小娜,智能语音正在融入人们的日子之中。

所谓智能语音技能,便是研讨人与核算机直接以天然语音的办法进行有用交流的各种理论和办法,触及语音辨认、内容了解、对话问答等。一般来说,智能语音便是运用核算机对语音信息进行主动处理和辨认的技能。

“从引擎模块的视点讲,智能语音技能包含语音前端处理(含语音增强)、语音辨认、语音组成、语义了解对话办理和声纹辨认等模块。其间,语音辨认便是将语音信息经过核算机主动处理转化成文字的进程,也叫语音转写,它包含语音分段、端点检测、特征提取、解码以及后处理等进程。”我国科学院声学研讨所(以下简称中科院声学所)研讨员赵庆卫告知科技日报记者。

现在,智能语音技能首要运用于智能家居、虚拟帮手、可穿戴设备、智能车载、智能客服、智能医疗、陪同机器人等方面。所谓虚拟帮手,便是智能语音帮手,它的中心在于人类经过纯语音信息完结与机器的交互,让智能机器“帮手”帮助完结指使的使命。

在赵庆卫看来,语音操作体系是一个比较斗胆的想象,根据语音的人机交互有很大的开展潜力,所以不少互联网企业都看好这个方向。现在,亚马逊现已打造了一个智能语音云渠道(Alexa),渠道上有各种智能语音运用(8万种技能),在这个渠道上,用户能够经过语音宣布一系列指令,比方购物、查找、听音乐、讲故事等。

智能语音技能的宿世此生

事实上,智能语音技能的研讨起源于20世纪50年代。1952年,美国贝尔实验室制作了一台6英尺高的主动数字辨认机“Audrey”,它能够辨认数字0—9的发音,且准确度高达90%以上。而且它对熟人的精准度高,而对陌生人则偏低。1958年,中科院电子所的声学研讨室运用电子管完结了10个元音的辨认。“因为那时核算才能很弱,智能语音只能做一些特别简略的字母或数字的辨认。”赵庆卫说道。

20世纪60年代到70年代初,语音辨认的研讨获得了必定开展。“此刻,智能语音技能开端构成体系的结构,提出了根据线性猜测编码(LPC)技能的特征提取办法和动态时刻规整(DTW)技能,而且运用模板匹配的办法做一些简略的语音辨认(小词汇量、特定人、孤立词)”。

从20世纪70年代中期到80年代,语音辨认的结构有了打破,核算模型逐渐代替模板匹配的办法,隐含马尔科夫模型成为语音辨认体系的根底模型。一起,也选用高斯混合模型作为声学模型的首要建模办法,连接词辨认和中等词汇量接连语音辨认得到了较大开展。

“到90年代的时分,根底的神经网络语音辨认模型现已提出。但其时神经网络语音辨认模型之所以没能获得较大的打破,首要是因为其时服务器的核算才能不行强以及练习语音数据的量不行多。”赵庆卫说,90年代时的神经网络语音辨认模型没能代替传统办法,此刻智能语音技能还是以隐含马尔科夫模型和高斯混合模型为根本结构。

从20世纪90年代到21世纪初,非特定人、大词汇量、接连语音辨认体系的研讨成为世界语音界研讨方向的干流。1997年,IBM首个听写产品Via Voice面世,用户只需对着话筒说出想要输入的文字,体系就会主动辨认并输出文字。

2002年,中科院主动化所推出了“天语”中文语音系列产品——Pattek ASR;2005年,中科院声学所推出国内第一个自主研制的电信级语音辨认渠道,初次完结了国产语音辨认软件的规划运用,在我国移动23个省的增值事务上线运用,占有了国内80%商场份额,使美国公司对我国语音辨认商场的独占成为前史。

深度神经网络结构成为干流

2010年,跟着服务器的核算才能大幅进步(获益于GPU的运用)和练习语音数据的大幅度添加(获益于移动互联网和云核算的开展),微软根据深度神经网络的语音辨认研讨获得较大开展,“辨认错误率相对下降20%以上”。尔后,深度神经网络的建模优势被许多世界和国内闻名语音研讨组织所验证,业界开端认识到根据深度神经网络的建模结构比本来的结构辨认作用显着要好,“现在我们根本都选用了根据深度神经网络的建模结构。”赵庆卫说道。

最近几年,根据深度神经网络的语音辨认技能也进行了继续的迭代,从根底的深度神经网络开展到延时神经网络(TDNN)、双向长短时记忆(BLSTM)以及卷积神经网络(CNN)等;近年来,根据端到端架构(End-to-End)的语音辨认体系正在被语音辨认的学术界和工业界深入研讨,一些体系也现已上线,中科院声学所将其最新研讨成果实践运用于我国移动通讯集团和我国电信集团的客服热线,智能技能直接服务了数以亿计的客户。

据了解,中科院声学所长时间致力于语音辨认中心技能研讨。针对实时语音辨认的需求,研讨人员提出一种根据混合神经网络(延时神经网络+输出投影门循环单元)的低延时声学建模技能,可处理长时信息,网络结构简练,核算速度快,易于并行化练习。该模型结构已作为一种新式的回馈神经网络结构被世界干流语音辨认开源软件Kaldi采用。在非实时语音辨认方面,提出根据BLSTM-E(双向长短时记忆扩展)的深度神经网络结构,提升了现有干流BLSTM的功能,并处理了序列化练习条件下LSTM(长短时记忆网络)对不同长度语音输入的鲁棒性差的问题。

来历:科技日报 文中图片来自网络

修改:陈小柒

审阅:朱丽

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!