xml地图|网站地图|网站标签 [设为首页] [加入收藏]

一贯利用频谱图

2019-10-16 21:53栏目:关于科技
TAG:

图片 1

图1/4

智东西(公众号:zhidxcom)编 | 王小溪

导语:谷歌(Google)AI的商讨人口正在把Computer视觉应用于频谱图,开垦出了新的数额增进技艺SpecAugment,能在没有供给引进额外数据的事态下,使语音识别系统品质达到最优。

智东西八月十四日音信,据日本媒体报纸发表,谷歌(Google)AI的钻探人口正在把Computer视觉应用于频谱图。SpecAugment能够在不改编基础语言模型的景象下使语音识别系统的习性达到最优。

商讨人口代表,SpecAugment方法无需比很多少,便可有效减轻模型的过拟合难点,十分的大的收缩了总括本金。

图片 2

图1/4

智东西(公众号:zhidxcom)编 | 王小溪

导语:GoogleAI的钻研人口正在把计算机视觉应用于频谱图,开垦出了新的多寡增加技艺SpecAugment,能在不须求引进额外数据的图景下,使语音识别系统质量到达最优。

智东西五月17日音信,据印媒报导,GoogleAI的钻研人口正在把Computer视觉应用于频谱图。SpecAugment可以在不整顿基础语言模型的境况下使语音识别系统的品质达到最优。

探讨职员表示,SpecAugment方法无需十分的数据,便可使得消除模型的过拟合难题,不小的滑坡了计算开支。

该成果详见15月八日刊出在预印本随想提交平台arXiv的杂谈,杂谈名叫《SpecAugment:一种用于机动语音识其他大约多少增加方法》(SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition)。

图片 3

图2/4

一、新数据增长技能剑指过拟合难题

SpecAugment是谷歌(Google)AI切磋人口新开辟的一种多少增进的技艺,这种技艺分裂与历史观的多寡拉长技艺,在语音识别方面,是对声波图直接开展抓实,而是另辟蹊径,对转会后的声波图——频谱图进行抓实。

这种数量拉长的技能,能更加高效地化解机关语音识别系统模型出现的过拟合难点。

过拟合是指,随着练习次数增添模型会逐年找寻多少的形式,能在尽量多地拟合数总部的同有时候反映数据趋势,假如连续训练,那模型就能更加的开采陶冶多少中的细节和噪音,为了拟合全体数分局“不择手腕”。结果是,模型会对已知多少展望得很好,而对未鲜明的数据预测的非常不好。

万般大家使用增大数据量和测验样本集的措施来减轻过拟合的难题,但那会扩大总结本金。

而SpecAugment无需引进额外的数额,通过一直对频谱图数据实行压实,来化解过拟合难题,从而晋级语音识别精确率。

二、SpecAugment使单词错误率降至2.6%,

在思想的AS奥迪Q5中,音频波在被当做互连网的教练多少以前平日被编码为可视图,举个例子频谱图。演习多少的抓实平日会利用于声波图,然后巩固后的声波图会调换为频谱图,这样一来,每趟加强之后,都会生成新的频谱图。

图片 4

图3/4

在赠送到网络从前,声波图平日被转变来频谱图

而在SpecAugment加强的是频谱图本人并不是波形数据。由于加强作用平素采取于网络的输入特征,由此得以在教练时期在线运营,而不会分明影响磨炼进程。

SpecAugment对频谱图的退换章程包蕴:沿时间方向扭曲频谱图、屏蔽某部分老是的频率段的实信号、以致那时候屏蔽某不时间段的发声。下图为暗暗提示图:

图片 5

图4/4

由此在岁月方向上扭转、况且屏蔽频率段时域信号和多个时刻段来提升梅尔频谱图。频谱图的遮盖部分以海水绿突显以重申。

为了测量试验SpecAugment,钻探人口将SpecAugment应用于Listen、Attend和Spell互连网举行语音识别,在度量语音识别本事的主流开源数据集LibriSpeech 960h获得的单词错误率(WETiggo,度量语音识别才具水平的中坚目标)是2.6%,在Switchboard 300h语音识别基准测量检验中获取的单词错误率为6.8%。

三、守旧数码拉长方法总括开支高

AS卡宴系统能将语音翻译成文本,它利用于广大当代器材和制品中,比方Google的亚历克斯a智能语音帮手、Android智能手提式无线电话机发短信和电子邮件时用到的Gboard虚拟键盘服务、谷歌(Google)Home以至YouTube。

在开拓基于深度学习的ASSportage系统方面仍存在好多种中之重挑衅。当中之一是ASSportage模型会出现上文所波及的过拟合难点。

在语音识别方面,守旧的数目增进平常用于声波图上,通过加速或减速的手腕让声波图变形,恐怕增添背景噪声。这种办法会让单数据的七个增加版本在教练进程中被举报到网络中,迫使互连网学习有关特征,的确会拉扯网络变得更优。

可是,守旧的拉长音频输入的法子扩张了额外的一个钱打二十五个结花费,况且不常要求格外的数据。

甘休语:新数据增加法升高语音识别正确率

GoogleAI商量人士丹尼尔勒 S. Park和商量地艺术学家William Chan(这五个人也是舆论作者)在博文中表示:就算互连网依然能够经过持续引进语言模型达到更优,但他俩的钻探成果鼓舞人心的一些留意,在平昔不言语模型的相助下,SpecAugment练习的模型抢先了从前怀有的措施。

GoogleSpecAugment这种新的口音数据增进技巧将大幅度进步语音识别的正确率。假设那项手艺能够被遍布应用,相信智能语音帮手将会更明白。

舆论链接:

文章来源:Venturebeat、谷歌 Blog

版权注明:本文仅代表小编观点,不代表手提式有线电话机搜狐立场。版权归自媒体全数,未经许可不得转发。

版权声明:本文由小鱼儿玄机2站发布于关于科技,转载请注明出处:一贯利用频谱图