东说念主类之是以大致通过凝听语音捕捉对方神志状况的变化,是因为东说念主脑具备了感知和流露语音问号中的大致反馈言语情面感状况的信息(如额外的口吻词、语调的变化等)的才调.自动语音神志识别则是谈论机对东说念主类上述神志感知和流露经过的模拟,它的任务即是从荟萃到的语音问号中提真金不怕火抒发神志的声学特征,并找出这些声学特征与东说念主类神志的映射联系.谈论机的语音神志识别才调是谈论机神志智能的着急构成部分【UURU-024】鍊嬩汉鎺堟キ 锝炴啩銈屻伄銇娿伆銇曘倱 妗滄湪銈屻倱35姝筹綖2010-01-21銈汇兂銈裤兗銉撱儸銉冦偢&$銇傘仒銇曘亜87鍒嗛挓,是已毕当然东说念主机交互界面的要道前提,具有很大的商榷价值和行使价值.
语音神志识别商榷的开展距今已有30余年的历史,在此时候,它得到了天下范围内探求商榷者们的平庸关爱,也取得了一些令东说念主瞩筹划得益,但同期也靠近着诸多问题的锤真金不怕火与挑战.本文将存身于语音神志识别商榷界限的已有后果,对界限内的商榷进展进行总结,并对改日的技艺发展趋势加以掂量.
福建兄妹一般说来,语音神志识别系统主要由3部分构成:语音问号荟萃、神志特征提真金不怕火和神志识别,系统框图如图 1所示.语音问号荟萃模块通过语音传感器(举例,麦克风等语音录制开发)取得语音问号,并传递到下一个神志特征提真金不怕火模块对语音问号中与话者神志关联精雅的声学参数进行提真金不怕火,临了送入神志识别模块完成神志的判断.需要极端指出的是,一个竣工的语音神志识别系统除了要完善上述3部分之外,还离不开两项前期责任的因循:(1) 神志空间的形容;(2) 神志语料库的诞生.神志空间的形容有多重表率,举例翻脸神志标签、激发-评价-适度空间和神志轮等,不同的表率决定了不同的神志识别时势,会对神志语料的网罗标注、识别算法的聘任齐产生影响.神志语料库更是语音神志识别商榷的基础,考究向识别系统提供考试和测试用语料数据.国表里探求商榷笔据商榷者的起点不同会各有侧重,但归根结底齐不错涵盖到上述5个要道模块之中.
Fig. 1 Framework of a standard speech emotion recognition system 图 1 语音神志识别系统框图
因此,本文将率先对语音神志识别接近40年的发展历程进行简要的追想,然后从神志形容模子、神志语音数据库、语音神志探求声学特征提真金不怕火、语音神志识别算法、语音神志识别技艺行使这5个角度对面前的语音神志识别技艺主流技艺和前沿进展进行系统的总结和分析,临了给出技艺挑战与掂量.
Table 1 Various definitions of emotion from different researchers[16] 表 1 不同学者对基本神志的界说[16]后者则将神志状况形容为多维神志空间中的点.这里的神志空间实质上是一个笛卡尔空间,空间的每一维对应着神志的一个心境学属性(举例,示意神志强烈进度的激活度属性以及标明神志正负面进度的效价属性).表面上,该空间的神志形容才调大致涵盖总共的神志状况.换句话说,任性的、推行中存在的神志状况齐不错在神志空间中找到相应的映射点,而且各维坐标值的数值大小反馈了神志状况在相应维度上所发扬出来的强弱进度.由于维度神志模子使用流畅的实数值来描写神志,因此在有些文件中又被称作流畅神志形容模子[18].一些既简便又能被平庸使用的维度神志形容模子有二维的激活度-效价空间表面(arousal-valence space)、三维的激发-评估-适度空间表面(valence-activation-dominance space)[19]和神志轮表面(emotion wheel)[18]等.其中,激活度-效价空间表面如图 2所示[18]:垂直轴是激活度维,是对神志强烈进度的形容;水平轴是效价维,是对神志正负面进度的评价.神志状况的宽泛语音标签和该坐标空间不错进行互相出动,通过对神志状况语言形容的流露和算计,就不错找到它在神志空间中的映射位置.
Fig. 2 Arousal-Valence emotional space 图 2 激活度-效价神志空间两种抒发模子各有千秋:从模子复杂度而言,翻脸形容模子较为精真金不怕火、易懂,有意于探求商榷责任的入部属手和开展,而维度模子却要面对定性神志状况到定量空间坐标之间奈何互相调遣的问题;从神志形容才调的角度而言,翻脸神志模子的神志形容才调则露馅出较大的局限性,渊博情况下【UURU-024】鍊嬩汉鎺堟キ 锝炴啩銈屻伄銇娿伆銇曘倱 妗滄湪銈屻倱35姝筹綖2010-01-21銈汇兂銈裤兗銉撱儸銉冦偢&$銇傘仒銇曘亜87鍒嗛挓,它只可描写单一的、有限种类的神志类型,但是东说念主们在宽泛生存中所体验的神志却是好意思妙而多变的,致使是复杂而磨叽的(举例,东说念主们在受到惊吓时所发扬出来的神志不仅有吃惊,走动回包含发怵致使懦弱的要素;又比如,东说念主们对愉悦的抒发不错呈现出几许的进度,不错从喜上眉梢,到笑容可掬,再得欢欣鼓舞),不错说,翻脸形容时势和自觉神志的形容之间还存在着较大的阻塞,但是维度神志模子从多侧面、流畅的角度进行神志的形容,很好地化解了自觉神志的形容问题,而且以精准的数值很猛进度上躲避了翻脸神志标签的磨叽性问题.临了,咱们以表格的容颜对两个神志形容模子之间的辞别进行了直不雅的总结和展示,见表 2.
Table 2 Comparison of two emotional representation models 表2 两种神志形容模子的辞别