第75行: |
第75行: |
| 可以分析声音参数和韵律特征,如音调高低和语速等。 | | 可以分析声音参数和韵律特征,如音调高低和语速等。 |
| | | |
− | 语音分析是一种有效的情感状态识别方法,在最近的研究中,语音分析的平均报告准确率为70%-80%.<ref name=":10">{{Cite journal|last1=Neiberg|first1=D|last2=Elenius|first2=K|last3=Laskowski|first3=K|date=2006|title=Emotion recognition in spontaneous speech using GMMs|url=http://www.speech.kth.se/prod/publications/files/1192.pdf|journal=Proceedings of Interspeech}}</ref><ref name=":11">{{Cite journal|last1=Yacoub|first1=Sherif|last2=Simske|first2=Steve|last3=Lin|first3=Xiaofan|last4=Burns|first4=John|date=2003|title=Recognition of Emotions in Interactive Voice Response Systems|journal=Proceedings of Eurospeech|pages=729–732|citeseerx=10.1.1.420.8158}}</ref>。这些系统往往比人类的平均准确率(大约60%<ref name="Dellaert" />)更高,但是不如使用其他情绪检测方式准确,比如生理状态或面部表情<ref name="Hudlicka-2003-p24"></ref>。然而,由于许多言语特征是独立于语义或文化的,这种技术被认为是一个很有前景的研究方向<ref name="Hudlicka-2003-p25"></ref>。 | + | 语音分析是一种有效的情感状态识别方法,在最近的研究中,语音分析的平均报告准确率为70%-80%.<ref name=":10">{{Cite journal|last1=Neiberg|first1=D|last2=Elenius|first2=K|last3=Laskowski|first3=K|date=2006|title=Emotion recognition in spontaneous speech using GMMs|url=http://www.speech.kth.se/prod/publications/files/1192.pdf|journal=Proceedings of Interspeech}}</ref><ref name=":11">{{Cite journal|last1=Yacoub|first1=Sherif|last2=Simske|first2=Steve|last3=Lin|first3=Xiaofan|last4=Burns|first4=John|date=2003|title=Recognition of Emotions in Interactive Voice Response Systems|journal=Proceedings of Eurospeech|pages=729–732|citeseerx=10.1.1.420.8158}}</ref>。这些系统往往比人类的平均准确率(大约60%<ref name="Dellaert" />)更高,但是不如使用其他情绪检测方式准确,比如生理状态或面部表情。然而,由于许多言语特征是独立于语义或文化的,这种技术被认为是一个很有前景的研究方向。 |
| | | |
| ==== 算法 ==== | | ==== 算法 ==== |
第92行: |
第92行: |
| | | |
| | | |
− | 目前常用的分类器有'''线性判别分类器'''(LDC)、 '''k- 近邻分类器'''(k-NN)、'''高斯混合模型'''(GMM)、'''支持向量机'''(SVM)、'''人工神经网络'''(ANN)、'''决策树算法'''和'''隐马尔可夫模型'''(HMMs)<ref name="Scherer-2010-p241" />。各种研究表明,选择合适的分类器可以显著提高系统的整体性能。下面的列表给出了每个算法的简要描述: | + | 目前常用的分类器有'''线性判别分类器'''(LDC)、 '''k- 近邻分类器'''(k-NN)、'''高斯混合模型'''(GMM)、'''支持向量机'''(SVM)、'''人工神经网络'''(ANN)、'''决策树算法'''和'''隐马尔可夫模型'''(HMMs)<ref name="Scherer-2010-p241">{{harvnb|Scherer|Bänziger|Roesch|2010|p=241}}</ref>。各种研究表明,选择合适的分类器可以显著提高系统的整体性能。下面的列表给出了每个算法的简要描述: |
| | | |
| * LDC:特征以向量形式表示,通过计算特征的线性组合来分类。 | | * LDC:特征以向量形式表示,通过计算特征的线性组合来分类。 |
第111行: |
第111行: |
| 然而,对于现实生活应用,自然数据是首选的。自然数据库可以通过在自然环境中观察和分析对象来产生。最终,自然数据库会帮助系统识别情境下的情绪,也可以用来发现交互的目标和结果。由于这类数据的自然性,可以真实自然地反映'''人机交互'''下的情感状态,也就可以应用于现实生活中的系统实现。 | | 然而,对于现实生活应用,自然数据是首选的。自然数据库可以通过在自然环境中观察和分析对象来产生。最终,自然数据库会帮助系统识别情境下的情绪,也可以用来发现交互的目标和结果。由于这类数据的自然性,可以真实自然地反映'''人机交互'''下的情感状态,也就可以应用于现实生活中的系统实现。 |
| | | |
− | 尽管自然数据比表演数据具有许多优势,但很难获得并且通常情绪强度较低。此外,由于环境噪声的存在、人员与麦克风的距离较远,在自然环境中获得的数据具有较低的信号质量。埃尔朗根-纽约堡大学的AIBO情感资料库(FAU Aibo Emotion Corpus for CEICES, CEICES: Combining Efforts for Improving Automatic Classification of Emotional User States)是建立'''自然情感数据库'''的首次尝试,其采集基于10—13岁儿童与索尼AIBO宠物机器人玩耍的真实情境。<ref name="Steidl-2011">{{cite web | last = Steidl | first = Stefan | title = FAU Aibo Emotion Corpus | publisher = Pattern Recognition Lab | date = 5 March 2011 | url = http://www5.cs.fau.de/de/mitarbeiter/steidl-stefan/fau-aibo-emotion-corpus/ }}</ref><ref name="Scherer-2010-p243">{{harvnb|Scherer|Bänziger|Roesch|2010|p=243}}</ref>同样,在情感研究领域,建立任何一个标准数据库,都需要提供评估方法,以比较不同情感识别系统的差异。 | + | 尽管自然数据比表演数据具有许多优势,但很难获得并且通常情绪强度较低。此外,由于环境噪声的存在、人员与麦克风的距离较远,在自然环境中获得的数据具有较低的信号质量。埃尔朗根-纽约堡大学的AIBO情感资料库(FAU Aibo Emotion Corpus for CEICES, CEICES: Combining Efforts for Improving Automatic Classification of Emotional User States)是建立'''自然情感数据库'''的首次尝试,其采集基于10—13岁儿童与索尼AIBO宠物机器人玩耍的真实情境。<ref name="Steidl-2011">{{cite web | last = Steidl | first = Stefan | title = FAU Aibo Emotion Corpus | publisher = Pattern Recognition Lab | date = 5 March 2011 | url = http://www5.cs.fau.de/de/mitarbeiter/steidl-stefan/fau-aibo-emotion-corpus/ }}</ref>同样,在情感研究领域,建立任何一个标准数据库,都需要提供评估方法,以比较不同情感识别系统的差异。 |
| | | |
| ==== 语音叙词 ==== | | ==== 语音叙词 ==== |
| | | |
− | 情感识别过程的复杂性随着分类器中使用的类(情感)和语音叙词的数量的增加而增加。因此,为了保证模型能够成功地识别情绪并提高性能,只选择最相关的特征,这对于实时检测尤为重要。可选择范围很广,有些研究提到使用了200多种不同的特征<ref name="Scherer-2010-p241" />。识别冗余的情感信息对于优化系统、提高情感检测的成功率至关重要。最常见的言语特征可分为以下几类<ref name="Steidl-2011" /><ref name="Scherer-2010-p243" />。 | + | 情感识别过程的复杂性随着分类器中使用的类(情感)和语音叙词的数量的增加而增加。因此,为了保证模型能够成功地识别情绪并提高性能,只选择最相关的特征,这对于实时检测尤为重要。可选择范围很广,有些研究提到使用了200多种不同的特征<ref name="Scherer-2010-p241" />。识别冗余的情感信息对于优化系统、提高情感检测的成功率至关重要。最常见的言语特征可分为以下几类<ref name="Steidl-2011" />。 |
| | | |
| | | |
− | # 频率特性<ref name=":14">{{Cite book |doi=10.1109/ICCCI50826.2021.9402569|chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029}}</ref> | + | # 频率特性<ref name=":14">{{Cite book |chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029}}</ref> |
| * 音调形状(Accent shape ):受基础频率变化的影响。 | | * 音调形状(Accent shape ):受基础频率变化的影响。 |
| * 平均音调(Average pitch):描述说话者相对于正常语言的音调高低。 | | * 平均音调(Average pitch):描述说话者相对于正常语言的音调高低。 |