更改

情感计算 (查看源代码)

2021年8月28日 (六) 23:57的版本

删除172字节、 2021年8月28日 (六) 23:57

无编辑摘要

第75行：第75行：

可以分析声音参数和韵律特征，如音调高低和语速等。

−

语音分析是一种有效的情感状态识别方法，在最近的研究中，语音分析的平均报告准确率为70%-80%.<ref name=":10">{{Cite journal|last1=Neiberg|first1=D|last2=Elenius|first2=K|last3=Laskowski|first3=K|date=2006|title=Emotion recognition in spontaneous speech using GMMs|url=http://www.speech.kth.se/prod/publications/files/1192.pdf|journal=Proceedings of Interspeech}}</ref><ref name=":11">{{Cite journal|last1=Yacoub|first1=Sherif|last2=Simske|first2=Steve|last3=Lin|first3=Xiaofan|last4=Burns|first4=John|date=2003|title=Recognition of Emotions in Interactive Voice Response Systems|journal=Proceedings of Eurospeech|pages=729–732|citeseerx=10.1.1.420.8158}}</ref>。这些系统往往比人类的平均准确率(大约60%<ref name="Dellaert" />)更高，但是不如使用其他情绪检测方式准确，比如生理状态或面部表情<ref name="Hudlicka-2003-p24"></ref>。然而，由于许多言语特征是独立于语义或文化的，这种技术被认为是一个很有前景的研究方向<ref name="Hudlicka-2003-p25"></ref>。

+

语音分析是一种有效的情感状态识别方法，在最近的研究中，语音分析的平均报告准确率为70%-80%.<ref name=":10">{{Cite journal|last1=Neiberg|first1=D|last2=Elenius|first2=K|last3=Laskowski|first3=K|date=2006|title=Emotion recognition in spontaneous speech using GMMs|url=http://www.speech.kth.se/prod/publications/files/1192.pdf|journal=Proceedings of Interspeech}}</ref><ref name=":11">{{Cite journal|last1=Yacoub|first1=Sherif|last2=Simske|first2=Steve|last3=Lin|first3=Xiaofan|last4=Burns|first4=John|date=2003|title=Recognition of Emotions in Interactive Voice Response Systems|journal=Proceedings of Eurospeech|pages=729–732|citeseerx=10.1.1.420.8158}}</ref>。这些系统往往比人类的平均准确率(大约60%<ref name="Dellaert" />)更高，但是不如使用其他情绪检测方式准确，比如生理状态或面部表情。然而，由于许多言语特征是独立于语义或文化的，这种技术被认为是一个很有前景的研究方向。

==== 算法 ====

第92行：第92行： −

目前常用的分类器有'''线性判别分类器'''(LDC)、 '''k- 近邻分类器'''(k-NN)、'''高斯混合模型'''(GMM)、'''支持向量机'''(SVM)、'''人工神经网络'''(ANN)、'''决策树算法'''和'''隐马尔可夫模型'''(HMMs)<ref name="Scherer-2010-p241" />。各种研究表明，选择合适的分类器可以显著提高系统的整体性能。下面的列表给出了每个算法的简要描述:

+

目前常用的分类器有'''线性判别分类器'''(LDC)、 '''k- 近邻分类器'''(k-NN)、'''高斯混合模型'''(GMM)、'''支持向量机'''(SVM)、'''人工神经网络'''(ANN)、'''决策树算法'''和'''隐马尔可夫模型'''(HMMs)<ref name="Scherer-2010-p241">{{harvnb|Scherer|Bänziger|Roesch|2010|p=241}}</ref>。各种研究表明，选择合适的分类器可以显著提高系统的整体性能。下面的列表给出了每个算法的简要描述:

* LDC：特征以向量形式表示，通过计算特征的线性组合来分类。

第111行：第111行：

然而，对于现实生活应用，自然数据是首选的。自然数据库可以通过在自然环境中观察和分析对象来产生。最终，自然数据库会帮助系统识别情境下的情绪，也可以用来发现交互的目标和结果。由于这类数据的自然性，可以真实自然地反映'''人机交互'''下的情感状态，也就可以应用于现实生活中的系统实现。

−

尽管自然数据比表演数据具有许多优势，但很难获得并且通常情绪强度较低。此外，由于环境噪声的存在、人员与麦克风的距离较远，在自然环境中获得的数据具有较低的信号质量。埃尔朗根-纽约堡大学的AIBO情感资料库（FAU Aibo Emotion Corpus for CEICES, CEICES: Combining Efforts for Improving Automatic Classification of Emotional User States）是建立'''自然情感数据库'''的首次尝试，其采集基于10—13岁儿童与索尼AIBO宠物机器人玩耍的真实情境。<ref name="Steidl-2011">{{cite web | last = Steidl | first = Stefan | title = FAU Aibo Emotion Corpus | publisher = Pattern Recognition Lab | date = 5 March 2011 | url = http://www5.cs.fau.de/de/mitarbeiter/steidl-stefan/fau-aibo-emotion-corpus/ ~~}}</ref><ref name="Scherer-2010-p243">{{harvnb|Scherer|Bänziger|Roesch|2010|p=243~~}}</ref>同样，在情感研究领域，建立任何一个标准数据库，都需要提供评估方法，以比较不同情感识别系统的差异。

+

尽管自然数据比表演数据具有许多优势，但很难获得并且通常情绪强度较低。此外，由于环境噪声的存在、人员与麦克风的距离较远，在自然环境中获得的数据具有较低的信号质量。埃尔朗根-纽约堡大学的AIBO情感资料库（FAU Aibo Emotion Corpus for CEICES, CEICES: Combining Efforts for Improving Automatic Classification of Emotional User States）是建立'''自然情感数据库'''的首次尝试，其采集基于10—13岁儿童与索尼AIBO宠物机器人玩耍的真实情境。<ref name="Steidl-2011">{{cite web | last = Steidl | first = Stefan | title = FAU Aibo Emotion Corpus | publisher = Pattern Recognition Lab | date = 5 March 2011 | url = http://www5.cs.fau.de/de/mitarbeiter/steidl-stefan/fau-aibo-emotion-corpus/ }}</ref>同样，在情感研究领域，建立任何一个标准数据库，都需要提供评估方法，以比较不同情感识别系统的差异。

==== 语音叙词 ====

−

情感识别过程的复杂性随着分类器中使用的类(情感)和语音叙词的数量的增加而增加。因此，为了保证模型能够成功地识别情绪并提高性能，只选择最相关的特征，这对于实时检测尤为重要。可选择范围很广，有些研究提到使用了200多种不同的特征<ref name="Scherer-2010-p241" />。识别冗余的情感信息对于优化系统、提高情感检测的成功率至关重要。最常见的言语特征可分为以下几类<ref name="Steidl-2011~~" /><ref name="Scherer-2010-p243~~" />。

+

情感识别过程的复杂性随着分类器中使用的类(情感)和语音叙词的数量的增加而增加。因此，为了保证模型能够成功地识别情绪并提高性能，只选择最相关的特征，这对于实时检测尤为重要。可选择范围很广，有些研究提到使用了200多种不同的特征<ref name="Scherer-2010-p241" />。识别冗余的情感信息对于优化系统、提高情感检测的成功率至关重要。最常见的言语特征可分为以下几类<ref name="Steidl-2011" />。

−

# 频率特性<ref name=":14">{{Cite book ~~|doi=10.1109/ICCCI50826.2021.9402569~~|chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029}}</ref>

+

# 频率特性<ref name=":14">{{Cite book |chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029}}</ref>

* 音调形状（Accent shape ）：受基础频率变化的影响。

* 平均音调（Average pitch）：描述说话者相对于正常语言的音调高低。

唐糖糖

1,068

个编辑

更改

情感计算 (查看源代码)

2021年8月28日 (六) 23:57的版本

导航菜单

搜索