第127行: |
第127行: |
| | | |
| 情感识别过程的复杂性随着分类器中使用的类(情感)和语音叙词的数量的增加而增加。因此,为了保证模型能够成功地识别情绪并提高性能,只选择最相关的特征,这对于实时检测尤为重要。可选择范围很广,有些研究提到使用了200多种不同的特征。识别冗余的情感信息对于优化系统、提高情感检测的成功率至关重要。最常见的言语特征可分为以下几类<ref name="Steidl-2011" />。 | | 情感识别过程的复杂性随着分类器中使用的类(情感)和语音叙词的数量的增加而增加。因此,为了保证模型能够成功地识别情绪并提高性能,只选择最相关的特征,这对于实时检测尤为重要。可选择范围很广,有些研究提到使用了200多种不同的特征。识别冗余的情感信息对于优化系统、提高情感检测的成功率至关重要。最常见的言语特征可分为以下几类<ref name="Steidl-2011" />。 |
− |
| |
| | | |
| # 频率特性<ref name=":14">{{Cite book |chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029}}</ref> | | # 频率特性<ref name=":14">{{Cite book |chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029}}</ref> |
− | * 音调形状(Accent shape ):受基础频率变化的影响。 | + | * 音调形状(Accent shape ):受基础频率变化的影响。 |
− | * 平均音调(Average pitch):描述说话者相对于正常语言的音调高低。 | + | * 平均音调(Average pitch):描述说话者相对于正常语言的音调高低。 |
− | * 音调轮廓(Contour slope):描述频率随时间变化的趋势,可以是上升、下降或持平。 | + | * 音调轮廓(Contour slope):描述频率随时间变化的趋势,可以是上升、下降或持平。 |
− | * 尾音下降(Final lowering):一段话末尾频率下降的多少。 | + | * 尾音下降(Final lowering):一段话末尾频率下降的多少。 |
− | * 音域(Pitch range):一段话语的最高和最低频率之间的差距。 | + | * 音域(Pitch range):一段话语的最高和最低频率之间的差距。 |
| # 时间相关特征: | | # 时间相关特征: |
− | * 语速(Speech rate):单位时间内发出词数或音节数。 | + | * 语速(Speech rate):单位时间内发出词数或音节数。 |
− | * 重音频率(Stress frequency):重读发生的频率 | + | * 重音频率(Stress frequency):重读发生的频率 |
| # 音质参数和能量叙词: | | # 音质参数和能量叙词: |
− | * 呼吸音(Breathiness):说话中的呼吸噪声 | + | * 呼吸音(Breathiness):说话中的呼吸噪声 |
− | * 亮度(Brilliance):语音中高频和低频的占比 | + | * 亮度(Brilliance):语音中高频和低频的占比 |
− | * 响度(Loudness):语音的振幅,亦为话音的能量 | + | * 响度(Loudness):语音的振幅,亦为话音的能量 |
− | * 暂停不连续性(Pause Discontinuity):描述声音和静音之间的转换 | + | * 暂停不连续性(Pause Discontinuity):描述声音和静音之间的转换 |
− | * 音调不连续性(Pitch Discontinuity):描述基本频率的转换。 | + | * 音调不连续性(Pitch Discontinuity):描述基本频率的转换。 |
− | | |
| | | |
| === 面部情感检测 === | | === 面部情感检测 === |