更改

跳到导航 跳到搜索
添加34字节 、 2021年8月29日 (日) 00:25
第127行: 第127行:     
情感识别过程的复杂性随着分类器中使用的类(情感)和语音叙词的数量的增加而增加。因此,为了保证模型能够成功地识别情绪并提高性能,只选择最相关的特征,这对于实时检测尤为重要。可选择范围很广,有些研究提到使用了200多种不同的特征。识别冗余的情感信息对于优化系统、提高情感检测的成功率至关重要。最常见的言语特征可分为以下几类<ref name="Steidl-2011" />。
 
情感识别过程的复杂性随着分类器中使用的类(情感)和语音叙词的数量的增加而增加。因此,为了保证模型能够成功地识别情绪并提高性能,只选择最相关的特征,这对于实时检测尤为重要。可选择范围很广,有些研究提到使用了200多种不同的特征。识别冗余的情感信息对于优化系统、提高情感检测的成功率至关重要。最常见的言语特征可分为以下几类<ref name="Steidl-2011" />。
      
# 频率特性<ref name=":14">{{Cite book |chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029}}</ref>
 
# 频率特性<ref name=":14">{{Cite book |chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029}}</ref>
* 音调形状(Accent shape ):受基础频率变化的影响。
+
  * 音调形状(Accent shape ):受基础频率变化的影响。
* 平均音调(Average pitch):描述说话者相对于正常语言的音调高低。
+
  * 平均音调(Average pitch):描述说话者相对于正常语言的音调高低。
* 音调轮廓(Contour slope):描述频率随时间变化的趋势,可以是上升、下降或持平。
+
  * 音调轮廓(Contour slope):描述频率随时间变化的趋势,可以是上升、下降或持平。
* 尾音下降(Final lowering):一段话末尾频率下降的多少。
+
  * 尾音下降(Final lowering):一段话末尾频率下降的多少。
* 音域(Pitch range):一段话语的最高和最低频率之间的差距。
+
  * 音域(Pitch range):一段话语的最高和最低频率之间的差距。
 
# 时间相关特征:
 
# 时间相关特征:
* 语速(Speech rate):单位时间内发出词数或音节数。
+
  * 语速(Speech rate):单位时间内发出词数或音节数。
* 重音频率(Stress frequency):重读发生的频率
+
  * 重音频率(Stress frequency):重读发生的频率
 
# 音质参数和能量叙词:
 
# 音质参数和能量叙词:
* 呼吸音(Breathiness):说话中的呼吸噪声
+
  * 呼吸音(Breathiness):说话中的呼吸噪声
* 亮度(Brilliance):语音中高频和低频的占比
+
  * 亮度(Brilliance):语音中高频和低频的占比
* 响度(Loudness):语音的振幅,亦为话音的能量
+
  * 响度(Loudness):语音的振幅,亦为话音的能量
* 暂停不连续性(Pause Discontinuity):描述声音和静音之间的转换
+
  * 暂停不连续性(Pause Discontinuity):描述声音和静音之间的转换
* 音调不连续性(Pitch Discontinuity):描述基本频率的转换。
+
  * 音调不连续性(Pitch Discontinuity):描述基本频率的转换。
 
      
=== 面部情感检测 ===
 
=== 面部情感检测 ===
1,068

个编辑

导航菜单