更改

添加196字节 、 2021年8月29日 (日) 00:29
无编辑摘要
第5行: 第5行:       −
'''情感计算''' '''Affective computing '''(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。这是一个融合'''计算机科学'''、'''心理学'''和'''认知科学'''的跨学科领域<ref name=TaoTan>{{cite conference |first=Jianhua |last=Tao |title=Affective Computing: A Review |book-title=Affective Computing and Intelligent Interaction |volume=LNCS 3784 |pages=981–995 |publisher=Springer |year=2005 |doi=10.1007/11573548 }}</ref>。虽然该领域的一些核心思想可以追溯到早期对情感<ref name=":0">{{cite journal |last=James |first=William |year=1884 |title=What Is Emotion |journal=Mind |volume=9 |issue=34 |pages=188–205 |doi=10.1093/mind/os-IX.34.188|url=https://zenodo.org/record/1431811 }} Cited by Tao and Tan.</ref> 的哲学研究,但计算机科学的现代分支研究起源于罗莎琳德·皮卡德1995年关于情感计算的论文<ref name=":1">[http://affect.media.mit.edu/pdfs/95.picard.pdf "Affective Computing"] MIT Technical Report #321 ([http://vismod.media.mit.edu/pub/tech-reports/TR-321-ABSTRACT.html Abstract]), 1995</ref>和她的由麻省理工出版社<ref name=":2">
+
'''情感计算''' '''Affective computing '''(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。这是一个融合'''计算机科学'''、'''心理学'''和'''认知科学'''的跨学科领域<ref name=TaoTan>{{cite conference |first=Jianhua |last=Tao |title=Affective Computing: A Review |book-title=Affective Computing and Intelligent Interaction |volume=LNCS 3784 |pages=981–995 |publisher=Springer |year=2005 |doi=10.1007/11573548 }}</ref>。虽然该领域的一些核心思想可以追溯到早期对情感<ref name=":0">{{cite journal |last=James |first=William |year=1884 |title=What Is Emotion |journal=Mind |volume=9 |issue=34 |pages=188–205 |doi=10.1093/mind/os-IX.34.188|url=https://zenodo.org/record/1431811 }} Cited by Tao and Tan.</ref> 的哲学研究,但计算机科学的现代分支研究起源于罗莎琳德·皮卡德1995年关于情感计算的论文<ref name=":1">[http://affect.media.mit.edu/pdfs/95.picard.pdf "Affective Computing"] MIT Technical Report #321 [http://vismod.media.mit.edu/pub/tech-reports/TR-321-ABSTRACT.html Abstract], 1995</ref>和她的由麻省理工出版社<ref name=":2">
 
{{cite web
 
{{cite web
 
  |url=http://ls12-www.cs.tu-dortmund.de//~fink/lectures/SS06/human-robot-interaction/Emotion-RecognitionAndSimulation.pdf  
 
  |url=http://ls12-www.cs.tu-dortmund.de//~fink/lectures/SS06/human-robot-interaction/Emotion-RecognitionAndSimulation.pdf  
第13行: 第13行:  
  |first=Christian  
 
  |first=Christian  
 
  |date=October 2006  
 
  |date=October 2006  
  |quote=The introduction of emotion to computer science was done by Pickard (sic) who created the field of affective computing.  
+
  |quote=The introduction of emotion to computer science was done by Pickard (sic) who created the field of affective computing.  
 
  |archive-url=https://web.archive.org/web/20080528135730/http://ls12-www.cs.tu-dortmund.de/~fink/lectures/SS06/human-robot-interaction/Emotion-RecognitionAndSimulation.pdf  
 
  |archive-url=https://web.archive.org/web/20080528135730/http://ls12-www.cs.tu-dortmund.de/~fink/lectures/SS06/human-robot-interaction/Emotion-RecognitionAndSimulation.pdf  
 
  |archive-date=May 28, 2008  
 
  |archive-date=May 28, 2008  
第35行: 第35行:  
=== 检测和识别情感信息 ===
 
=== 检测和识别情感信息 ===
   −
检测情感信息通常从被动式'''传感器'''开始,这些传感器捕捉关于用户身体状态或行为的数据,而不解释输入信息。收集的数据类似于人类用来感知他人情感的线索。例如,摄像机可以捕捉面部表情、身体姿势和手势,而麦克风可以捕捉语音。一些传感器可以通过直接测量生理数据(如皮肤温度和电流电阻)来探测情感信号<ref name=":4">{{cite journal
+
检测情感信息通常从被动式'''传感器'''开始,这些传感器捕捉关于用户身体状态或行为的数据,而不解释输入信息。收集的数据类似于人类用来感知他人情感的线索。例如,摄像机可以捕捉面部表情、身体姿势和手势,而麦克风可以捕捉语音。一些传感器可以通过直接测量生理数据(如皮肤温度和电流电阻)来探测情感信号<ref name=":4">{{cite journal
 
  | last = Garay
 
  | last = Garay
 
  | first = Nestor
 
  | first = Nestor
第51行: 第51行:       −
识别情感信息需要从收集到的数据中提取出有意义的模式。这通常要使用'''[[wikipedia:Multimodality|多模态]]'''机器学习技术,如'''语音识别'''、'''自然语言处理'''或'''面部表情检测'''等。大多数这些技术的目标是给出与人类感情相一致的标签: 例如,如果一个人做出皱眉的面部表情,那么计算机视觉系统可能会被教导将他们的脸标记为“困惑”、“专注”或“轻微消极”(与象征着积极的快乐微笑相反)。这些标签可能与人们的真实感受相符,也可能不相符。
+
识别情感信息需要从收集到的数据中提取出有意义的模式。这通常要使用'''[[wikipedia:Multimodality|多模态]]'''机器学习技术,如'''语音识别'''、'''自然语言处理'''或'''面部表情检测'''等。大多数这些技术的目标是给出与人类感情相一致的标签: 例如,如果一个人做出皱眉的面部表情,那么计算机视觉系统可能会被教导将他们的脸标记为“困惑”、“专注”或“轻微消极”(与象征着积极的快乐微笑相反)。这些标签可能与人们的真实感受相符,也可能不相符。
      第59行: 第59行:       −
人工智能领域的计算机科学先驱之一[https://zh.wikipedia.org/wiki/%E9%A9%AC%E6%96%87%C2%B7%E9%97%B5%E6%96%AF%E5%9F%BA 马文•明斯基 Marvin Minsky]在[[wikipedia:The_Emotion_Machine|《情绪机器(The Emotion Machine)》]]一书中将情绪与更广泛的机器智能问题联系起来。他在书中表示,情绪“与我们所谓的‘思考’过程并没有特别的不同。'"<ref name=":6">{{cite news|url=https://www.washingtonpost.com/wp-dyn/content/article/2006/12/14/AR2006121401554.html|title=Mind Over Matter|last=Restak|first=Richard|date=2006-12-17|work=The Washington Post|access-date=2008-05-13}}</ref>
+
人工智能领域的计算机科学先驱之一[https://zh.wikipedia.org/wiki/%E9%A9%AC%E6%96%87%C2%B7%E9%97%B5%E6%96%AF%E5%9F%BA 马文•明斯基 Marvin Minsky]在[[wikipedia:The_Emotion_Machine|《情绪机器(The Emotion Machine)》]]一书中将情绪与更广泛的机器智能问题联系起来。他在书中表示,情绪“与我们所谓的‘思考’过程并没有特别的不同。'"<ref name=":6">{{cite news|url=https://www.washingtonpost.com/wp-dyn/content/article/2006/12/14/AR2006121401554.html|title=Mind Over Matter|last=Restak|first=Richard|date=2006-12-17|work=The Washington Post|access-date=2008-05-13}}</ref>
    
== 技术 ==
 
== 技术 ==
第81行: 第81行:       −
语音分析是一种有效的情感状态识别方法,在最近的研究中,语音分析的平均报告准确率为70%-80%.<ref name=":10">{{Cite journal|last1=Neiberg|first1=D|last2=Elenius|first2=K|last3=Laskowski|first3=K|date=2006|title=Emotion recognition in spontaneous speech using GMMs|url=http://www.speech.kth.se/prod/publications/files/1192.pdf|journal=Proceedings of Interspeech}}</ref><ref name=":11">{{Cite journal|last1=Yacoub|first1=Sherif|last2=Simske|first2=Steve|last3=Lin|first3=Xiaofan|last4=Burns|first4=John|date=2003|title=Recognition of Emotions in Interactive Voice Response Systems|journal=Proceedings of Eurospeech|pages=729–732|citeseerx=10.1.1.420.8158}}</ref>。这些系统往往比人类的平均准确率(大约60%<ref name="Dellaert" />)更高,但是不如使用其他情绪检测方式准确,比如生理状态或面部表情。然而,由于许多言语特征是独立于语义或文化的,这种技术被认为是一个很有前景的研究方向。
+
语音分析是一种有效的情感状态识别方法,在最近的研究中,语音分析的平均报告准确率为70%-80%.<ref name=":10">{{Cite journal|last1=Neiberg|first1=D|last2=Elenius|first2=K|last3=Laskowski|first3=K|date=2006|title=Emotion recognition in spontaneous speech using GMMs|url=http://www.speech.kth.se/prod/publications/files/1192.pdf|journal=Proceedings of Interspeech}}</ref><ref name=":11">{{Cite journal|last1=Yacoub|first1=Sherif|last2=Simske|first2=Steve|last3=Lin|first3=Xiaofan|last4=Burns|first4=John|date=2003|title=Recognition of Emotions in Interactive Voice Response Systems|journal=Proceedings of Eurospeech|pages=729–732|citeseerx=10.1.1.420.8158}}</ref>。这些系统往往比人类的平均准确率(大约60%<ref name="Dellaert" />)更高,但是不如使用其他情绪检测方式准确,比如生理状态或面部表情。然而,由于许多言语特征是独立于语义或文化的,这种技术被认为是一个很有前景的研究方向。
      第99行: 第99行:       −
目前常用的分类器有'''线性判别分类器'''(LDC)、 '''k- 近邻分类器'''(k-NN)、'''高斯混合模型'''(GMM)、'''支持向量机'''(SVM)、'''人工神经网络'''(ANN)、'''决策树算法'''和'''隐马尔可夫模型'''(HMMs)。各种研究表明,选择合适的分类器可以显著提高系统的整体性能。下面的列表给出了每个算法的简要描述:
+
目前常用的分类器有'''线性判别分类器'''(LDC)、 '''k- 近邻分类器'''(k-NN)、'''高斯混合模型'''(GMM)、'''支持向量机'''(SVM)、'''人工神经网络'''(ANN)、'''决策树算法'''和'''隐马尔可夫模型'''(HMMs)。各种研究表明,选择合适的分类器可以显著提高系统的整体性能。下面的列表给出了每个算法的简要描述:
      第105行: 第105行:  
* k-NN:计算并选取特征空间中的点,将其与k个最近的数据点相比较,频数最大的类即为分类结果。
 
* k-NN:计算并选取特征空间中的点,将其与k个最近的数据点相比较,频数最大的类即为分类结果。
 
* GMM:是一种概率模型,用于表示总体中子群的存在。 利用特征的多个高斯概率密度函数混合来分类<ref name=":12">[http://cnx.org/content/m13205/latest/ "Gaussian Mixture Model"]. Connexions – Sharing Knowledge and Building Communities. Retrieved 10 March 2011.</ref>。
 
* GMM:是一种概率模型,用于表示总体中子群的存在。 利用特征的多个高斯概率密度函数混合来分类<ref name=":12">[http://cnx.org/content/m13205/latest/ "Gaussian Mixture Model"]. Connexions – Sharing Knowledge and Building Communities. Retrieved 10 March 2011.</ref>。
* SVM:是一种(通常为二分的)线性分类器,它决定每个输入可能属于两个(或多个)可能类别中的哪一个。
+
* SVM:是一种(通常为二分的)线性分类器,它决定每个输入可能属于两个(或多个)可能类别中的哪一个。
 
* ANN:是一种受生物神经网络启发的数学模型,能够更好地处理特征空间可能存在的非线性。
 
* ANN:是一种受生物神经网络启发的数学模型,能够更好地处理特征空间可能存在的非线性。
 
* 决策树算法:在一颗树中,每个叶子结点都是一个分类点,分支(路径)代表了一系列相邻接的特征,最终引向叶子节点实现分类。
 
* 决策树算法:在一颗树中,每个叶子结点都是一个分类点,分支(路径)代表了一系列相邻接的特征,最终引向叶子节点实现分类。
第111行: 第111行:       −
研究证明,如果有足够的声音样本,人的情感可以被大多数主流分类器所正确分类。分类器模型由三个主要分类器组合而成: kNN、 C4.5和 SVM-RBF 核。该分类器比单独采集的基本分类器具有更好的分类性能。另外两组分类器为:1)具有混合内核的一对多 (OAA) 多类 SVM ,2)由C5.0 和神经网络两个基本分类器组成的分类器组,所提出的变体比这两组分类器有更好的性能<ref name=":13">{{cite journal|url=http://ntv.ifmo.ru/en/article/11200/raspoznavanie_i_prognozirovanie_dlitelnyh__emociy_v_rechi_(na_angl._yazyke).htm|title=Extended speech emotion recognition and prediction|author=S.E. Khoruzhnikov|journal=Scientific and Technical Journal of Information Technologies, Mechanics and Optics|volume=14|issue=6|page=137|year=2014|display-authors=etal}}</ref>。
+
研究证明,如果有足够的声音样本,人的情感可以被大多数主流分类器所正确分类。分类器模型由三个主要分类器组合而成: kNN、 C4.5和 SVM-RBF 核。该分类器比单独采集的基本分类器具有更好的分类性能。另外两组分类器为:1)具有混合内核的一对多 (OAA) 多类 SVM ,2)由C5.0 和神经网络两个基本分类器组成的分类器组,所提出的变体比这两组分类器有更好的性能<ref name=":13">{{cite journal|url=http://ntv.ifmo.ru/en/article/11200/raspoznavanie_i_prognozirovanie_dlitelnyh__emociy_v_rechi_(na_angl._yazyke).htm|title=Extended speech emotion recognition and prediction|author=S.E. Khoruzhnikov|journal=Scientific and Technical Journal of Information Technologies, Mechanics and Optics|volume=14|issue=6|page=137|year=2014|display-authors=etal}}</ref>。
       
==== 数据库 ====
 
==== 数据库 ====
   −
绝大多数现有系统都依赖于数据。 选择一个恰当的数据库来训练分类器因而成为语音情感识别的首要问题。 目前拥有的大部分数据都是从演员那里获得的,都是一些典型的情绪表现。这些所谓的行为数据库通常是基于基本情绪理论(保罗 · 埃克曼) ,该理论假定存在六种基本情绪(愤怒、恐惧、厌恶、惊讶、喜悦、悲伤) ,其他情绪只是前者的混合体<ref name="Ekman, P. 1969">Ekman, P. & Friesen, W. V (1969). [http://www.communicationcache.com/uploads/1/0/8/8/10887248/the-repertoire-of-nonverbal-behavior-categories-origins-usage-and-coding.pdf The repertoire of nonverbal behavior: Categories, origins, usage, and coding]. Semiotica, 1, 49–98.</ref>。尽管如此,这仍然提供较高的音质和均衡的类别(尽管通常太少),有助于提高识别情绪的成功率。
+
绝大多数现有系统都依赖于数据。 选择一个恰当的数据库来训练分类器因而成为语音情感识别的首要问题。 目前拥有的大部分数据都是从演员那里获得的,都是一些典型的情绪表现。这些所谓的行为数据库通常是基于基本情绪理论(保罗 · 埃克曼) ,该理论假定存在六种基本情绪(愤怒、恐惧、厌恶、惊讶、喜悦、悲伤) ,其他情绪只是前者的混合体<ref name="Ekman, P. 1969">Ekman, P. & Friesen, W. V (1969). [http://www.communicationcache.com/uploads/1/0/8/8/10887248/the-repertoire-of-nonverbal-behavior-categories-origins-usage-and-coding.pdf The repertoire of nonverbal behavior: Categories, origins, usage, and coding]. Semiotica, 1, 49–98.</ref>。尽管如此,这仍然提供较高的音质和均衡的类别(尽管通常太少),有助于提高识别情绪的成功率。
      第126行: 第126行:  
==== 语音叙词 ====
 
==== 语音叙词 ====
   −
情感识别过程的复杂性随着分类器中使用的类(情感)和语音叙词的数量的增加而增加。因此,为了保证模型能够成功地识别情绪并提高性能,只选择最相关的特征,这对于实时检测尤为重要。可选择范围很广,有些研究提到使用了200多种不同的特征。识别冗余的情感信息对于优化系统、提高情感检测的成功率至关重要。最常见的言语特征可分为以下几类<ref name="Steidl-2011" />。
+
情感识别过程的复杂性随着分类器中使用的类(情感)和语音叙词的数量的增加而增加。因此,为了保证模型能够成功地识别情绪并提高性能,只选择最相关的特征,这对于实时检测尤为重要。可选择范围很广,有些研究提到使用了200多种不同的特征。识别冗余的情感信息对于优化系统、提高情感检测的成功率至关重要。最常见的言语特征可分为以下几类<ref name="Steidl-2011" />。
   −
# 频率特性<ref name=":14">{{Cite book |chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029}}</ref>
+
# 频率特性<ref name=":14">{{Cite book |chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029}}</ref>
 
   * 音调形状(Accent shape ):受基础频率变化的影响。
 
   * 音调形状(Accent shape ):受基础频率变化的影响。
 
   * 平均音调(Average pitch):描述说话者相对于正常语言的音调高低。
 
   * 平均音调(Average pitch):描述说话者相对于正常语言的音调高低。
第146行: 第146行:  
=== 面部情感检测 ===
 
=== 面部情感检测 ===
   −
面部表情的检测和处理通过[[wikipedia:Optical_flow|'''光流''']]、'''隐马尔可夫模型'''、'''神经网络'''或'''主动外观模型'''等多种方法实现。可以组合或融合多种模态(多模态识别,例如面部表情和语音韵律<ref name="face-prosody">{{cite conference | url = http://www.image.ece.ntua.gr/php/savepaper.php?id=447 | first1 = G. | last1 = Caridakis | first2 = L. | last2 = Malatesta | first3 = L. | last3 = Kessous | first4 = N. | last4 = Amir | first5 = A. | last5 = Raouzaiou | first6 = K. | last6 = Karpouzis | title = Modeling naturalistic affective states via facial and vocal expressions recognition | conference = International Conference on Multimodal Interfaces (ICMI'06) | location = Banff, Alberta, Canada | date = November 2–4, 2006 }}</ref>、面部表情和手势<ref name="face-gesture">{{cite book | chapter-url = http://www.image.ece.ntua.gr/php/savepaper.php?id=334 | first1 = T. | last1 = Balomenos | first2 = A. | last2 = Raouzaiou | first3 = S. | last3 = Ioannou | first4 = A. | last4 = Drosopoulos | first5 = K. | last5 = Karpouzis | first6 = S. | last6 = Kollias | chapter = Emotion Analysis in Man-Machine Interaction Systems | editor1-first = Samy | editor1-last = Bengio | editor2-first = Herve | editor2-last = Bourlard | title = Machine Learning for Multimodal Interaction | series = Lecture Notes in Computer Science| volume = 3361| year = 2004 | pages = 318–328 | publisher = Springer-Verlag }}</ref>,或用于多模态数据和元数据分析的带有语音和文本的面部表情),以提供对受试者情绪的更可靠估计。Affectiva 是一家与情感计算直接相关的公司(由 Rosalind Picard 和 Rana El Kaliouby 共同创办) ,旨在研究面部情感检测的解决方案和软件。
+
面部表情的检测和处理通过[[wikipedia:Optical_flow|'''光流''']]、'''隐马尔可夫模型'''、'''神经网络'''或'''主动外观模型'''等多种方法实现。可以组合或融合多种模态(多模态识别,例如面部表情和语音韵律<ref name="face-prosody">{{cite conference | url = http://www.image.ece.ntua.gr/php/savepaper.php?id=447 | first1 = G. | last1 = Caridakis | first2 = L. | last2 = Malatesta | first3 = L. | last3 = Kessous | first4 = N. | last4 = Amir | first5 = A. | last5 = Raouzaiou | first6 = K. | last6 = Karpouzis | title = Modeling naturalistic affective states via facial and vocal expressions recognition | conference = International Conference on Multimodal Interfaces (ICMI'06) | location = Banff, Alberta, Canada | date = November 2–4, 2006 }}</ref>、面部表情和手势<ref name="face-gesture">{{cite book | chapter-url = http://www.image.ece.ntua.gr/php/savepaper.php?id=334 | first1 = T. | last1 = Balomenos | first2 = A. | last2 = Raouzaiou | first3 = S. | last3 = Ioannou | first4 = A. | last4 = Drosopoulos | first5 = K. | last5 = Karpouzis | first6 = S. | last6 = Kollias | chapter = Emotion Analysis in Man-Machine Interaction Systems | editor1-first = Samy | editor1-last = Bengio | editor2-first = Herve | editor2-last = Bourlard | title = Machine Learning for Multimodal Interaction | series = Lecture Notes in Computer Science| volume = 3361| year = 2004 | pages = 318–328 | publisher = Springer-Verlag }}</ref>,或用于多模态数据和元数据分析的带有语音和文本的面部表情),以提供对受试者情绪的更可靠估计。Affectiva 是一家与情感计算直接相关的公司(由 Rosalind Picard 和 Rana El Kaliouby 共同创办) ,旨在研究面部情感检测的解决方案和软件。
      第195行: 第195行:  
==== 面部行为编码系统 ====
 
==== 面部行为编码系统 ====
   −
心理学家已经构想出一个系统,用来正式分类脸上情绪的物理表达。面部动作编码系统 FACS的中心概念是由保罗·埃克曼 Paul Ekman和华莱士·V·弗里森 Wallace V. Friesen在1978年基于Carl-Herman Hjortsjö <ref name=":16">[http://face-and-emotion.com/dataface/facs/description.jsp "Facial Action Coding System (FACS) and the FACS Manual"]. A Human Face. Retrieved 21 March 2011.</ref>的早期工作创建的,动作单位 (Action unit, AU)是核心概念。它们基本上是一块或多块肌肉的收缩或放松。心理学家根据他们的行为单位,提出了以下六种基本情绪的分类(这里的“ +”是指“和”) :
+
心理学家已经构想出一个系统,用来正式分类脸上情绪的物理表达。面部动作编码系统 FACS的中心概念是由保罗·埃克曼 Paul Ekman和华莱士·V·弗里森 Wallace V. Friesen在1978年基于Carl-Herman Hjortsjö <ref name=":16">[http://face-and-emotion.com/dataface/facs/description.jsp "Facial Action Coding System (FACS) and the FACS Manual"]. A Human Face. Retrieved 21 March 2011.</ref>的早期工作创建的,动作单位 (Action unit, AU)是核心概念。它们基本上是一块或多块肌肉的收缩或放松。心理学家根据他们的行为单位,提出了以下六种基本情绪的分类(这里的“ +”是指“和”) :
    
{| class="wikitable sortable"
 
{| class="wikitable sortable"
第218行: 第218行:  
==== 面部情感检测的挑战 ====
 
==== 面部情感检测的挑战 ====
   −
正如计算领域的多数问题一样,在面部情感检测研究中,也有很多障碍需要克服,以便充分释放算法和方法的全部潜力。在几乎所有基于人工智能的检测(语音识别、人脸识别、情感识别)的早期,建模和跟踪的准确性一直是个问题。随着硬件的发展,数据集的完善,新的发现和新的实践的引入,准确性问题逐渐被解决,留下了噪音问题。现有的去噪方法包括'''[https://baike.baidu.com/item/%E7%9B%B8%E9%82%BB%E5%B9%B3%E5%9D%87%E6%B3%95/9807406 邻域平均法]'''、'''线性高斯平滑法'''、'''[https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%80%BC%E6%BB%A4%E6%B3%A2%E5%99%A8 中值滤波法]''',或者更新的方法如'''菌群优化算法'''。
+
正如计算领域的多数问题一样,在面部情感检测研究中,也有很多障碍需要克服,以便充分释放算法和方法的全部潜力。在几乎所有基于人工智能的检测(语音识别、人脸识别、情感识别)的早期,建模和跟踪的准确性一直是个问题。随着硬件的发展,数据集的完善,新的发现和新的实践的引入,准确性问题逐渐被解决,留下了噪音问题。现有的去噪方法包括'''[https://baike.baidu.com/item/%E7%9B%B8%E9%82%BB%E5%B9%B3%E5%9D%87%E6%B3%95/9807406 邻域平均法]'''、'''线性高斯平滑法'''、'''[https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%80%BC%E6%BB%A4%E6%B3%A2%E5%99%A8 中值滤波法]''',或者更新的方法如'''菌群优化算法'''。
      第246行: 第246行:  
=====概述=====
 
=====概述=====
   −
血容量脉搏(BVP)可以通过一个叫做光电容积扫描法的技术来测量,该方法产生一个图表来显示通过四肢的血液流动<ref name="Picard, Rosalind 1998">Picard, Rosalind (1998). Affective Computing. MIT.</ref>。记录峰值代表着心搏周期中血流被泵到肢体末端。当被试受到惊吓或感到害怕时,他们往往会心跳加速,导致心率加快,从而在光电容积描记图上可以清楚地看到波峰与波谷间的距离变小。被试平静下来后,血液流回末端,心率回归正常。
+
血容量脉搏(BVP)可以通过一个叫做光电容积扫描法的技术来测量,该方法产生一个图表来显示通过四肢的血液流动<ref name="Picard, Rosalind 1998">Picard, Rosalind (1998). Affective Computing. MIT.</ref>。记录峰值代表着心搏周期中血流被泵到肢体末端。当被试受到惊吓或感到害怕时,他们往往会心跳加速,导致心率加快,从而在光电容积描记图上可以清楚地看到波峰与波谷间的距离变小。被试平静下来后,血液流回末端,心率回归正常。
      第259行: 第259行:     
==== 面部肌电图 ====
 
==== 面部肌电图 ====
面部肌电图是一种通过放大肌肉纤维收缩时产生的微小电脉冲来测量面部肌肉电活动的技术<ref name="Larsen JT 2003">Larsen JT, Norris CJ, Cacioppo JT, "[https://web.archive.org/web/20181030170423/https://pdfs.semanticscholar.org/c3a5/4bfbaaade376aee951fe8578e6436be59861.pdf Effects of positive and negative affect on electromyographic activity over zygomaticus major and corrugator supercilii]", (September 2003)</ref>。面部表达大量情绪,然而,有两个主要的面部肌肉群通常被研究来检测情绪: 皱眉肌和颧大肌。皱眉肌将眉毛向下拉成皱眉,因此是对消极的、不愉快的情绪反应的最好反映。当微笑时,颧大肌负责将嘴角向后拉,因此是用于测试积极情绪反应的肌肉。
+
面部肌电图是一种通过放大肌肉纤维收缩时产生的微小电脉冲来测量面部肌肉电活动的技术<ref name="Larsen JT 2003">Larsen JT, Norris CJ, Cacioppo JT, "[https://web.archive.org/web/20181030170423/https://pdfs.semanticscholar.org/c3a5/4bfbaaade376aee951fe8578e6436be59861.pdf Effects of positive and negative affect on electromyographic activity over zygomaticus major and corrugator supercilii]", (September 2003)</ref>。面部表达大量情绪,然而,有两个主要的面部肌肉群通常被研究来检测情绪: 皱眉肌和颧大肌。皱眉肌将眉毛向下拉成皱眉,因此是对消极的、不愉快的情绪反应的最好反映。当微笑时,颧大肌负责将嘴角向后拉,因此是用于测试积极情绪反应的肌肉。
 
[[File:Gsrplot.svg.png|500px|thumb|在这里,我们可以看到一张皮肤阻力的图,测量使用 GSR 和时间,同时受试者玩一个视频游戏。在图中有几个明显的峰值,这表明 GSR 是区分性唤起和非性唤起状态的一个很好的方法。例如,在游戏开始的时候,通常没有多少激动人心的游戏,但是有一个高水平的电阻记录,这意味着低水平的电导率,因此唤起较少。这与游戏中玩家被杀的突然低谷形成鲜明对比,因为玩家在游戏中被杀时通常会感到非常紧张。|链接=Special:FilePath/Gsrplot.svg]]
 
[[File:Gsrplot.svg.png|500px|thumb|在这里,我们可以看到一张皮肤阻力的图,测量使用 GSR 和时间,同时受试者玩一个视频游戏。在图中有几个明显的峰值,这表明 GSR 是区分性唤起和非性唤起状态的一个很好的方法。例如,在游戏开始的时候,通常没有多少激动人心的游戏,但是有一个高水平的电阻记录,这意味着低水平的电导率,因此唤起较少。这与游戏中玩家被杀的突然低谷形成鲜明对比,因为玩家在游戏中被杀时通常会感到非常紧张。|链接=Special:FilePath/Gsrplot.svg]]
   第265行: 第265行:  
==== 皮肤电反应 ====
 
==== 皮肤电反应 ====
   −
皮肤电反应(Galvanic skin response,GSR)是一个过时的术语,更一般的现象称为皮肤电活动(Electrodermal Activity)或 EDA。EDA 是皮肤电特性改变的普遍现象。皮肤受交感神经支配,因此测量皮肤的电阻或电导率可以量化自主神经系统交感神经分支的细微变化。当汗腺被激活时,甚至在皮肤出汗之前,EDA 的水平就可以被捕获(通常使用电导),并用于辨别自主神经唤醒的微小变化。一个主体越兴奋,皮肤导电反应就越强烈<ref name="Picard, Rosalind 1998" />。
+
皮肤电反应(Galvanic skin response,GSR)是一个过时的术语,更一般的现象称为皮肤电活动(Electrodermal Activity)或 EDA。EDA 是皮肤电特性改变的普遍现象。皮肤受交感神经支配,因此测量皮肤的电阻或电导率可以量化自主神经系统交感神经分支的细微变化。当汗腺被激活时,甚至在皮肤出汗之前,EDA 的水平就可以被捕获(通常使用电导),并用于辨别自主神经唤醒的微小变化。一个主体越兴奋,皮肤导电反应就越强烈<ref name="Picard, Rosalind 1998" />。
    
皮肤导电反应通常是通过放置在皮肤某处的小型氯化银电极并在两者之间施加一个小电压来测量的。为了最大限度地舒适和减少刺激,电极可以放在手腕、腿上或脚上,这样手就可以完全自由地进行日常活动。
 
皮肤导电反应通常是通过放置在皮肤某处的小型氯化银电极并在两者之间施加一个小电压来测量的。为了最大限度地舒适和减少刺激,电极可以放在手腕、腿上或脚上,这样手就可以完全自由地进行日常活动。
第273行: 第273行:  
===== 概述 =====
 
===== 概述 =====
   −
人脸表面由大量血管网络支配。 这些血管中的血流变化会在脸上产生可见的颜色变化。 无论面部情绪是否激活面部肌肉,都会发生血流量、血压、血糖水平和其他变化。 此外,面部颜色信号与面部肌肉运动提供的信号无关<ref name="face">Carlos F. Benitez-Quiroz, Ramprakash Srinivasan, Aleix M. Martinez, [https://www.pnas.org/content/115/14/3581 Facial color is an efficient mechanism to visually transmit emotion], PNAS. April 3, 2018 115 (14) 3581–3586; first published March 19, 2018 https://doi.org/10.1073/pnas.1716084115.</ref>。
+
人脸表面由大量血管网络支配。 这些血管中的血流变化会在脸上产生可见的颜色变化。 无论面部情绪是否激活面部肌肉,都会发生血流量、血压、血糖水平和其他变化。 此外,面部颜色信号与面部肌肉运动提供的信号无关<ref name="face">Carlos F. Benitez-Quiroz, Ramprakash Srinivasan, Aleix M. Martinez, [https://www.pnas.org/content/115/14/3581 Facial color is an efficient mechanism to visually transmit emotion], PNAS. April 3, 2018 115 (14) 3581–3586; first published March 19, 2018 https://doi.org/10.1073/pnas.1716084115.</ref>。
       
===== 方法 =====
 
===== 方法 =====
   −
方法主要基于面部颜色的变化。 Delaunay 三角剖分用于创建三角形局部区域。 其中一些三角形定义了嘴和眼睛的内部(巩膜和虹膜), 使用左三角区域的像素来创建特征向量<ref name="face" />。它表明,将标准 RGB 颜色空间的像素颜色转换为 oRGB 颜色空间<ref name="orgb">M. Bratkova, S. Boulos, and P. Shirley, [https://ieeexplore.ieee.org/document/4736456 oRGB: a practical opponent color space for computer graphics], IEEE Computer Graphics and Applications, 29(1):42–55, 2009.</ref>或 LMS 通道等颜色空间在处理人脸时表现更好<ref name="mec">Hadas Shahar, Hagit Hel-Or, [http://openaccess.thecvf.com/content_ICCVW_2019/papers/CVPM/Shahar_Micro_Expression_Classification_using_Facial_Color_and_Deep_Learning_Methods_ICCVW_2019_paper.pdf Micro Expression Classification using Facial Color and Deep Learning Methods], The IEEE International Conference on Computer Vision (ICCV), 2019, pp. 0–0.</ref>。因此,将上面的矢量映射到较好的颜色空间,并分解为红绿色和黄蓝色通道。然后使用深度学习的方法来找到等效的情绪。
+
方法主要基于面部颜色的变化。 Delaunay 三角剖分用于创建三角形局部区域。 其中一些三角形定义了嘴和眼睛的内部(巩膜和虹膜), 使用左三角区域的像素来创建特征向量<ref name="face" />。它表明,将标准 RGB 颜色空间的像素颜色转换为 oRGB 颜色空间<ref name="orgb">M. Bratkova, S. Boulos, and P. Shirley, [https://ieeexplore.ieee.org/document/4736456 oRGB: a practical opponent color space for computer graphics], IEEE Computer Graphics and Applications, 29(1):42–55, 2009.</ref>或 LMS 通道等颜色空间在处理人脸时表现更好<ref name="mec">Hadas Shahar, Hagit Hel-Or, [http://openaccess.thecvf.com/content_ICCVW_2019/papers/CVPM/Shahar_Micro_Expression_Classification_using_Facial_Color_and_Deep_Learning_Methods_ICCVW_2019_paper.pdf Micro Expression Classification using Facial Color and Deep Learning Methods], The IEEE International Conference on Computer Vision (ICCV), 2019, pp. 0–0.</ref>。因此,将上面的矢量映射到较好的颜色空间,并分解为红绿色和黄蓝色通道。然后使用深度学习的方法来找到等效的情绪。
      第297行: 第297行:       −
情感计算也被应用于交流技术的发展,以供孤独症患者使用<ref name=":20">[http://affect.media.mit.edu/projects.php Projects in Affective Computing]</ref>。情感计算项目文本中的情感成分也越来越受到关注,特别是它在所谓的情感或'''情感互联网'''中的作用<ref name=":21">Shanahan, James; Qu, Yan; Wiebe, Janyce (2006). ''Computing Attitude and Affect in Text: Theory and Applications''. Dordrecht: Springer Science & Business Media. p. 94.</ref>。
+
情感计算也被应用于交流技术的发展,以供孤独症患者使用<ref name=":20">[http://affect.media.mit.edu/projects.php Projects in Affective Computing]</ref>。情感计算项目文本中的情感成分也越来越受到关注,特别是它在所谓的情感或'''情感互联网'''中的作用<ref name=":21">Shanahan, James; Qu, Yan; Wiebe, Janyce (2006). ''Computing Attitude and Affect in Text: Theory and Applications''. Dordrecht: Springer Science & Business Media. p. 94.</ref>。
       
=== 电子游戏 ===
 
=== 电子游戏 ===
   −
情感型电子游戏可以通过'''生物反馈设备'''获取玩家的情绪状态<ref name=":22">{{cite conference |title=Affective Videogames and Modes of Affective Gaming: Assist Me, Challenge Me, Emote Me |first1=Kiel Mark |last1=Gilleade |first2=Alan |last2=Dix |first3=Jen |last3=Allanson |year=2005 |conference=Proc.DiGRA Conf. |url=http://comp.eprints.lancs.ac.uk/1057/1/Gilleade_Affective_Gaming_DIGRA_2005.pdf |access-date=2016-12-10 |archive-url=https://web.archive.org/web/20150406200454/http://comp.eprints.lancs.ac.uk/1057/1/Gilleade_Affective_Gaming_DIGRA_2005.pdf |archive-date=2015-04-06 |url-status=dead }}</ref>。有一些特别简单的生物反馈形式,如通过游戏手柄来测量按下按钮的压力,来获取玩家的唤醒度水平<ref name=":23">{{Cite conference| doi = 10.1145/765891.765957| title = Affective gaming: Measuring emotion through the gamepad| conference = CHI '03 Extended Abstracts on Human Factors in Computing Systems| year = 2003| last1 = Sykes | first1 = Jonathan| last2 = Brown | first2 = Simon| citeseerx = 10.1.1.92.2123}}</ref>; 另一方面是'''脑机接口'''<ref name=":24">{{Cite journal | doi = 10.1016/j.entcom.2009.09.007| title = Turning shortcomings into challenges: Brain–computer interfaces for games| journal = Entertainment Computing| volume = 1| issue = 2| pages = 85–94| year = 2009| last1 = Nijholt | first1 = Anton| last2 = Plass-Oude Bos | first2 = Danny| last3 = Reuderink | first3 = Boris| bibcode = 2009itie.conf..153N| url = http://wwwhome.cs.utwente.nl/~anijholt/artikelen/intetain_bci_2009.pdf}}</ref><ref name=":25">{{Cite conference| doi = 10.1007/978-3-642-02315-6_23| title = Affective Pacman: A Frustrating Game for Brain–Computer Interface Experiments| conference = Intelligent Technologies for Interactive Entertainment (INTETAIN)| pages = 221–227| year = 2009| last1 = Reuderink | first1 = Boris| last2 = Nijholt | first2 = Anton| last3 = Poel | first3 = Mannes}}</ref> 。情感游戏已被用于医学研究,以改善自闭症儿童的情感发展<ref name=":26">{{Cite journal
+
情感型电子游戏可以通过'''生物反馈设备'''获取玩家的情绪状态<ref name=":22">{{cite conference |title=Affective Videogames and Modes of Affective Gaming: Assist Me, Challenge Me, Emote Me |first1=Kiel Mark |last1=Gilleade |first2=Alan |last2=Dix |first3=Jen |last3=Allanson |year=2005 |conference=Proc.DiGRA Conf. |url=http://comp.eprints.lancs.ac.uk/1057/1/Gilleade_Affective_Gaming_DIGRA_2005.pdf |access-date=2016-12-10 |archive-url=https://web.archive.org/web/20150406200454/http://comp.eprints.lancs.ac.uk/1057/1/Gilleade_Affective_Gaming_DIGRA_2005.pdf |archive-date=2015-04-06 |url-status=dead }}</ref>。有一些特别简单的生物反馈形式,如通过游戏手柄来测量按下按钮的压力,来获取玩家的唤醒度水平<ref name=":23">{{Cite conference| doi = 10.1145/765891.765957| title = Affective gaming: Measuring emotion through the gamepad| conference = CHI '03 Extended Abstracts on Human Factors in Computing Systems| year = 2003| last1 = Sykes | first1 = Jonathan| last2 = Brown | first2 = Simon| citeseerx = 10.1.1.92.2123}}</ref>; 另一方面是'''脑机接口'''<ref name=":24">{{Cite journal | doi = 10.1016/j.entcom.2009.09.007| title = Turning shortcomings into challenges: Brain–computer interfaces for games| journal = Entertainment Computing| volume = 1| issue = 2| pages = 85–94| year = 2009| last1 = Nijholt | first1 = Anton| last2 = Plass-Oude Bos | first2 = Danny| last3 = Reuderink | first3 = Boris| bibcode = 2009itie.conf..153N| url = http://wwwhome.cs.utwente.nl/~anijholt/artikelen/intetain_bci_2009.pdf}}</ref><ref name=":25">{{Cite conference| doi = 10.1007/978-3-642-02315-6_23| title = Affective Pacman: A Frustrating Game for Brain–Computer Interface Experiments| conference = Intelligent Technologies for Interactive Entertainment (INTETAIN)| pages = 221–227| year = 2009| last1 = Reuderink | first1 = Boris| last2 = Nijholt | first2 = Anton| last3 = Poel | first3 = Mannes}}</ref> 。情感游戏已被用于医学研究,以改善自闭症儿童的情感发展<ref name=":26">{{Cite journal
 
  | pmid = 19592726
 
  | pmid = 19592726
 
| year = 2009
 
| year = 2009
第319行: 第319行:       −
罗马尼亚研究人员尼库 · 塞贝博士在一次采访中提出的一个想法是,当一个人使用某种产品时,对他的面部进行分析(他提到了冰淇淋作为一个例子)<ref name=":29">{{cite web|url=https://www.sciencedaily.com/videos/2006/0811-mona_lisa_smiling.htm|title=Mona Lisa: Smiling? Computer Scientists Develop Software That Evaluates Facial Expressions|date=1 August 2006|website=ScienceDaily|archive-url=https://web.archive.org/web/20071019235625/http://sciencedaily.com/videos/2006/0811-mona_lisa_smiling.htm|archive-date=19 October 2007|url-status=dead}}</ref> ,公司就能够利用这种分析来推断他们的产品是否会受到各自市场的欢迎。
+
罗马尼亚研究人员尼库 · 塞贝博士在一次采访中提出的一个想法是,当一个人使用某种产品时,对他的面部进行分析(他提到了冰淇淋作为一个例子)<ref name=":29">{{cite web|url=https://www.sciencedaily.com/videos/2006/0811-mona_lisa_smiling.htm|title=Mona Lisa: Smiling? Computer Scientists Develop Software That Evaluates Facial Expressions|date=1 August 2006|website=ScienceDaily|archive-url=https://web.archive.org/web/20071019235625/http://sciencedaily.com/videos/2006/0811-mona_lisa_smiling.htm|archive-date=19 October 2007|url-status=dead}}</ref> ,公司就能够利用这种分析来推断他们的产品是否会受到各自市场的欢迎。
      −
人们也可以利用情感状态识别来判断电视广告的影响,通过实时录像和随后对人们面部表情的研究,之后对大量主题的结果进行平均,我们就能知道这个广告(或电影)是否达到了预期的效果,以及观众最感兴趣的元素是什么。
+
人们也可以利用情感状态识别来判断电视广告的影响,通过实时录像和随后对人们面部表情的研究,之后对大量主题的结果进行平均,我们就能知道这个广告(或电影)是否达到了预期的效果,以及观众最感兴趣的元素是什么。
      第347行: 第347行:  
* CyberEmotions
 
* CyberEmotions
 
* Character Computing
 
* Character Computing
* Emotion Markup Language (EmotionML)
+
* Emotion Markup Language (EmotionML)
* Kismet (robot)
+
* Kismet (robot)
 
* Multimodal sentiment analysis
 
* Multimodal sentiment analysis
 
* Sentiment analysis
 
* Sentiment analysis
第356行: 第356行:  
==其他资源==
 
==其他资源==
   −
* {{cite journal | last = Hudlicka | first =  Eva | title = To feel or not to feel: The role of affect in human–computer interaction | journal = International Journal of Human–Computer Studies |  volume = 59 | issue = 1–2 | year = 2003 | pages = 1–32 | citeseerx = 10.1.1.180.6429 | doi=10.1016/s1071-5819(03)00047-8}}
+
* {{cite journal | last = Hudlicka | first =  Eva | title = To feel or not to feel: The role of affect in human–computer interaction | journal = International Journal of Human–Computer Studies |  volume = 59 | issue = 1–2 | year = 2003 | pages = 1–32 | citeseerx = 10.1.1.180.6429 | doi=10.1016/s1071-5819(03)00047-8}}
 
*{{cite book | last1 = Scherer |first1=Klaus R |last2=Bänziger |first2= Tanja  |last3=Roesch |first3=Etienne B | title = A Blueprint for Affective Computing: A Sourcebook and Manual | location = Oxford | publisher = Oxford University Press | year = 2010 }}
 
*{{cite book | last1 = Scherer |first1=Klaus R |last2=Bänziger |first2= Tanja  |last3=Roesch |first3=Etienne B | title = A Blueprint for Affective Computing: A Sourcebook and Manual | location = Oxford | publisher = Oxford University Press | year = 2010 }}
   第366行: 第366行:  
*[http://sites.google.com/site/memphisemotivecomputing/ Emotive Computing Group at the University of Memphis]
 
*[http://sites.google.com/site/memphisemotivecomputing/ Emotive Computing Group at the University of Memphis]
 
*[https://web.archive.org/web/20180411230402/http://www.acii2011.org/ 2011 International Conference on Affective Computing and Intelligent Interaction]
 
*[https://web.archive.org/web/20180411230402/http://www.acii2011.org/ 2011 International Conference on Affective Computing and Intelligent Interaction]
*[https://web.archive.org/web/20091024081211/http://www.eecs.tufts.edu/~agirou01/workshop/ Brain, Body and Bytes: Psychophysiological User Interaction] ''CHI 2010 Workshop'' (10–15, April 2010)
+
*[https://web.archive.org/web/20091024081211/http://www.eecs.tufts.edu/~agirou01/workshop/ Brain, Body and Bytes: Psychophysiological User Interaction] ''CHI 2010 Workshop'' (10–15, April 2010)
*[https://web.archive.org/web/20110201001124/http://www.computer.org/portal/web/tac IEEE Transactions on Affective Computing] ''(TAC)''
+
*[https://web.archive.org/web/20110201001124/http://www.computer.org/portal/web/tac IEEE Transactions on Affective Computing] ''(TAC)''
 
*[http://opensmile.sourceforge.net/ openSMILE: popular state-of-the-art open-source toolkit for large-scale feature extraction for affect recognition and computational paralinguistics]
 
*[http://opensmile.sourceforge.net/ openSMILE: popular state-of-the-art open-source toolkit for large-scale feature extraction for affect recognition and computational paralinguistics]
 
* Affective Computing Research Group at the MIT Media Laboratory
 
* Affective Computing Research Group at the MIT Media Laboratory
第374行: 第374行:  
* Emotive Computing Group at the University of Memphis
 
* Emotive Computing Group at the University of Memphis
 
* 2011 International Conference on Affective Computing and Intelligent Interaction
 
* 2011 International Conference on Affective Computing and Intelligent Interaction
* Brain, Body and Bytes: Psychophysiological User Interaction CHI 2010 Workshop (10–15, April 2010)
+
* Brain, Body and Bytes: Psychophysiological User Interaction CHI 2010 Workshop (10–15, April 2010)
* IEEE Transactions on Affective Computing (TAC)
+
* IEEE Transactions on Affective Computing (TAC)
 
* openSMILE: popular state-of-the-art open-source toolkit for large-scale feature extraction for affect recognition and computational paralinguistics
 
* openSMILE: popular state-of-the-art open-source toolkit for large-scale feature extraction for affect recognition and computational paralinguistics
   第384行: 第384行:  
* 曼菲斯大学情感计算小组
 
* 曼菲斯大学情感计算小组
 
* 2011年国际情感计算和智能交互会议
 
* 2011年国际情感计算和智能交互会议
* 大脑,身体和字节: 精神生理学用户交互 CHI 2010研讨会(10-15,2010年4月)
+
* 大脑,身体和字节: 精神生理学用户交互 CHI 2010研讨会(10-15,2010年4月)
* IEEE 情感计算会刊(TAC)
+
* IEEE 情感计算会刊(TAC)
 
* openSMILE: 流行的最先进的开源工具包,用于大规模的情感识别和计算语言学特征提取
 
* openSMILE: 流行的最先进的开源工具包,用于大规模的情感识别和计算语言学特征提取
  
1,068

个编辑