第9行: |
第9行: |
| | | |
| 情感分析的目的和挑战可以通过一些简单的例子来说明。 | | 情感分析的目的和挑战可以通过一些简单的例子来说明。 |
| + | |
| | | |
| === 简单例子 === | | === 简单例子 === |
第16行: |
第17行: |
| * 来自佛罗里达州的20世纪80年代的粉彩全天式游艇很丑。 | | * 来自佛罗里达州的20世纪80年代的粉彩全天式游艇很丑。 |
| * 我不喜欢旧的游艇。 | | * 我不喜欢旧的游艇。 |
| + | |
| | | |
| === 更具挑战性的例子 === | | === 更具挑战性的例子 === |
第28行: |
第30行: |
| * 你应该看看他们的甜点菜单(You should see their decadent dessert menu)。(最近某些态度术语的极性在一些领域中发生了改变) | | * 你应该看看他们的甜点菜单(You should see their decadent dessert menu)。(最近某些态度术语的极性在一些领域中发生了改变) |
| * 我喜欢自己的手机,但不会向任何同事推荐(I love my mobile but would not recommend it to any of my colleagues)。(有保留的积极情绪,很难归类) | | * 我喜欢自己的手机,但不会向任何同事推荐(I love my mobile but would not recommend it to any of my colleagues)。(有保留的积极情绪,很难归类) |
| + | |
| | | |
| == 类型 == | | == 类型 == |
− |
| |
| | | |
| 情感分析的最底层的任务是识别给定的情感评论文本中的极性倾向是正面的、负面的还是中性的。按照处理文本的粒度不同,情感分析可以分为篇章级、句子级和词语级三个研究层次。高级的“超极性”情感分类研究关注有如情绪状态等,如享受、愤怒、厌恶、悲伤、恐惧和惊讶。<ref name=":2"> Vong Anh Ho, Duong Huynh-Cong Nguyen, Danh Hoang Nguyen, Linh Thi-Van Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen. "Emotion Recognition | | 情感分析的最底层的任务是识别给定的情感评论文本中的极性倾向是正面的、负面的还是中性的。按照处理文本的粒度不同,情感分析可以分为篇章级、句子级和词语级三个研究层次。高级的“超极性”情感分类研究关注有如情绪状态等,如享受、愤怒、厌恶、悲伤、恐惧和惊讶。<ref name=":2"> Vong Anh Ho, Duong Huynh-Cong Nguyen, Danh Hoang Nguyen, Linh Thi-Van Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen. "Emotion Recognition |
第122行: |
第124行: |
| }} | | }} |
| </ref> | | </ref> |
| + | |
| | | |
| 还有各种其他类型的情感分析,如功能/属性为基础的情感分析、分级情感分析(正面、负面、中性) 、多语言情感分析和情感识别。 | | 还有各种其他类型的情感分析,如功能/属性为基础的情感分析、分级情感分析(正面、负面、中性) 、多语言情感分析和情感识别。 |
| + | |
| | | |
| ===主观性/客观性识别 === | | ===主观性/客观性识别 === |
第172行: |
第176行: |
| }} | | }} |
| </ref>的研究表明,在对篇章文本进行极性分类之前去掉文本中的客观句子有助于提高模型的表现。 | | </ref>的研究表明,在对篇章文本进行极性分类之前去掉文本中的客观句子有助于提高模型的表现。 |
| + | |
| | | |
| 客观指的是具有事实信息的事件。<ref name="Wiebe 2005 486–497">{{Cite journal|last1=Wiebe|first1=Janyce|last2=Riloff|first2=Ellen|date=2005|editor-last=Gelbukh|editor-first=Alexander|title=Creating Subjective and Objective Sentence Classifiers from Unannotated Texts|url=https://link.springer.com/chapter/10.1007%2F978-3-540-30586-6_53|journal=Computational Linguistics and Intelligent Text Processing|series=Lecture Notes in Computer Science|volume=3406|language=en|location=Berlin, Heidelberg|publisher=Springer|pages=486–497|doi=10.1007/978-3-540-30586-6_53}}</ref> | | 客观指的是具有事实信息的事件。<ref name="Wiebe 2005 486–497">{{Cite journal|last1=Wiebe|first1=Janyce|last2=Riloff|first2=Ellen|date=2005|editor-last=Gelbukh|editor-first=Alexander|title=Creating Subjective and Objective Sentence Classifiers from Unannotated Texts|url=https://link.springer.com/chapter/10.1007%2F978-3-540-30586-6_53|journal=Computational Linguistics and Intelligent Text Processing|series=Lecture Notes in Computer Science|volume=3406|language=en|location=Berlin, Heidelberg|publisher=Springer|pages=486–497|doi=10.1007/978-3-540-30586-6_53}}</ref> |
第198行: |
第203行: |
| | | |
| 现有的研究主要集中于篇章级的分类。然而,篇章级分类的准确性常常较低。这是因为一篇文章可能涉及不同类型的表达方式。研究数据表明,一组预计以客观表达为主的新闻文章的分类结果显示,这组新闻文章的主观表达占40% 以上。<ref name="Wiebe 2005 486–497" /> | | 现有的研究主要集中于篇章级的分类。然而,篇章级分类的准确性常常较低。这是因为一篇文章可能涉及不同类型的表达方式。研究数据表明,一组预计以客观表达为主的新闻文章的分类结果显示,这组新闻文章的主观表达占40% 以上。<ref name="Wiebe 2005 486–497" /> |
− |
| |
| | | |
| | | |
第228行: |
第232行: |
| * 特定领域的应用。 | | * 特定领域的应用。 |
| * 电子邮件分析: 主观和客观分类器通过追踪目标单词的语言模式来检测垃圾邮件。 | | * 电子邮件分析: 主观和客观分类器通过追踪目标单词的语言模式来检测垃圾邮件。 |
| + | |
| | | |
| ===基于功能/属性的情感分析=== | | ===基于功能/属性的情感分析=== |
第271行: |
第276行: |
| }} | | }} |
| </ref> | | </ref> |
| + | |
| | | |
| == 方法和特征 == | | == 方法和特征 == |
第372行: |
第378行: |
| }} | | }} |
| </ref>要想挖掘在某语境下的意见,或是获取被给予意见的某项功能,需要使用到语法之间的关系。语法之间互相的关联性经常需要通过深度解析文本来获取。 | | </ref>要想挖掘在某语境下的意见,或是获取被给予意见的某项功能,需要使用到语法之间的关系。语法之间互相的关联性经常需要通过深度解析文本来获取。 |
| + | |
| | | |
| 有很多开源软件工具以及一系列免费和付费的情感分析工具利用机器学习、统计学方法和自然语言处理的技术,对大型文本语料进行情感分析, 这些大型文本语料包括网页、网络新闻、互联网在线讨论群组、网络在线评论、网络博客和社交媒介。<ref name="AkcoraBayirDemirbasFerhatosmanoglu2010"> | | 有很多开源软件工具以及一系列免费和付费的情感分析工具利用机器学习、统计学方法和自然语言处理的技术,对大型文本语料进行情感分析, 这些大型文本语料包括网页、网络新闻、互联网在线讨论群组、网络在线评论、网络博客和社交媒介。<ref name="AkcoraBayirDemirbasFerhatosmanoglu2010"> |
第395行: |
第402行: |
| | | |
| 在情感分析中,需要有人工分析的成分。因为自动化系统无法分析评论者个人的历史倾向,也无法分析平台的历史倾向,这往往导致对表达的情感的错误分类。自动化情感分类器通常能够识别大约23% 被人类正确分类的评论。<ref>{{cite web|title=Case Study: Advanced Sentiment Analysis|url=http://paragonpoll.com/sentiment-analysis-systems-case-study/|access-date=18 October 2013}}</ref>然而,人们往往不同意这种说法,并认为自动化情感分类器最终可以达到的与人类一致的判断上限。<ref>{{Cite journal|last1=Mozetič|first1=Igor|last2=Grčar|first2=Miha|last3=Smailović|first3=Jasmina|date=2016-05-05|title=Multilingual Twitter Sentiment Classification: The Role of Human Annotators|journal=PLOS ONE|volume=11|issue=5|pages=e0155036|doi=10.1371/journal.pone.0155036|issn=1932-6203|pmc=4858191|pmid=27149621|arxiv=1602.07563|bibcode=2016PLoSO..1155036M}}</ref> | | 在情感分析中,需要有人工分析的成分。因为自动化系统无法分析评论者个人的历史倾向,也无法分析平台的历史倾向,这往往导致对表达的情感的错误分类。自动化情感分类器通常能够识别大约23% 被人类正确分类的评论。<ref>{{cite web|title=Case Study: Advanced Sentiment Analysis|url=http://paragonpoll.com/sentiment-analysis-systems-case-study/|access-date=18 October 2013}}</ref>然而,人们往往不同意这种说法,并认为自动化情感分类器最终可以达到的与人类一致的判断上限。<ref>{{Cite journal|last1=Mozetič|first1=Igor|last2=Grčar|first2=Miha|last3=Smailović|first3=Jasmina|date=2016-05-05|title=Multilingual Twitter Sentiment Classification: The Role of Human Annotators|journal=PLOS ONE|volume=11|issue=5|pages=e0155036|doi=10.1371/journal.pone.0155036|issn=1932-6203|pmc=4858191|pmid=27149621|arxiv=1602.07563|bibcode=2016PLoSO..1155036M}}</ref> |
| + | |
| | | |
| == 评估 == | | == 评估 == |
第412行: |
第420行: |
| }} | | }} |
| </ref> | | </ref> |
| + | |
| | | |
| 另一方面,计算机系统会犯与人类评分者非常不同的错误,因此这些数字并不完全可比。例如,计算机系统在处理否定句、夸张句、笑话或讽刺句时会遇到困难,而这些句子对人类读者来说通常很容易处理,也就是说计算机系统所犯的一些错误在人类看来通常会显得过于幼稚。总的来说,学术研究中定义的情感分析在实际商业任务中的效用受到了质疑,主要是因为对于担心公众话语对品牌或企业声誉的影响的客户来说,从负面到正面的简单的单维度情感模型几乎没有提供什么可操作的信息。<ref name=":28">Karlgren, Jussi, Magnus Sahlgren, Fredrik Olsson, Fredrik Espinoza, and Ola Hamfors. "Usefulness of sentiment analysis." In European Conference on Information Retrieval, pp. 426-435. Springer Berlin Heidelberg, 2012. | | 另一方面,计算机系统会犯与人类评分者非常不同的错误,因此这些数字并不完全可比。例如,计算机系统在处理否定句、夸张句、笑话或讽刺句时会遇到困难,而这些句子对人类读者来说通常很容易处理,也就是说计算机系统所犯的一些错误在人类看来通常会显得过于幼稚。总的来说,学术研究中定义的情感分析在实际商业任务中的效用受到了质疑,主要是因为对于担心公众话语对品牌或企业声誉的影响的客户来说,从负面到正面的简单的单维度情感模型几乎没有提供什么可操作的信息。<ref name=":28">Karlgren, Jussi, Magnus Sahlgren, Fredrik Olsson, Fredrik Espinoza, and Ola Hamfors. "Usefulness of sentiment analysis." In European Conference on Information Retrieval, pp. 426-435. Springer Berlin Heidelberg, 2012. |
第429行: |
第438行: |
| | | |
| 由于情感分析的评估越来越多地基于特定任务,每个分类器的都需要一个单独的训练模型来实现更准确地识别给定数据集的情感表达。 | | 由于情感分析的评估越来越多地基于特定任务,每个分类器的都需要一个单独的训练模型来实现更准确地识别给定数据集的情感表达。 |
| + | |
| | | |
| == Web 2.0 == | | == Web 2.0 == |
第447行: |
第457行: |
| | | |
| 对于一个推荐系统来说,情感分析已经被证明是一种有价值的技术。推荐系统的目的是预测目标用户对某个项目的偏好。'''主流推荐系统是基于显性数据集工作的。例如,协同过滤(collaborative filtering)基于评分矩阵工作,基于内容的过滤(content-based filtering)基于项目元数据工作。''' | | 对于一个推荐系统来说,情感分析已经被证明是一种有价值的技术。推荐系统的目的是预测目标用户对某个项目的偏好。'''主流推荐系统是基于显性数据集工作的。例如,协同过滤(collaborative filtering)基于评分矩阵工作,基于内容的过滤(content-based filtering)基于项目元数据工作。''' |
− |
| |
| | | |
| | | |
第454行: |
第463行: |
| | | |
| 基于功能/属性和从用户生成的文本中提取的情感,可以构造一个混合推荐系统。<ref name=":0">Jakob, Niklas, et al. "Beyond the stars: exploiting free-text user reviews to improve the accuracy of movie recommendations." ''Proceedings of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion''. ACM, 2009.</ref> 向用户推荐候选商品的动机有两种。第一种动力是候选商品与用户偏好商品具有许多共同特征,<ref name=":36">{{cite journal|first1=Hu|last1=Minqing|first2=Bing|last2=Liu|title=Mining opinion features in customer reviews|journal=AAAI|volume=4|issue=4|year=2004|url=https://pdfs.semanticscholar.org/ee6c/726b55c66d4c222556cfae62a4eb69aa86b7.pdf|archive-url=https://web.archive.org/web/20180524004041/https://pdfs.semanticscholar.org/ee6c/726b55c66d4c222556cfae62a4eb69aa86b7.pdf|url-status=dead|archive-date=2018-05-24}}</ref>第二种动机是候选商品在其特征上获得了高度的情感评价。对于一个偏好商品来说,有理由相信具有相同特性的商品将具有类似的功能或实用性。因此,这些商品也将有可能被用户所青睐。另一方面,对于两个候选商品的共同特征,其他用户可能给予其中一个正面的评价,而给予另一个负面的评价。显然,应该向用户推荐评价较高的商品。基于这两种动机,可以为每个候选商品建立相似度和情感评分的组合排序评分。<ref name=":0" /> | | 基于功能/属性和从用户生成的文本中提取的情感,可以构造一个混合推荐系统。<ref name=":0">Jakob, Niklas, et al. "Beyond the stars: exploiting free-text user reviews to improve the accuracy of movie recommendations." ''Proceedings of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion''. ACM, 2009.</ref> 向用户推荐候选商品的动机有两种。第一种动力是候选商品与用户偏好商品具有许多共同特征,<ref name=":36">{{cite journal|first1=Hu|last1=Minqing|first2=Bing|last2=Liu|title=Mining opinion features in customer reviews|journal=AAAI|volume=4|issue=4|year=2004|url=https://pdfs.semanticscholar.org/ee6c/726b55c66d4c222556cfae62a4eb69aa86b7.pdf|archive-url=https://web.archive.org/web/20180524004041/https://pdfs.semanticscholar.org/ee6c/726b55c66d4c222556cfae62a4eb69aa86b7.pdf|url-status=dead|archive-date=2018-05-24}}</ref>第二种动机是候选商品在其特征上获得了高度的情感评价。对于一个偏好商品来说,有理由相信具有相同特性的商品将具有类似的功能或实用性。因此,这些商品也将有可能被用户所青睐。另一方面,对于两个候选商品的共同特征,其他用户可能给予其中一个正面的评价,而给予另一个负面的评价。显然,应该向用户推荐评价较高的商品。基于这两种动机,可以为每个候选商品建立相似度和情感评分的组合排序评分。<ref name=":0" /> |
− |
| |
| | | |
| | | |
第464行: |
第472行: |
| | | |
| Lamba和Madhusudhan<ref name=":39">{{cite journal |last1=Lamba |first1=Manika |last2=Madhusudhan |first2=Margam |title=Application of sentiment analysis in libraries to provide temporal information service: a case study on various facets of productivity |journal=Social Network Analysis and Mining |year=2018 |volume=8 |issue=1|pages=1–12|doi=10.1007/s13278-018-0541-y}}</ref>介绍了一种新的方法,即通过重新打包Twitter等社交媒体平台的情感分析结果,并以不同的形式提供基于时间的综合服务,来满足当今图书馆用户的信息需求。此外,他们还提出了一种利用社交媒体挖掘和情感分析在图书馆进行营销的新方法。 | | Lamba和Madhusudhan<ref name=":39">{{cite journal |last1=Lamba |first1=Manika |last2=Madhusudhan |first2=Margam |title=Application of sentiment analysis in libraries to provide temporal information service: a case study on various facets of productivity |journal=Social Network Analysis and Mining |year=2018 |volume=8 |issue=1|pages=1–12|doi=10.1007/s13278-018-0541-y}}</ref>介绍了一种新的方法,即通过重新打包Twitter等社交媒体平台的情感分析结果,并以不同的形式提供基于时间的综合服务,来满足当今图书馆用户的信息需求。此外,他们还提出了一种利用社交媒体挖掘和情感分析在图书馆进行营销的新方法。 |
| + | |
| | | |
| ==参阅== | | ==参阅== |
第470行: |
第479行: |
| * 市场情感 | | * 市场情感 |
| * 文体学 | | * 文体学 |
| + | |
| | | |
| ==参考文献== | | ==参考文献== |
| {{Reflist|30em}} | | {{Reflist|30em}} |
− |
| |
− | {{DEFAULTSORT:Sentiment Analysis}}
| |
− | [[Category:Natural language processing]]
| |
− | [[Category:Affective computing]]
| |
− | [[Category:Social media]]
| |
− | [[Category:Polling]]
| |
− | [[Category:待整理页面]]
| |
− |
| |
| | | |
| | | |