更改

删除267字节 、 2021年8月25日 (三) 14:46
无编辑摘要
第58行: 第58行:  
{{cite conference
 
{{cite conference
 
  | first1 = Bo | last1 = Pang
 
  | first1 = Bo | last1 = Pang
  | first2 = Lillian | last2 = Lee | author2-link = Lillian Lee (computer scientist)
+
  | first2 = Lillian | last2 = Lee
 
  | first3 = Shivakumar | last3 = Vaithyanathan
 
  | first3 = Shivakumar | last3 = Vaithyanathan
 
  | title = Thumbs up? Sentiment Classification using Machine Learning Techniques
 
  | title = Thumbs up? Sentiment Classification using Machine Learning Techniques
第112行: 第112行:       −
另一种不同的识别情感的方法是使用一个量表系统,在这个系统中负面、中性和正面相关的词语被赋予了-10到+10的取值,代表着从最负面到最正面,或者是简单地从0到正面的上限,如+4。这使得我们能够根据环境(通常是在句子语境的层次上)调整特定语言的情感极性程度。当使用自然语言处理对一段非结构化文本进行分析时,基于情感词与概念的关联方式及其相关分数,对指定环境中的每个概念进行评分。<ref name=":7">{{Cite journal|last1=Taboada|first1=Maite|last2=Brooke|first2=Julian|date=2011|title=Lexicon-based methods for sentiment analysis|url=http://dl.acm.org/citation.cfm?id=2000518|journal=Computational Linguistics |volume=37 |issue=2 |pages=272–274|doi=10.1162/coli_a_00049|citeseerx=10.1.1.188.5517|s2cid=3181362}}</ref><ref name=":8">{{Cite journal|last1=Augustyniak|first1=Łukasz|last2=Szymański|first2=Piotr|last3=Kajdanowicz|first3=Tomasz|last4=Tuligłowicz|first4=Włodzimierz|date=2015-12-25|title=Comprehensive Study on Lexicon-based Ensemble Classification Sentiment Analysis|journal=Entropy|language=en|volume=18|issue=1|pages=4|doi=10.3390/e18010004|bibcode=2015Entrp..18....4A|doi-access=free}}</ref><ref name=":9">{{Cite journal|last1=Mehmood|first1=Yasir|last2=Balakrishnan|first2=Vimala|date=2020-01-01|title=An enhanced lexicon-based approach for sentiment analysis: a case study on illegal immigration|url=https://doi.org/10.1108/OIR-10-2018-0295|journal=Online Information Review|volume=44|issue=5|pages=1097–1117|doi=10.1108/OIR-10-2018-0295|issn=1468-4527}}</ref>。这使得人们可以对情感有更深入的理解,因为现在依据相周围可能发生的变化调整一个概念的情感程度,例如,强化、缓和或否定概念所表达的情感的词语会影响它的得分。或者,如果目的是确定文本中的情感而不是文本的整体极性和强度,则可以给文本一个正面和负面的情感强度得分。<ref name="SentiStrength2010">
+
另一种不同的识别情感的方法是使用一个量表系统,在这个系统中负面、中性和正面相关的词语被赋予了-10到+10的取值,代表着从最负面到最正面,或者是简单地从0到正面的上限,如+4。这使得我们能够根据环境(通常是在句子语境的层次上)调整特定语言的情感极性程度。当使用自然语言处理对一段非结构化文本进行分析时,基于情感词与概念的关联方式及其相关分数,对指定环境中的每个概念进行评分。<ref name=":7">{{Cite journal|last1=Taboada|first1=Maite|last2=Brooke|first2=Julian|date=2011|title=Lexicon-based methods for sentiment analysis|url=http://dl.acm.org/citation.cfm?id=2000518|journal=Computational Linguistics |volume=37 |issue=2 |pages=272–274|doi=10.1162/coli_a_00049|citeseerx=10.1.1.188.5517}}</ref><ref name=":8">{{Cite journal|last1=Augustyniak|first1=Łukasz|last2=Szymański|first2=Piotr|last3=Kajdanowicz|first3=Tomasz|last4=Tuligłowicz|first4=Włodzimierz|date=2015-12-25|title=Comprehensive Study on Lexicon-based Ensemble Classification Sentiment Analysis|journal=Entropy|language=en|volume=18|issue=1|pages=4|doi=10.3390/e18010004|bibcode=2015Entrp..18....4A|doi-access=free}}</ref><ref name=":9">{{Cite journal|last1=Mehmood|first1=Yasir|last2=Balakrishnan|first2=Vimala|date=2020-01-01|title=An enhanced lexicon-based approach for sentiment analysis: a case study on illegal immigration|url=https://doi.org/10.1108/OIR-10-2018-0295|journal=Online Information Review|volume=44|issue=5|pages=1097–1117|doi=10.1108/OIR-10-2018-0295|issn=1468-4527}}</ref>。这使得人们可以对情感有更深入的理解,因为现在依据相周围可能发生的变化调整一个概念的情感程度,例如,强化、缓和或否定概念所表达的情感的词语会影响它的得分。或者,如果目的是确定文本中的情感而不是文本的整体极性和强度,则可以给文本一个正面和负面的情感强度得分。<ref name="SentiStrength2010">
 
{{cite journal
 
{{cite journal
 
  | first1 = Mike
 
  | first1 = Mike
第197行: 第197行:       −
每个类别的单词或短语指标集合都是为了在未注释的文本上找到理想的模式而定义的。对于主观表达,已经建立了一个不同的单词列表。Riloff等人(2003)指出,语言学家和自然语言处理领域的多位研究人员已经开发出了单词或短语的主观指标列表。<ref name=":11">{{Cite journal|last1=Riloff|first1=Ellen|last2=Wiebe|first2=Janyce|date=2003-07-11|title=Learning extraction patterns for subjective expressions|journal=Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing|series=EMNLP '03|volume=10|location=USA|publisher=Association for Computational Linguistics|pages=105–112|doi=10.3115/1119355.1119369|s2cid=6541910|doi-access=free}}</ref>必须为测量给定的表达方式创建一个提取规则的字典是非常必要的。多年来,在主观性识别方面,从1999年的手工特征提取发展到了2005年的自动特征学习。<ref name=":12">{{Cite journal|last1=Chaturvedi|first1=Iti|last2=Cambria|first2=Erik|last3=Welsch|first3=Roy E.|last4=Herrera|first4=Francisco|date=November 2018|title=Distinguishing between facts and opinions for sentiment analysis: Survey and challenges|url=https://sentic.net/subjectivity-detection.pdf|journal=Information Fusion|volume=44|pages=65–77|doi=10.1016/j.inffus.2017.12.006|via=Elsevier Science Direct|doi-access=free}}</ref>目前,自动学习方法可以进一步分为监督学习和无监督学习。利用机器学习对文本进行注释和去注释的模式提取方法已经成为学术界研究的热点。
+
每个类别的单词或短语指标集合都是为了在未注释的文本上找到理想的模式而定义的。对于主观表达,已经建立了一个不同的单词列表。Riloff等人(2003)指出,语言学家和自然语言处理领域的多位研究人员已经开发出了单词或短语的主观指标列表。<ref name=":11">{{Cite journal|last1=Riloff|first1=Ellen|last2=Wiebe|first2=Janyce|date=2003-07-11|title=Learning extraction patterns for subjective expressions|journal=Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing|series=EMNLP '03|volume=10|location=USA|publisher=Association for Computational Linguistics|pages=105–112|doi=10.3115/1119355.1119369|doi-access=free}}</ref>必须为测量给定的表达方式创建一个提取规则的字典是非常必要的。多年来,在主观性识别方面,从1999年的手工特征提取发展到了2005年的自动特征学习。<ref name=":12">{{Cite journal|last1=Chaturvedi|first1=Iti|last2=Cambria|first2=Erik|last3=Welsch|first3=Roy E.|last4=Herrera|first4=Francisco|date=November 2018|title=Distinguishing between facts and opinions for sentiment analysis: Survey and challenges|url=https://sentic.net/subjectivity-detection.pdf|journal=Information Fusion|volume=44|pages=65–77|doi=10.1016/j.inffus.2017.12.006|via=Elsevier Science Direct|doi-access=free}}</ref>目前,自动学习方法可以进一步分为监督学习和无监督学习。利用机器学习对文本进行注释和去注释的模式提取方法已经成为学术界研究的热点。
       
然而,研究人员认识到在为表达方式分类制定一套固定的规则集方面存在一些挑战。规则开发中的大部分挑战源于文本信息的性质。一些研究人员已经认识到了六个挑战: 1)隐喻性的表达,2)写作中的差异,3)上下文敏感性,4)时间敏感性,5)代表性词用法较少以及6)不断增长的数量。
 
然而,研究人员认识到在为表达方式分类制定一套固定的规则集方面存在一些挑战。规则开发中的大部分挑战源于文本信息的性质。一些研究人员已经认识到了六个挑战: 1)隐喻性的表达,2)写作中的差异,3)上下文敏感性,4)时间敏感性,5)代表性词用法较少以及6)不断增长的数量。
   −
# 隐喻性的表达:文本中包含隐喻性的表达可能会影响抽取的表现。<ref name=":13">{{Cite journal|last1=Wiebe|first1=Janyce|last2=Riloff|first2=Ellen|date=July 2011|title=Finding Mutual Benefit between Subjectivity Analysis and Information Extraction|url=https://ieeexplore.ieee.org/document/5959154|journal=IEEE Transactions on Affective Computing|volume=2|issue=4|pages=175–191|doi=10.1109/T-AFFC.2011.19|s2cid=16820846|issn=1949-3045}}</ref>此外,隐喻可能采取不同的形式,这会增加识别的难度。
+
# 隐喻性的表达:文本中包含隐喻性的表达可能会影响抽取的表现。<ref name=":13">{{Cite journal|last1=Wiebe|first1=Janyce|last2=Riloff|first2=Ellen|date=July 2011|title=Finding Mutual Benefit between Subjectivity Analysis and Information Extraction|url=https://ieeexplore.ieee.org/document/5959154|journal=IEEE Transactions on Affective Computing|volume=2|issue=4|pages=175–191|doi=10.1109/T-AFFC.2011.19|issn=1949-3045}}</ref>此外,隐喻可能采取不同的形式,这会增加识别的难度。
 
# 写作中的差异:对于从互联网上获得的文本,目标文本数据的写作差异涉及不同的写作类型和风格 。
 
# 写作中的差异:对于从互联网上获得的文本,目标文本数据的写作差异涉及不同的写作类型和风格 。
 
# 上下文敏感性:根据前后句的主观性或客观性,分类会有所不同。<ref name=":1">{{Cite journal|last1=Pang|first1=Bo|last2=Lee|first2=Lillian|date=2008-07-06|title=Opinion Mining and Sentiment Analysis|url=https://www.nowpublishers.com/article/Details/INR-011|journal=Foundations and Trends in Information Retrieval|language=en|volume=2|issue=1–2|pages=1–135|doi=10.1561/1500000011|issn=1554-0669}}</ref>
 
# 上下文敏感性:根据前后句的主观性或客观性,分类会有所不同。<ref name=":1">{{Cite journal|last1=Pang|first1=Bo|last2=Lee|first2=Lillian|date=2008-07-06|title=Opinion Mining and Sentiment Analysis|url=https://www.nowpublishers.com/article/Details/INR-011|journal=Foundations and Trends in Information Retrieval|language=en|volume=2|issue=1–2|pages=1–135|doi=10.1561/1500000011|issn=1554-0669}}</ref>
第224行: 第224行:     
# Meta-Bootstrapping(Riloff & Jones,1999)。<ref name=":18">{{Cite journal|last1=Riloff|first1=Ellen|last2=Jones|first2=Rosie|date=July 1999|title=Learning dictionaries for information extraction by multi-level bootstrapping|url=https://aaai.org/Papers/AAAI/1999/AAAI99-068.pdf|journal=AAAI '99/IAAI '99: Proceedings of the Sixteenth National Conference on Artificial Intelligence and the Eleventh Innovative Applications of Artificial Intelligence Conference Innovative Applications of Artificial Intelligence|pages=474–479}}</ref>  第一步: 根据预定义的规则生成提取模式,并根据每个模式所包含的种子词数量生成提取模式。第二步: 将分数排名前5的单词标记并添加到语义字典中。重复上述方法。
 
# Meta-Bootstrapping(Riloff & Jones,1999)。<ref name=":18">{{Cite journal|last1=Riloff|first1=Ellen|last2=Jones|first2=Rosie|date=July 1999|title=Learning dictionaries for information extraction by multi-level bootstrapping|url=https://aaai.org/Papers/AAAI/1999/AAAI99-068.pdf|journal=AAAI '99/IAAI '99: Proceedings of the Sixteenth National Conference on Artificial Intelligence and the Eleventh Innovative Applications of Artificial Intelligence Conference Innovative Applications of Artificial Intelligence|pages=474–479}}</ref>  第一步: 根据预定义的规则生成提取模式,并根据每个模式所包含的种子词数量生成提取模式。第二步: 将分数排名前5的单词标记并添加到语义字典中。重复上述方法。
# Basilisk (Bootstrapping Approach to SemantIc Lexicon inducing using SemantIc Knowledge) (Thelen & Riloff,2002)。<ref name=":19">{{Cite journal|last1=Thelen|first1=Michael|last2=Riloff|first2=Ellen|date=2002-07-06|title=A bootstrapping method for learning semantic lexicons using extraction pattern contexts|journal=Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing - Volume 10|series=EMNLP '02|volume=10|location=USA|publisher=Association for Computational Linguistics|pages=214–221|doi=10.3115/1118693.1118721|s2cid=137155|doi-access=free}}</ref> 第一步: 生成抽取模式;第二步: 将最好的模式从模式池移动到候选种子词池。第三步: 将分数排名前10的单词标记并添加到语义字典中。重复上述方法。
+
# Basilisk (Bootstrapping Approach to SemantIc Lexicon inducing using SemantIc Knowledge) (Thelen & Riloff,2002)。<ref name=":19">{{Cite journal|last1=Thelen|first1=Michael|last2=Riloff|first2=Ellen|date=2002-07-06|title=A bootstrapping method for learning semantic lexicons using extraction pattern contexts|journal=Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing - Volume 10|series=EMNLP '02|volume=10|location=USA|publisher=Association for Computational Linguistics|pages=214–221|doi=10.3115/1118693.1118721|doi-access=free}}</ref> 第一步: 生成抽取模式;第二步: 将最好的模式从模式池移动到候选种子词池。第三步: 将分数排名前10的单词标记并添加到语义字典中。重复上述方法。
      第234行: 第234行:     
* 在线评论分类:在商业行业,分类器帮助公司更好地理解产品的反馈和对评论背后逻辑的推理。
 
* 在线评论分类:在商业行业,分类器帮助公司更好地理解产品的反馈和对评论背后逻辑的推理。
* 股票价格预测:在金融行业,分类器通过处理从社会媒体获得的过程辅助信息和从互联网获得的其他文本信息来辅助预测模型。过去Dong等对日本股票价格的研究表明,带有主观和客观模块的模型可能比没有主客观模块的模型表现更好。<ref name=":21">{{Cite journal|last1=Deng|first1=Shangkun|last2=Mitsubuchi|first2=Takashi|last3=Shioda|first3=Kei|last4=Shimada|first4=Tatsuro|last5=Sakurai|first5=Akito|date=December 2011|title=Combining Technical Analysis with Sentiment Analysis for Stock Price Prediction|url=http://dx.doi.org/10.1109/dasc.2011.138|journal=2011 IEEE Ninth International Conference on Dependable, Autonomic and Secure Computing|pages=800–807|publisher=IEEE|doi=10.1109/dasc.2011.138|isbn=978-1-4673-0006-3|s2cid=15262023}}</ref>
+
* 股票价格预测:在金融行业,分类器通过处理从社会媒体获得的过程辅助信息和从互联网获得的其他文本信息来辅助预测模型。过去Dong等对日本股票价格的研究表明,带有主观和客观模块的模型可能比没有主客观模块的模型表现更好。<ref name=":21">{{Cite journal|last1=Deng|first1=Shangkun|last2=Mitsubuchi|first2=Takashi|last3=Shioda|first3=Kei|last4=Shimada|first4=Tatsuro|last5=Sakurai|first5=Akito|date=December 2011|title=Combining Technical Analysis with Sentiment Analysis for Stock Price Prediction|url=http://dx.doi.org/10.1109/dasc.2011.138|journal=2011 IEEE Ninth International Conference on Dependable, Autonomic and Secure Computing|pages=800–807|publisher=IEEE|doi=10.1109/dasc.2011.138|isbn=978-1-4673-0006-3}}</ref>
 
* 社交媒体分析。
 
* 社交媒体分析。
 
* 学生意见分类。<ref name=":22">{{Cite journal|last1=Nguyen|first1=Kiet Van|last2=Nguyen|first2=Vu Duc|last3=Nguyen|first3=Phu X.V.|last4=Truong|first4=Tham T.H.|last5=Nguyen|first5=Ngan L-T.|date=2018-10-01|title=UIT-VSFC: Vietnamese Students' Feedback Corpus for Sentiment Analysis|url=https://ieeexplore.ieee.org/document/8573337|journal=2018 10th International Conference on Knowledge and Systems Engineering (KSE)|pages=19–24|location=Vietnam|publisher=IEEE|doi=10.1109/KSE.2018.8573337|isbn=978-1-5386-6113-0}}</ref>
 
* 学生意见分类。<ref name=":22">{{Cite journal|last1=Nguyen|first1=Kiet Van|last2=Nguyen|first2=Vu Duc|last3=Nguyen|first3=Phu X.V.|last4=Truong|first4=Tham T.H.|last5=Nguyen|first5=Ngan L-T.|date=2018-10-01|title=UIT-VSFC: Vietnamese Students' Feedback Corpus for Sentiment Analysis|url=https://ieeexplore.ieee.org/document/8573337|journal=2018 10th International Conference on Knowledge and Systems Engineering (KSE)|pages=19–24|location=Vietnam|publisher=IEEE|doi=10.1109/KSE.2018.8573337|isbn=978-1-5386-6113-0}}</ref>
第252行: 第252行:  
  | url = http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
 
  | url = http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
 
}}
 
}}
</ref> 。“功能”或者“属性”是一件实体的某个属性或者组成部分,例如手机的屏幕、参观的服务或者是相机的图像质量等。不同的特征会产生不同的情感反应,比如一个酒店可能有方便的位置,但食物却很普通。<ref name=":14">{{Cite journal|title = Good location, terrible food: detecting feature sentiment in user-generated reviews|journal = Social Network Analysis and Mining|date = 2013-06-22|issn = 1869-5450|pages = 1149–1163|volume = 3|issue = 4|doi = 10.1007/s13278-013-0119-7|first1 = Mario|last1 = Cataldi|first2 = Andrea|last2 = Ballatore|first3 = Ilaria|last3 = Tiddi|first4 = Marie-Aude|last4 = Aufaure|citeseerx = 10.1.1.396.9313|s2cid = 5025282}}</ref>这个问题涉及到若干个子问题,譬如,识别相关的实体,提取它们的功能或属性,然后判断对每个特征/方面表达的意见是正面的、负面的还是中性的。<ref name="LiuHuCheng04">{{cite conference
+
</ref> 。“功能”或者“属性”是一件实体的某个属性或者组成部分,例如手机的屏幕、参观的服务或者是相机的图像质量等。不同的特征会产生不同的情感反应,比如一个酒店可能有方便的位置,但食物却很普通。<ref name=":14">{{Cite journal|title = Good location, terrible food: detecting feature sentiment in user-generated reviews|journal = Social Network Analysis and Mining|date = 2013-06-22|issn = 1869-5450|pages = 1149–1163|volume = 3|issue = 4|doi = 10.1007/s13278-013-0119-7|first1 = Mario|last1 = Cataldi|first2 = Andrea|last2 = Ballatore|first3 = Ilaria|last3 = Tiddi|first4 = Marie-Aude|last4 = Aufaure|citeseerx = 10.1.1.396.9313}}</ref>这个问题涉及到若干个子问题,譬如,识别相关的实体,提取它们的功能或属性,然后判断对每个特征/方面表达的意见是正面的、负面的还是中性的。<ref name="LiuHuCheng04">{{cite conference
 
  | first1 = Bing | last1 = Liu
 
  | first1 = Bing | last1 = Liu
 
  | first2 = Minqing | last2 = Hu | first3 = Junsheng | last3 = Cheng
 
  | first2 = Minqing | last2 = Hu | first3 = Junsheng | last3 = Cheng
第260行: 第260行:  
  | url = http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
 
  | url = http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
 
}}
 
}}
</ref> 特征的自动识别可以通过语法方法、主题建模<ref name=":15">{{Cite book|title = Constrained LDA for Grouping Product Features in Opinion Mining|publisher = Springer Berlin Heidelberg|date = 2011-01-01|isbn = 978-3-642-20840-9|pages = 448–459|series = Lecture Notes in Computer Science|doi = 10.1007/978-3-642-20841-6_37|first1 = Zhongwu|last1 = Zhai|first2 = Bing|last2 = Liu|first3 = Hua|last3 = Xu|first4 = Peifa|last4 = Jia|editor-first = Joshua Zhexue|editor-last = Huang|editor-first2 = Longbing|editor-last2 = Cao|editor-first3 = Jaideep|editor-last3 = Srivastava|citeseerx = 10.1.1.221.5178}}</ref><ref name=":16">{{Cite book|title = Modeling Online Reviews with Multi-grain Topic Models|publisher = ACM|journal = Proceedings of the 17th International Conference on World Wide Web|date = 2008-01-01|location = New York, NY, USA|isbn = 978-1-60558-085-2|pages = 111–120|series = WWW '08|doi = 10.1145/1367497.1367513|first1 = Ivan|last1 = Titov|first2 = Ryan|last2 = McDonald|arxiv = 0801.1063|s2cid = 13609860}}</ref>或深度学习来实现。<ref name="Poria">{{cite journal
+
</ref> 特征的自动识别可以通过语法方法、主题建模<ref name=":15">{{Cite book|title = Constrained LDA for Grouping Product Features in Opinion Mining|publisher = Springer Berlin Heidelberg|date = 2011-01-01|isbn = 978-3-642-20840-9|pages = 448–459|series = Lecture Notes in Computer Science|doi = 10.1007/978-3-642-20841-6_37|first1 = Zhongwu|last1 = Zhai|first2 = Bing|last2 = Liu|first3 = Hua|last3 = Xu|first4 = Peifa|last4 = Jia|editor-first = Joshua Zhexue|editor-last = Huang|editor-first2 = Longbing|editor-last2 = Cao|editor-first3 = Jaideep|editor-last3 = Srivastava|citeseerx = 10.1.1.221.5178}}</ref><ref name=":16">{{Cite book|title = Modeling Online Reviews with Multi-grain Topic Models|publisher = ACM|journal = Proceedings of the 17th International Conference on World Wide Web|date = 2008-01-01|location = New York, NY, USA|isbn = 978-1-60558-085-2|pages = 111–120|series = WWW '08|doi = 10.1145/1367497.1367513|first1 = Ivan|last1 = Titov|first2 = Ryan|last2 = McDonald|arxiv = 0801.1063}}</ref>或深度学习来实现。<ref name="Poria">{{cite journal
 
  | first = Soujanya | last = Poria | display-authors=etal
 
  | first = Soujanya | last = Poria | display-authors=etal
 
  | title = Aspect extraction for opinion mining with a deep convolutional neural network
 
  | title = Aspect extraction for opinion mining with a deep convolutional neural network
第305行: 第305行:  
  | doi=10.1109/MIS.2013.30
 
  | doi=10.1109/MIS.2013.30
 
  | citeseerx = 10.1.1.688.1384
 
  | citeseerx = 10.1.1.688.1384
| s2cid = 12104996
   
  }}
 
  }}
 
</ref>基于知识的技术根据明确的情感词(如快乐、悲伤、害怕和无聊)的存在对文本进行分类。<ref name="Ortony">
 
</ref>基于知识的技术根据明确的情感词(如快乐、悲伤、害怕和无聊)的存在对文本进行分类。<ref name="Ortony">
第340行: 第339行:  
| pmid = 18183921
 
| pmid = 18183921
 
  | doi=10.3758/bf03192999
 
  | doi=10.3758/bf03192999
| s2cid = 6673690
   
  | doi-access = free
 
  | doi-access = free
 
  }}
 
  }}
第473行: 第471行:       −
在许多社交网络服务或电子商务网站,用户可以对商品提供文本评论、意见或反馈。这些用户生成的文本提供了丰富的用户对众多产品和商品的情感意见。对于一个商品而言,这样的文本可以同时显示商品的相关功能/属性以及用户对每个特性的看法。<ref name=":35">{{cite journal|url=https://pdfs.semanticscholar.org/8f1b/9b97183b8aa2caa0fb6c9563b14daabe8316.pdf|archive-url=https://web.archive.org/web/20180524004208/https://pdfs.semanticscholar.org/8f1b/9b97183b8aa2caa0fb6c9563b14daabe8316.pdf|url-status=dead|archive-date=2018-05-24|first1=Huifeng|last1=Tang|first2=Songbo|last2=Tan|first3=Xueqi|last3=Cheng|title=A survey on sentiment detection of reviews|journal=Expert Systems with Applications|volume=36|issue=7|year=2009|pages=10760–10773|doi=10.1016/j.eswa.2009.02.063|s2cid=2178380}}</ref>在基于内容的过滤中,文本中描述的商品的功能/属性与元数据起着同样的作用,但前者对推荐系统更有价值。由于用户在评论中广泛提到这些特性,它们可以被视为能够显著影响用户对产品的体验的最关键的特性,而产品的元数据(通常由生产者而不是消费者提供)则可能忽略用户关心的特性。对于具有共同特征的不同商品,用户可能会有不同的情感意见。而且,同一个商品的不同特性也可能会得到不同用户不同的情感意见。用户对特征的情感可以看作是一个多维度的评分分值,它反映了用户对商品的偏好。
+
在许多社交网络服务或电子商务网站,用户可以对商品提供文本评论、意见或反馈。这些用户生成的文本提供了丰富的用户对众多产品和商品的情感意见。对于一个商品而言,这样的文本可以同时显示商品的相关功能/属性以及用户对每个特性的看法。<ref name=":35">{{cite journal|url=https://pdfs.semanticscholar.org/8f1b/9b97183b8aa2caa0fb6c9563b14daabe8316.pdf|archive-url=https://web.archive.org/web/20180524004208/https://pdfs.semanticscholar.org/8f1b/9b97183b8aa2caa0fb6c9563b14daabe8316.pdf|url-status=dead|archive-date=2018-05-24|first1=Huifeng|last1=Tang|first2=Songbo|last2=Tan|first3=Xueqi|last3=Cheng|title=A survey on sentiment detection of reviews|journal=Expert Systems with Applications|volume=36|issue=7|year=2009|pages=10760–10773|doi=10.1016/j.eswa.2009.02.063}}</ref>在基于内容的过滤中,文本中描述的商品的功能/属性与元数据起着同样的作用,但前者对推荐系统更有价值。由于用户在评论中广泛提到这些特性,它们可以被视为能够显著影响用户对产品的体验的最关键的特性,而产品的元数据(通常由生产者而不是消费者提供)则可能忽略用户关心的特性。对于具有共同特征的不同商品,用户可能会有不同的情感意见。而且,同一个商品的不同特性也可能会得到不同用户不同的情感意见。用户对特征的情感可以看作是一个多维度的评分分值,它反映了用户对商品的偏好。
      −
基于功能/属性和从用户生成的文本中提取的情感,可以构造一个混合推荐系统。<ref name=":0">Jakob, Niklas, et al. "Beyond the stars: exploiting free-text user reviews to improve the accuracy of movie recommendations." ''Proceedings of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion''. ACM, 2009.</ref> 向用户推荐候选商品的动机有两种。第一种动力是候选商品与用户偏好商品具有许多共同特征,<ref name=":36">{{cite journal|first1=Hu|last1=Minqing|first2=Bing|last2=Liu|title=Mining opinion features in customer reviews|journal=AAAI|volume=4|issue=4|year=2004|s2cid=5724860|url=https://pdfs.semanticscholar.org/ee6c/726b55c66d4c222556cfae62a4eb69aa86b7.pdf|archive-url=https://web.archive.org/web/20180524004041/https://pdfs.semanticscholar.org/ee6c/726b55c66d4c222556cfae62a4eb69aa86b7.pdf|url-status=dead|archive-date=2018-05-24}}</ref>第二种动机是候选商品在其特征上获得了高度的情感评价。对于一个偏好商品来说,有理由相信具有相同特性的商品将具有类似的功能或实用性。因此,这些商品也将有可能被用户所青睐。另一方面,对于两个候选商品的共同特征,其他用户可能给予其中一个正面的评价,而给予另一个负面的评价。显然,应该向用户推荐评价较高的商品。基于这两种动机,可以为每个候选商品建立相似度和情感评分的组合排序评分。<ref name=":0" />
+
基于功能/属性和从用户生成的文本中提取的情感,可以构造一个混合推荐系统。<ref name=":0">Jakob, Niklas, et al. "Beyond the stars: exploiting free-text user reviews to improve the accuracy of movie recommendations." ''Proceedings of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion''. ACM, 2009.</ref> 向用户推荐候选商品的动机有两种。第一种动力是候选商品与用户偏好商品具有许多共同特征,<ref name=":36">{{cite journal|first1=Hu|last1=Minqing|first2=Bing|last2=Liu|title=Mining opinion features in customer reviews|journal=AAAI|volume=4|issue=4|year=2004|url=https://pdfs.semanticscholar.org/ee6c/726b55c66d4c222556cfae62a4eb69aa86b7.pdf|archive-url=https://web.archive.org/web/20180524004041/https://pdfs.semanticscholar.org/ee6c/726b55c66d4c222556cfae62a4eb69aa86b7.pdf|url-status=dead|archive-date=2018-05-24}}</ref>第二种动机是候选商品在其特征上获得了高度的情感评价。对于一个偏好商品来说,有理由相信具有相同特性的商品将具有类似的功能或实用性。因此,这些商品也将有可能被用户所青睐。另一方面,对于两个候选商品的共同特征,其他用户可能给予其中一个正面的评价,而给予另一个负面的评价。显然,应该向用户推荐评价较高的商品。基于这两种动机,可以为每个候选商品建立相似度和情感评分的组合排序评分。<ref name=":0" />
         −
除了情感分析本身的困难之外,对评论或反馈进行情感分析还面临着垃圾评论和有偏见的评论的挑战。其中一个工作方向是评估每条评论的有用性,<ref name=":37">{{cite book|first1=Yang|last1=Liu|first2=Xiangji|last2=Huang|first3=Aijun|last3=An|first4=Xiaohui|last4=Yu|chapter-url=http://www.yorku.ca/xhyu/papers/ICDM2008.pdf|chapter=Modeling and predicting the helpfulness of online reviews|year=2008|title=ICDM'08. Eighth IEEE international conference on Data mining|pages=443–452|publisher= IEEE|doi=10.1109/ICDM.2008.94|isbn=978-0-7695-3502-9|s2cid=18235238}}</ref>因为粗劣的评论或反馈对推荐系统几乎没有任何帮助。此外,评论可能被刻意设计成阻碍目标产品销售,因此即使它写得很好也会对推荐系统造成伤害。
+
除了情感分析本身的困难之外,对评论或反馈进行情感分析还面临着垃圾评论和有偏见的评论的挑战。其中一个工作方向是评估每条评论的有用性,<ref name=":37">{{cite book|first1=Yang|last1=Liu|first2=Xiangji|last2=Huang|first3=Aijun|last3=An|first4=Xiaohui|last4=Yu|chapter-url=http://www.yorku.ca/xhyu/papers/ICDM2008.pdf|chapter=Modeling and predicting the helpfulness of online reviews|year=2008|title=ICDM'08. Eighth IEEE international conference on Data mining|pages=443–452|publisher= IEEE|doi=10.1109/ICDM.2008.94|isbn=978-0-7695-3502-9}}</ref>因为粗劣的评论或反馈对推荐系统几乎没有任何帮助。此外,评论可能被刻意设计成阻碍目标产品销售,因此即使它写得很好也会对推荐系统造成伤害。
      −
研究人员还发现,应该用不同的方法处理用户生成的长文本和短文本。一个有趣的结果表明,短形式的评论有时比长形式的评论更有帮助,<ref name=":38">{{cite book|doi=10.1145/1871437.1871741|last1=Bermingham|first1=Adam|last2=Smeaton|first2=Alan F.|title=Classifying sentiment in microblogs: is brevity an advantage?|journal=Proceedings of the 19th ACM International Conference on Information and Knowledge Management|pages=1833|year=2010|isbn=9781450300995|s2cid=2084603|url=http://doras.dcu.ie/15663/1/cikm1079-bermingham.pdf}}</ref>因为它更容易过滤掉短形式文本中的干扰。对于长文本而言,文本长度的增长并不总是带来文本中特征或情感数量的相应增加。
+
研究人员还发现,应该用不同的方法处理用户生成的长文本和短文本。一个有趣的结果表明,短形式的评论有时比长形式的评论更有帮助,<ref name=":38">{{cite book|doi=10.1145/1871437.1871741|last1=Bermingham|first1=Adam|last2=Smeaton|first2=Alan F.|title=Classifying sentiment in microblogs: is brevity an advantage?|journal=Proceedings of the 19th ACM International Conference on Information and Knowledge Management|pages=1833|year=2010|isbn=9781450300995|url=http://doras.dcu.ie/15663/1/cikm1079-bermingham.pdf}}</ref>因为它更容易过滤掉短形式文本中的干扰。对于长文本而言,文本长度的增长并不总是带来文本中特征或情感数量的相应增加。
      −
Lamba和Madhusudhan<ref name=":39">{{cite journal |last1=Lamba |first1=Manika |last2=Madhusudhan |first2=Margam |title=Application of sentiment analysis in libraries to provide temporal information service: a case study on various facets of productivity |journal=Social Network Analysis and Mining |year=2018 |volume=8 |issue=1|pages=1–12|doi=10.1007/s13278-018-0541-y |s2cid=53047128 }}</ref>介绍了一种新的方法,即通过重新打包Twitter等社交媒体平台的情感分析结果,并以不同的形式提供基于时间的综合服务,来满足当今图书馆用户的信息需求。此外,他们还提出了一种利用社交媒体挖掘和情感分析在图书馆进行营销的新方法。
+
Lamba和Madhusudhan<ref name=":39">{{cite journal |last1=Lamba |first1=Manika |last2=Madhusudhan |first2=Margam |title=Application of sentiment analysis in libraries to provide temporal information service: a case study on various facets of productivity |journal=Social Network Analysis and Mining |year=2018 |volume=8 |issue=1|pages=1–12|doi=10.1007/s13278-018-0541-y}}</ref>介绍了一种新的方法,即通过重新打包Twitter等社交媒体平台的情感分析结果,并以不同的形式提供基于时间的综合服务,来满足当今图书馆用户的信息需求。此外,他们还提出了一种利用社交媒体挖掘和情感分析在图书馆进行营销的新方法。
    
==参阅==
 
==参阅==
1,068

个编辑