情绪是一个非常主观的事情。不同的读者在阅读同一篇文章时可能会有不同的反应。以往的研究表明,不同人对文本情感的典型认同低于 85%。根据我们自己的经验,这个数字对于更复杂的话题甚至更低。例如,在我们的一个项目中,分析社交媒体的用户对股票交易的看法,参与者之间达成共识的仅仅占不到 65%。由于任何自动化情感分析引擎的准确性都是相对于人为判断(所谓的黄金标准)进行衡量的,因此重要的是要根据多个注释者相互同意的标注数据进行衡量,而不是仅依赖唯一的注释者;同样重要的是:85%(即人类情感共识水平)通常被认为是任何自动化情绪分析引擎的准确性的理论上限。针对一个小型封闭的测试数据集,或者基于一个人的判断,引擎可以达到高于 85% 甚至 90% 的情感分析准确度。然而,在针对开放领域数据的时候,任何超过 90% 分析准确率的说法都更像是幻想,而不具有现实性。 | 情绪是一个非常主观的事情。不同的读者在阅读同一篇文章时可能会有不同的反应。以往的研究表明,不同人对文本情感的典型认同低于 85%。根据我们自己的经验,这个数字对于更复杂的话题甚至更低。例如,在我们的一个项目中,分析社交媒体的用户对股票交易的看法,参与者之间达成共识的仅仅占不到 65%。由于任何自动化情感分析引擎的准确性都是相对于人为判断(所谓的黄金标准)进行衡量的,因此重要的是要根据多个注释者相互同意的标注数据进行衡量,而不是仅依赖唯一的注释者;同样重要的是:85%(即人类情感共识水平)通常被认为是任何自动化情绪分析引擎的准确性的理论上限。针对一个小型封闭的测试数据集,或者基于一个人的判断,引擎可以达到高于 85% 甚至 90% 的情感分析准确度。然而,在针对开放领域数据的时候,任何超过 90% 分析准确率的说法都更像是幻想,而不具有现实性。 |