文本情感分析(SentIMent Analysis),又称意见挖掘
目录
- 1.什么是文本情感分析2.文本情感分析的研究内容3.文本情感分析的研究任务4.参考文献
什么是文本情感分析
文本情感分析,是指通过计算技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。
简单而言,文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。最初的情感分析源自前人对带有情感色彩的词语的分析,如“美好"是带有褒义色彩的词语,“丑陋”是带有贬义色彩的词语。随着互联网上大量的带有情感色彩的主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。
文本情感分析的研究内容
文本情感分析首先需要对文本来源进行处理,对网络文本进行主客观分类。网络文本信息可以广义地分成两种类型:客观性文本和主观性文本:
- 客观性文本就是我们对于实体、事件以及它们属性的客观性陈述
- 主观性文本通常是我们对于实体、事件以及它们属性的主观性评价,包含着丰富的主观性的意见、情感观点和态度等。
主客观分类从主客观混合的文本中将描述事实的客观性文本与表达意见的主观性文本区分开来,将主观语言的文本抽取出来过滤掉不带情感色彩的文本。这一阶段研究的主要目的是为文本情感极性分析提供主观性文本。
文本情感分析的下一步是对主观性文本的分析,主要包括文本情感极性分析和文本情感极性强度分析。
- 情感极性分析的任务就是识别主观文本的情感极性。情感极性分为两极即正面( Positive)的赞赏和肯定、负面( Negative)的批评与否定,也有一些学者在正面和负面之间加入了中性( Neutra)。
- 情感极性强度分析就是判定主观文本情感极性强度比如强烈贬抑、一般贬抑、客观。一般褒扬、强烈褒扬五个类别。
按照文本的颗粒度,文本情感分析可以划分为针对文本中的词、句子、篇章三个级别的识别与分析。
- 词的情感分析是文本情感分析的基础,它既是判定文本情感的基础又是句子和篇章情感分析的前提。基于词的情感分析研究主要有情感词抽取、情感词判定、语料库与情感词典的研究等。
- 句子的情感分析是文本情感分析的核心:一方面,它综合了情感词的分析结果给出全句的情感分析的完整结果;另一方面句子可以视为短篇章子的情感分析的结果在很大程度上决定了篇章的情感分析结果。
- 篇章的情感分析是最不确定性的研究,因为需要综合篇章的各个粒度下的情感分析结果,结合上下文和领域知识库做出判断。
文本情感分析的研究任务
情感分析涉及多项非常有挑战性的研究任务,大致可将情感分析归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳。
- 情感信息抽取
情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元,其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务。
情感信息抽取旨在抽取情感文本中有价值的情感信息,它可以看作情感分析的基础任务。i一直以来,学术界对它兴趣不减。纵观目前的研究现状,有价值的情感信息单元主要有评价词语(如优秀、好用),评价对象(如GPS、屏幕分辨率)、观点持有者(如国家政府、台湾当局)等,在对大量的情感文本进行分析之后,不少研究者发现,某些组合搭配对于情感分析的上层任务,如情感信息分类以及情感信息的检索与归纳有更直接的帮助,如评价搭配(评价对象和评价词语的搭配,如屏幕分辨率-高)、评价短语(程度副词及其修饰的评价词语的搭配,如不怎么-好)等。
- 情感信息分类
情感信息分类则利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬两类或者其他更细致的情感类别(如喜、怒、哀、乐等)。按照不同的分类目的,可分为主客观分析和褒贬分析;按照不同的分类粒度,可分为词语级、短语级、篇章级等多种情感分类任务。
情感信息的分类任务可大致分为两种:一种是主、客观信息的二元分类;另一种是主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类。
- 情感信息的检索与归纳
最高层的情感信息的检索与归纳可以看作与用户直接交互的接口,着重强调检索和归纳两项应用。该层次的研究主要在前两项任务即情感信息抽取和分类的结果的基础上进行进一步的加工处理。
情感分析是一项以应用为导向的研究课题,然而,情感信息抽取和分类后,呈现的结果并不是用户所能直接使用的,经过大量的调研我们发现,情感分析技术与用户的交互主要集中于情感信息检索和情感信息归纳两项任务上。其中,情感信息检索旨在为用户检索出主题相关,且包含情感信息的文档,情感信息归纳则针对大量主题相关的情感文档,自动分析和归纳整理出情感分析结果提供给用户参考,以节省用户翻阅相关文档的时间。因此,情感信息归纳可以看作是情感信息检索结果的一个深入加工。
发表评论