基于互联网的情感词库扩展与优化研究

基于互联网的情感词库扩展与优化研究

论文摘要

随着网络科技的发展,互联网已经成为一种重要的咨询工具,但是面对海量的互联网数据,如何快速准确的挖掘观点数据成为一种挑战,而观点数据对于政府、企业和个人均具有非常重要的价值。正是这样的挑战与需求推动了情感分析的研究与发展。情感分析分为词汇级、句子级和篇章级的情感分析,其中词汇级别的情感分析是重要基础,本文以词汇级别的情感分析作为研究重点,基于网络背景研究情感词库的扩展和优化。首先,在通用情感词抽取方面本文提出了基于网络语料的词汇情感分类的方法,将情感词的抽取转化为词汇的情感分类问题,通过分析情感词特征,利用最大熵分类器对情感词分类,定义正、负、客观三种情感类别;利用搜索引擎检索获取词汇无标注语料,从大量的语料中抽取丰富的词汇特征;通过实验选择词汇情感分类的最佳特征组合。实验表明,选择前后词作为特征对分类最有效,该特征选择方式实质上包括了修饰和搭配两种语言现象,在最佳特征组合下的情感分类性能达到了95.9%的正确率。其次,在领域情感词扩展和优化方面,分别研究了情感词搭配抽取和倾向性词串抽取两部分内容。在情感词搭配抽取部分,本文提出了互信息框架和模板框架两种抽取框架,包括三种抽取方法,分别是基于互信息的搭配抽取、基于字符串模板的搭配抽取和基于句法树模板的搭配抽取,实验表明在较小规模的语料中,基于模板框架的情感词搭配抽取方法更加有效。最后是倾向性词串的抽取。在目前的研究中,情感表达的基本元素通常是单词,但在研究网络产品评价情感倾向性分析中,发现部分评价句中的评价表达基本元素是一个词串,所以本文将倾向性词串抽取作为研究的重点内容之一。本文采用句法子树生成词串,然后利用C-value值对候选词串进行粒度筛选,并提出了基于句子内部情感元素互斥假设的排斥过滤法,利用该方法提纯倾向性词串,最后通过基于网络标注语料和搜索引擎检索两种方式判断词串的倾向性。并通过实验分析了各方法的有效性和优缺点。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 情感分析研究背景
  • 1.3 情感本体研究背景
  • 1.4 本课题的提出
  • 1.5 章节安排
  • 第2章 情感词库定义
  • 2.1 情感分类
  • 2.2 HowNet情感词库介绍
  • 2.3 WordNet情感词库介绍
  • 2.4 本文情感词库定义
  • 2.5 情感词库构建
  • 2.6 本章小结
  • 第3章 通用情感词自动获取
  • 3.1 基于网络语料的词汇情感分类
  • 3.2 情感词汇特征分析
  • 3.2.1 词性特征
  • 3.2.2 修饰特征
  • 3.2.3 搭配特征
  • 3.2.4 句型特征
  • 3.2.5 词汇特征
  • 3.3 特征选取
  • 3.4 基于搜集引擎的语料构建
  • 3.5 基于最大熵的情感词自动获取
  • 3.5.1 最大熵模型介绍
  • 3.5.2 最大熵模型向量表示
  • 3.6 本章小结
  • 第4章 情感词汇的领域扩展
  • 4.1 问题分析
  • 4.2 基于互信息框架的搭配抽取
  • 4.2.1 系统介绍
  • 4.2.2 互信息介绍
  • 4.2.3 抽取候选搭配
  • 4.2.4 搭配倾向性判断
  • 4.3 基于模板框架的搭配抽取
  • 4.3.1 系统介绍
  • 4.3.2 种子搭配的构建
  • 4.3.3 搭配模板的定义
  • 4.3.4 基于字符串模板生成
  • 4.3.5 基于句法树模板生成
  • 4.3.6 模板信任度
  • 4.3.7 搭配抽取与情感判定
  • 4.4 倾向性词串的抽取
  • 4.4.1 倾向性词串抽取
  • 4.4.2 倾向性词串极性判断
  • 4.5 本章小结
  • 第5章 实验及结果分析
  • 5.1 基于最大熵的通用情感词抽取
  • 5.1.1 实验步骤
  • 5.1.2 评价方法
  • 5.1.3 实验结果
  • 5.1.4 实验分析
  • 5.2 情感词汇的领域扩展
  • 5.2.1 评价方法
  • 5.2.2 抽取语料介绍
  • 5.2.3 情感搭配抽取实验
  • 5.2.4 情感词串抽取实验
  • 5.3 本章小结
  • 第6章 总结与展望
  • 6.1 工作总结
  • 6.2 未来工作
  • 参考文献
  • 致谢
  • 攻读硕士学位期间参加的科研项目
  • 相关论文文献

    • [1].基于注意力机制的评论情感分析及情感词检测[J]. 计算机科学 2020(01)
    • [2].基于“属性-情感词”汽车本体的文本情感分析[J]. 计算机技术与发展 2020(08)
    • [3].基于分类的微博新情感词抽取方法和特征分析[J]. 计算机学报 2018(07)
    • [4].音乐对情感词加工的情感意义双启动效应[J]. 北方音乐 2014(10)
    • [5].基于语义分析的评价对象-情感词对抽取[J]. 计算机学报 2017(03)
    • [6].情感词信息加工的脑神经认知机制研究[J]. 西北民族大学学报(自然科学版) 2015(03)
    • [7].基于特征选择技术的情感词权重计算[J]. 北京工业大学学报 2016(01)
    • [8].情感词扩展对微博情感分类性能影响的实验分析[J]. 小型微型计算机系统 2016(05)
    • [9].结合情感词网的中文短文本情感分类[J]. 计算机应用研究 2015(10)
    • [10].单词统计特性在情感词自动抽取和商品评论分类中的作用[J]. 计算机应用研究 2019(03)
    • [11].基于句法依赖规则和词性特征的情感词识别研究[J]. 情报理论与实践 2018(05)
    • [12].基于词语相关度的微博新情感词自动识别[J]. 计算机应用 2016(02)
    • [13].网络商品评论的特征–情感词本体构建与情感分析方法研究[J]. 现代图书情报技术 2014(05)
    • [14].基于耦合关系的情感词语义分析方法[J]. 计算机科学与探索 2014(09)
    • [15].音乐对情感词加工的情感/意义双启动效应[J]. 心理科学 2013(03)
    • [16].基于依存关联分析的情感词扩展[J]. 北京邮电大学学报 2012(05)
    • [17].网络情感词自动识别方法研究[J]. 现代图书情报技术 2011(10)
    • [18].基于关联规则挖掘和极性分析的商品评论情感词典构建[J]. 情报学报 2016(05)
    • [19].结合依存关联分析和规则统计分析的情感词库构建方法[J]. 武汉大学学报(理学版) 2013(05)
    • [20].基于翻译和语义方法的情感词挖掘研究[J]. 计算机工程与应用 2011(32)
    • [21].基于句法结构和依存关系的评价对象提取[J]. 计算机应用研究 2020(04)
    • [22].基于领域情感词库的大气质量感知满意度研究[J]. 环境污染与防治 2020(09)
    • [23].基于词间距和点互信息的影评情感词库构建[J]. 阜阳师范学院学报(自然科学版) 2019(02)
    • [24].中小学藏文教材中情感词的分布规律研究[J]. 电脑知识与技术 2016(06)
    • [25].基于情感词属性和云模型的文本情感分类方法[J]. 计算机工程 2013(12)
    • [26].领域情感词典构建方法研究[J]. 图书馆理论与实践 2019(12)
    • [27].基于情感词向量的微博情感分类[J]. 中文信息学报 2017(03)
    • [28].基于上下文的情感词向量混合模型[J]. 计算机科学 2020(S2)
    • [29].中文基础情感词词典构建方法研究[J]. 计算机应用 2009(10)
    • [30].二语情感抽象概念加工的具身认知研究[J]. 宁波大学学报(人文科学版) 2020(06)

    标签:;  ;  ;  ;  ;  

    基于互联网的情感词库扩展与优化研究
    下载Doc文档

    猜你喜欢