文本情感分析的若干关键问题研究

文本情感分析的若干关键问题研究

论文摘要

随着Web2.0的兴起与普及,网络文本内容激增,针对文本的情感分析是目前文本挖掘领域的研究热点,可归属于文本分类问题。本文采用机器学习的方法,针对文本不同粒度的极性分类、情感分类以及针对主题检索中的查询构建进行有益的尝试,取得了如下成果:(1)本文提出了一种基于CRF的词语级中文情感倾向分类模型,从“喜、怒、哀、惧”四类分别对情感词的活跃度进行量化。本文主要关注文本分类中的特征选择问题及基于CRF的分类模型,对词的词性、句法分析、否定词、转折词、程度词特征和位置信息的使用进行了分析,基于COAE评测语料的实验结果证明了此方法在分类的准确率和召回率方面的有效性。(2)本文提出了一种基于最大熵的句子级中文情感极性分类模型,最终得到正倾向、负倾向、客观三类句子。本文关注词汇的Unigram特征、Bigram特征、否定词特征和程度词特征以及权值计算的比较,基于COAE评测语料的实验结果证明了此方法在分类的准确率和召回率方面的有效性。(3)情感分析技术与检索技术紧密相关,本文提出了一种基于CRF的半监督查询构建方法,并与手动构造查询和基于无监督的机器学习提取查询词这两种方法进行比较。最终,我们将文本检索与段落检索结合,弥补为了提高精度而造成召回率的损失。实验基于Blog Track语料并且取得了良好的效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 文本情感分析相关技术概述及现状分析
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.3 文本情感分析领域若干关键问题
  • 1.3.1 文本分类概述
  • 1.3.2 文本表示模型
  • 1.3.3 特征抽取
  • 1.3.4 特征选择
  • 1.3.5 分类模型
  • 1.3.6 权重计算
  • 1.4 本文研究内容及安排
  • 参考文献
  • 第二章 词语级文本情感分析
  • 2.1 引言
  • 2.2 词语级文本情感分析技术
  • 2.2.1 基于词典和规则的方法
  • 2.2.2 基于机器学习的方法
  • 2.2.3 基于语义标注的方法
  • 2.3 分类模型
  • 2.3.1 朴素贝叶斯
  • 2.3.2 条件随机场
  • 2.4 特征选择
  • 2.4.1 词性与句法分析
  • 2.4.2 否定词程度词转折词
  • 2.4.3 LMR模板
  • 2.5 实验
  • 2.5.1 实验任务
  • 2.5.2 语料准备及工具包
  • 2.5.3 实验设计
  • 2.5.4 评测标准
  • 2.5.5 结果分析
  • 参考文献
  • 第三章 句子级文本情感分析
  • 3.1 引言
  • 3.2 句子级文本情感分析技术
  • 3.2.1 英文文本句子级情感分析
  • 3.2.2 中文文本句子级情感分析
  • 3.3 分类模型
  • 3.3.1 最大熵
  • 3.3.2 支持向量机
  • 3.4 特征选择与权值计算
  • 3.4.1 基于N-Gram的文本特征
  • 3.4.2 同义词扩展
  • 3.4.3 权值计算
  • 3.5 实验
  • 3.5.1 实验任务
  • 3.5.2 语料准备及工具包
  • 3.5.3 实验设计
  • 3.5.4 评测标准
  • 3.5.5 结果分析
  • 参考文献
  • 第四章 博客主题检索中的查询构建
  • 4.1 引言
  • 4.2 相关技术概述
  • 4.2.1 博客主题相关检索
  • 4.2.2 查询构建
  • 4.3 博客主题检索中的查询构建
  • 4.3.1 Indri相关检索平台
  • 4.3.2 预处理
  • 4.3.3 查询构建
  • 4.3.3.1 人工构建
  • 4.3.3.2 基于CRF的半监督查询构建
  • 4.3.3.3 基于规则构建
  • 4.3.4 组合模型
  • 4.4 实验
  • 4.4.1 语料准备
  • 4.4.2 评测标准
  • 4.4.3 结果分析
  • 参考文献
  • 第五章 工作总结与展望
  • 5.1 总结
  • 5.2 展望
  • 致谢
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    文本情感分析的若干关键问题研究
    下载Doc文档

    猜你喜欢