论文摘要
随着Web2.0的兴起与普及,网络文本内容激增,针对文本的情感分析是目前文本挖掘领域的研究热点,可归属于文本分类问题。本文采用机器学习的方法,针对文本不同粒度的极性分类、情感分类以及针对主题检索中的查询构建进行有益的尝试,取得了如下成果:(1)本文提出了一种基于CRF的词语级中文情感倾向分类模型,从“喜、怒、哀、惧”四类分别对情感词的活跃度进行量化。本文主要关注文本分类中的特征选择问题及基于CRF的分类模型,对词的词性、句法分析、否定词、转折词、程度词特征和位置信息的使用进行了分析,基于COAE评测语料的实验结果证明了此方法在分类的准确率和召回率方面的有效性。(2)本文提出了一种基于最大熵的句子级中文情感极性分类模型,最终得到正倾向、负倾向、客观三类句子。本文关注词汇的Unigram特征、Bigram特征、否定词特征和程度词特征以及权值计算的比较,基于COAE评测语料的实验结果证明了此方法在分类的准确率和召回率方面的有效性。(3)情感分析技术与检索技术紧密相关,本文提出了一种基于CRF的半监督查询构建方法,并与手动构造查询和基于无监督的机器学习提取查询词这两种方法进行比较。最终,我们将文本检索与段落检索结合,弥补为了提高精度而造成召回率的损失。实验基于Blog Track语料并且取得了良好的效果。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景及意义1.2 文本情感分析相关技术概述及现状分析1.2.1 国外研究现状1.2.2 国内研究现状1.3 文本情感分析领域若干关键问题1.3.1 文本分类概述1.3.2 文本表示模型1.3.3 特征抽取1.3.4 特征选择1.3.5 分类模型1.3.6 权重计算1.4 本文研究内容及安排参考文献第二章 词语级文本情感分析2.1 引言2.2 词语级文本情感分析技术2.2.1 基于词典和规则的方法2.2.2 基于机器学习的方法2.2.3 基于语义标注的方法2.3 分类模型2.3.1 朴素贝叶斯2.3.2 条件随机场2.4 特征选择2.4.1 词性与句法分析2.4.2 否定词程度词转折词2.4.3 LMR模板2.5 实验2.5.1 实验任务2.5.2 语料准备及工具包2.5.3 实验设计2.5.4 评测标准2.5.5 结果分析参考文献第三章 句子级文本情感分析3.1 引言3.2 句子级文本情感分析技术3.2.1 英文文本句子级情感分析3.2.2 中文文本句子级情感分析3.3 分类模型3.3.1 最大熵3.3.2 支持向量机3.4 特征选择与权值计算3.4.1 基于N-Gram的文本特征3.4.2 同义词扩展3.4.3 权值计算3.5 实验3.5.1 实验任务3.5.2 语料准备及工具包3.5.3 实验设计3.5.4 评测标准3.5.5 结果分析参考文献第四章 博客主题检索中的查询构建4.1 引言4.2 相关技术概述4.2.1 博客主题相关检索4.2.2 查询构建4.3 博客主题检索中的查询构建4.3.1 Indri相关检索平台4.3.2 预处理4.3.3 查询构建4.3.3.1 人工构建4.3.3.2 基于CRF的半监督查询构建4.3.3.3 基于规则构建4.3.4 组合模型4.4 实验4.4.1 语料准备4.4.2 评测标准4.4.3 结果分析参考文献第五章 工作总结与展望5.1 总结5.2 展望致谢攻读硕士学位期间发表的论文
相关论文文献
标签:文本分类论文; 情感分析论文; 最大熵论文; 查询构建论文;