论文摘要
让计算机理解人类的情感是人工智能的最高境界,对文本进行正面、负面的语义倾向性分析是基础,也是目前富有挑战性的工作。在Web2.0时代,海量的网络评论蕴涵着很多有价值的信息,为及时、自动、智能、准确地发现这些信息,迫切需要应用语义倾向性分析技术来解决这一问题。语义倾向性分析目前最大的价值在于从某一个主题的评论中分析得出总结性的结果,这首先涉及到从互联网上获取大量的评论数据,可行的策略是使用并行技术。并行网页获取技术已经得到深入研究,但是研究集中在为通用搜索引擎的网页搜集部分服务,目标一般是全球的网页。针对一个主题的评论通常集中在一些站点,网页也呈现高度结构化。因此针对这样的应用,本文设计了动态任务分配模型来并行下载网络评论。基于关系数据库和豆瓣网的实现证明了该模型的蜘蛛设计简单、对运行蜘蛛的机器要求低、可伸缩性好。该模型同样可以用于垂直搜索引擎的网页搜集部分。语义倾向性分析离不开情感知识库,而中文研究中目前尚无一个完善的情感词典。HowNet虽然提供了相当数量的情感词,但在本文的语义倾向性分析中尚不能直接应用。因此本文研究了基于HowNet的情感词典的构建。在篇章的语义倾向性分析方面,本文认为语言学的知识、规则可以用来提高统计学习算法的效果,因而基于情感词典,提出了属性加权的统计学习算法来进行篇章的情感分析,增强情感词在文本倾向性分类中的贡献,具体实现了属性加权的朴素贝叶斯和属性加权的评分算法。针对中文网络评论的语义倾向性分析实验结果表明:属性加权的统计学习算法改进了倾向性分类的效果。
论文目录
摘要ABSTRACT第一章 绪论1.1 语义的事实性与倾向性1.2 语义倾向性分析及应用1.3 中文语义倾向性分析研究存在的问题1.4 本文研究的问题及课题背景1.5 本文的组织结构第二章 相关理论与技术2.1 相关工作2.1.1 词汇倾向性分析的相关研究2.1.2 句子倾向性分析的相关研究2.1.3 篇章倾向性分析的相关研究2.2 自然语言处理技术2.2.1 词法分析技术2.2.2 句法分析技术2.2.3 语义分析技术2.3 文本挖掘技术2.3.1 文本挖掘过程2.3.2 特征选择2.3.3 自动文本分类2.4 本体技术2.5 本章小结第三章 动态任务分配的并行评论获取3.1 问题提出3.2 网络评论特点分析3.3 网络评论内容抽取3.4 评论并行获取研究3.4.1 网络蜘蛛的工作原理3.4.2 并行网络蜘蛛框架3.4.3 基于动态任务分配的并行模型3.5 基于动态任务分配并行评论爬取系统在豆瓣网上的实现3.5.1 基于ORACLE和豆瓣网的实现3.5.2 动态任务分配模型总结3.6 本章小节第四章 基于属性加权的倾向性分类算法4.1 问题提出4.1.1 语义分析中的理性主义和经验主义4.1.2 统计方法和规则方法的融合4.2 基于HowNet的情感词典构建4.2.1 关于HowNet4.2.2 基于HowNet的词汇相似度计算4.2.3 情感词典的构建4.3 统计学习分类算法4.3.1 朴素贝叶斯分类器4.3.2 评分算法4.3.3 统计学习分类算法分析4.4 基于属性加权的统计学习分类算法4.5 本章小结第五章 实验结果及分析5.1 数据来源5.2 实验的设计与实现5.2.1 系统流程图及模块介绍5.2.2 关键算法5.3 实验结果及分析5.3.1 基于属性加权的朴素贝叶斯分类器5.3.2 基于特征加权的评分算法5.4 本章小结第六章 总结6.1 本文工作总结6.2 进一步的研究工作参考文献致谢攻硕期间发表的论文及参加的项目
相关论文文献
标签:倾向性分析论文; 情感分析论文; 并行蜘蛛论文; 加权朴素贝叶斯论文; 情感词典论文; 知网论文;