基于HowNet的中文语义倾向性分析技术研究

基于HowNet的中文语义倾向性分析技术研究

论文摘要

让计算机理解人类的情感是人工智能的最高境界,对文本进行正面、负面的语义倾向性分析是基础,也是目前富有挑战性的工作。在Web2.0时代,海量的网络评论蕴涵着很多有价值的信息,为及时、自动、智能、准确地发现这些信息,迫切需要应用语义倾向性分析技术来解决这一问题。语义倾向性分析目前最大的价值在于从某一个主题的评论中分析得出总结性的结果,这首先涉及到从互联网上获取大量的评论数据,可行的策略是使用并行技术。并行网页获取技术已经得到深入研究,但是研究集中在为通用搜索引擎的网页搜集部分服务,目标一般是全球的网页。针对一个主题的评论通常集中在一些站点,网页也呈现高度结构化。因此针对这样的应用,本文设计了动态任务分配模型来并行下载网络评论。基于关系数据库和豆瓣网的实现证明了该模型的蜘蛛设计简单、对运行蜘蛛的机器要求低、可伸缩性好。该模型同样可以用于垂直搜索引擎的网页搜集部分。语义倾向性分析离不开情感知识库,而中文研究中目前尚无一个完善的情感词典。HowNet虽然提供了相当数量的情感词,但在本文的语义倾向性分析中尚不能直接应用。因此本文研究了基于HowNet的情感词典的构建。在篇章的语义倾向性分析方面,本文认为语言学的知识、规则可以用来提高统计学习算法的效果,因而基于情感词典,提出了属性加权的统计学习算法来进行篇章的情感分析,增强情感词在文本倾向性分类中的贡献,具体实现了属性加权的朴素贝叶斯和属性加权的评分算法。针对中文网络评论的语义倾向性分析实验结果表明:属性加权的统计学习算法改进了倾向性分类的效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 语义的事实性与倾向性
  • 1.2 语义倾向性分析及应用
  • 1.3 中文语义倾向性分析研究存在的问题
  • 1.4 本文研究的问题及课题背景
  • 1.5 本文的组织结构
  • 第二章 相关理论与技术
  • 2.1 相关工作
  • 2.1.1 词汇倾向性分析的相关研究
  • 2.1.2 句子倾向性分析的相关研究
  • 2.1.3 篇章倾向性分析的相关研究
  • 2.2 自然语言处理技术
  • 2.2.1 词法分析技术
  • 2.2.2 句法分析技术
  • 2.2.3 语义分析技术
  • 2.3 文本挖掘技术
  • 2.3.1 文本挖掘过程
  • 2.3.2 特征选择
  • 2.3.3 自动文本分类
  • 2.4 本体技术
  • 2.5 本章小结
  • 第三章 动态任务分配的并行评论获取
  • 3.1 问题提出
  • 3.2 网络评论特点分析
  • 3.3 网络评论内容抽取
  • 3.4 评论并行获取研究
  • 3.4.1 网络蜘蛛的工作原理
  • 3.4.2 并行网络蜘蛛框架
  • 3.4.3 基于动态任务分配的并行模型
  • 3.5 基于动态任务分配并行评论爬取系统在豆瓣网上的实现
  • 3.5.1 基于ORACLE和豆瓣网的实现
  • 3.5.2 动态任务分配模型总结
  • 3.6 本章小节
  • 第四章 基于属性加权的倾向性分类算法
  • 4.1 问题提出
  • 4.1.1 语义分析中的理性主义和经验主义
  • 4.1.2 统计方法和规则方法的融合
  • 4.2 基于HowNet的情感词典构建
  • 4.2.1 关于HowNet
  • 4.2.2 基于HowNet的词汇相似度计算
  • 4.2.3 情感词典的构建
  • 4.3 统计学习分类算法
  • 4.3.1 朴素贝叶斯分类器
  • 4.3.2 评分算法
  • 4.3.3 统计学习分类算法分析
  • 4.4 基于属性加权的统计学习分类算法
  • 4.5 本章小结
  • 第五章 实验结果及分析
  • 5.1 数据来源
  • 5.2 实验的设计与实现
  • 5.2.1 系统流程图及模块介绍
  • 5.2.2 关键算法
  • 5.3 实验结果及分析
  • 5.3.1 基于属性加权的朴素贝叶斯分类器
  • 5.3.2 基于特征加权的评分算法
  • 5.4 本章小结
  • 第六章 总结
  • 6.1 本文工作总结
  • 6.2 进一步的研究工作
  • 参考文献
  • 致谢
  • 攻硕期间发表的论文及参加的项目
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于HowNet的中文语义倾向性分析技术研究
    下载Doc文档

    猜你喜欢