领域知识指导的半监督学习和主动学习倾向性分类研究

领域知识指导的半监督学习和主动学习倾向性分类研究

论文摘要

随着网络进入到Web2。0时代,网络上存在的信息从传统门户网站的新闻内容转变为用户生成内容UGC(User Generated Content)。较之于传统的新闻信息,Web2。0时代的信息传播具备新的特点:(1)话题丰富,信息量超越以往;(2)信息产生是动态的,持续的;(3)信息的传播范围短时间内达几何级数规模。信息产生形式的转变,使得用户在上网浏览的同时,互动增加,同时用户可以自由的表达自己的意见、想法,产生很多带有倾向性的文本。此类型的网络文本进行文本分类时,具有非常明显的特点:(1)高维的输入特征;(2)文本表示异常稀疏,比传统文本分类任务面向的数据,如新闻、博客、邮件组,其稀疏性更加严重;(3)与分类相关的特征更加稀少;(4)文本数据线性可分或近似线性可分。其中(2)和(3)的特点,使得情感文本分类任务较传统文本分类更加棘手,难度增加。在现有的情感文本分类研究中,研究工作可归纳为两种风范:(1)基于语言学知识的分类方法;(2)面向统计机器学习的分类方法。基于语言学知识的分类方法,通过借用语言学的启发式规则,或者专家人工制定的语言学资源,如情感词词典,来确定情感文本中词汇的正负情感倾向,进而确定文本的总体情感倾向。基于统计机器学习的分类方法,在标注一定量文本的情感倾向性,将其作为训练数据之后,利用监督学习(Supervised Learning)或者半监督学习方法(Semi-supervised Learning)学习分类模型,作为对未标记文本进行倾向判断的依据。基于语言学知识的分类方法,不需要耗费大量的人力进行数据标记,同时,这样的方法准确率往往没有基于统计机器学习的分类方法高;基于统计机器学习的分类方法,往往要求耗费昂贵的人力进行一定量的数据标记,同时,这样的方法所取得的分类效果要更好。这两类方法各有优点,但是现有的研究工作往往没有同时考虑这两方面的优势。本文提出一种新的思路,将语言学资源中的情感词典形式化的表示为模型先验,然后结合统计机器学习方法,设计半监督学习和主动学习算法,本文称之为知识耦合的机器学习方法。综合语言学资源和机器学习方法的情感文本分类方法,具有优点:(1)一定程度减少了机器学习方法所需的数据标注成本,并且可以取得同样好的分类效果;(2)在具有相同数量的标记数据和未标记数据时,加入词汇情感指向的语言学资源,能够进一步提高半监督和主动学习等机器学习方法的分类效果。为了实现本文提出的知识耦合的机器学习方法,首先,介绍如何将语言学资源中的情感词典形式化为产生式模型(朴素贝叶斯,Naive Bayes)与判别式模型(支持向量机Support Vector Machine,逻辑斯蒂回归Logistic Regression)能够接受的模型先验(第三章),并理论上证明,这样形式化后的语言学知识有效地等价于一定数量的训练样本,这为后文构造半监督和主动学习算法提供了理论依据;然后,介绍在半监督学习算法中利用模型先验化的语言学知识,构造基于知识耦合的半监督倾向性文本分类方法(第四章);接着,介绍在主动学习方法中,利用模型先验化的语言学知识,构造基于知识耦合的主动学习倾向性文本分类方法(第五章)。最后讨论本文得到的结论和一些可以继续探索的问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 研究背景
  • 1.1 情感分析
  • 1.2 情感分类
  • 第二章 相关内容介绍
  • 2.1 半监督文本分类
  • 2.1.1 贝叶斯方法
  • 2.2 主动学习文本分类
  • 2.2.1 样例选择算法
  • 2.3 情感分类
  • 2.3.1 主客观文本分类
  • 2.3.2 情感倾向性分类
  • 第三章 基于语言学资源的模型先验构造
  • 3.1 先验知识与情感分类的机器学习方法的嵌入
  • 3.2 嵌入领域情感先验的分类模型
  • 3.3 全局情感词先验模型
  • 3.4 种子情感词选取
  • 3.5 领域情感词扩展及先验概率模型
  • 第四章 结合先验知识的半监督情感倾向分类方法
  • 4.1 结合先验知识的半监督情感倾向分类
  • 4.1.1 朴素贝叶斯分类方法
  • 4.1.2 半监督贝叶斯分类方法
  • 4.1.3 结合领域知识的半监督贝叶斯情感倾向分类方法
  • 4.2 实验结果
  • 4.2.1 实验数据和情感词典资源
  • 4.2.2 对比实验选用的分类方法和评价方法
  • 4.2.3 对比实验结果及分析
  • 第五章 结合先验知识的主动学习情感倾向分类方法
  • 5.1 领域感知的主动学习情感分类模型
  • 5.1.1 主动学习分类模型
  • 5.1.2 领域感知的主动学习情感分类方法
  • 5.2 实验结果
  • 5.2.1 实验数据和情感词典资源
  • 5.2.2 对比实验选用的分类方法和评价方法
  • 5.2.3 对比实验结果及分析
  • 结论和展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    领域知识指导的半监督学习和主动学习倾向性分类研究
    下载Doc文档

    猜你喜欢