文本挖掘中若干关键问题的研究

文本挖掘中若干关键问题的研究

论文摘要

文本挖掘是指从文本数据中获取可理解的、可用的知识的过程,其涉及数据挖掘、模式识别、信息检索、自然语言处理等多个领域的内容。本文针对文本挖掘中的若干关键问题,例如文本分类的特征抽取、聚类分析以及查询扩展等,展开了如下的研究:(1)基于鉴别语义分析的文本特征抽取。本文提出一个适用于高维数据的鲁棒线性鉴别模型RDM(Robust linear Discriminant analysisModel)。该模型采用正则化方法提高传统鉴别分析模型的泛化能力,并引入能量自适应准则自动选择正则化参数,从而避免了复杂的模型参数选择问题。在RDM基础之上,本文提出一种鉴别语义特征抽取DSF(Discriminative Semantic Feature extraction)算法,该算法在文本的潜在语义空间内进行鲁棒鉴别分析,从而抽取出最能体现分类信息的语义特征。文本分类实验表明DSF算法性能优于常用的线性鉴别分析算法,并且其性能不受潜在语义空间维度大小的影响,从而验证了RDM的鲁棒性。(2)基于局部鉴别索引的文本特征抽取。本文研究面向分类的流形建模方法,提出一个新的文本特征抽取算法——局部鉴别索引LDI(Locality Discriminating Indexing)。该算法用近邻图来描述语义空间中文本类内的局部邻近结构,同时提出入侵图的概念,并用其自适应地描述不同类别流形在局部区域内的交叠。LDI算法通过求解广义特征值问题得到一个在增强类内流形结构紧致性的同时减少不同类流形间交叠的最优线性子空间。LDI算法成功地使用流形学习的思想来提高文本的类别可分性,文本分类实验结果表明局部鉴别索引算法优于其它基于流形学习的特征抽取算法。(3)基于子类合并的文本聚类。针对传统聚类算法无法发现复杂文本类别结构的不足,本文提出一个新的自适应子类合并ASM(Adaptive Subcluster Merging)算法。该算法首先将文本集划分成若干个相似粒度的子类,而后根据类中心密度大于类边缘密度的假设将部分子类合并,从而得出聚类结果。在合成数据和文本数据上的聚类实验结果表明ASM算法的聚类有效性明显优于最大方差聚类算法,同时也避免了基于密度聚类算法的复杂的参数选择过程。(4)基于局部一致和全局平滑假设的文本半监督聚类。无监督的聚类的结果很难与数据的真实类别结构一致。为了解决这一问题,本文提出一种基于局部一致和全局平滑LCGS(Local Consistency andGlobal Smoothing)的半监督聚类算法。LCGS算法将已知的少量标注信息用一个约束等式表示,将局部一致和全局平滑思想体现在目标函数中,从而将半监督聚类问题转化为一个带约束的二次优化问题,并最终得到一个全局最优的聚类结果。在文本数据上的实验表明当标注数据仅占数据总量的2%时,LCGS算法的聚类有效性就可比无监督聚类算法高60%。(5)融合词语相关性与语义相似度的查询扩展。在文本检索系统中,查询短小和查询词与索引词不匹配现象会降低系统的检索精度。为了解决这个问题,本文首先提出一种基于全局分析GA(GlobalAnalysis)的查询扩展算法。GA算法通过统计语料集中词对的互信息和距离得到索引词间的相关性,从而扩展出与原始查询最为相关的词。而后,本文将统计分析得出的词语相关性与通过知识库——《知网》得到的语义相似度融合,提出基于相关性和相似度融合RSI(Relevance and Similarity Intergrating)的扩展算法,从而确保扩展词不仅与查询相关并且与查询的主旨相近。实验结果表明GA算法的性能优于局部伪反馈算法,而RSI算法的检索精度又高于GA算法。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题的研究背景
  • 1.2 文本分类、聚类及检索系统概述及应用
  • 1.2.1 文本分类系统概述及应用
  • 1.2.2 文本聚类系统概述及应用
  • 1.2.3 文本检索系统概述及应用
  • 1.3 文本分类、聚类及检索中的若干关键问题
  • 1.4 本文的工作
  • 1.4.1 文本的创新点
  • 1.4.2 本文的结构安排
  • 参考文献
  • 第二章 鉴别语义特征抽取
  • 2.1 引言
  • 2.2 常用的文本特征抽取算法
  • 2.3 鲁棒线性鉴别模型
  • 2.3.1 常用的线性鉴别分析算法
  • 2.3.2 鲁棒线性鉴别分析模型
  • 2.4 鉴别语义特征抽取算法
  • 2.4.1 算法描述
  • 2.4.2 实验及分析
  • 2.5 本章小结
  • 参考文献
  • 第三章 局部鉴别索引
  • 3.1 引言
  • 3.2 局部鉴别索引算法
  • 3.2.1 面向分类的流形建模
  • 3.2.2 局部鉴别准则
  • 3.2.3 算法描述
  • 3.3 相关工作
  • 3.3.1 局部保持投影
  • 3.3.2 边际Fisher分析
  • 3.4 实验及分析
  • 3.5 本章小结
  • 参考文献
  • 第四章 基于子类合并的聚类
  • 4.1 引言
  • 4.2 常用的聚类算法及比较
  • 4.3 自适应子类合并算法
  • 4.3.1 子类划分
  • 4.3.2 子类合并
  • 4.3.3 算法描述
  • 4.4 实验及分析
  • 4.4.1 聚类性能评价指标
  • 4.4.2 合成数据聚类实验
  • 4.4.3 文本数据聚类实验
  • 4.5 本章小结
  • 参考文献
  • 第五章 基于局部一致和全局平滑的半监督聚类
  • 5.1 引言
  • 5.2 相关工作
  • 5.2.1 基于高斯随机场和调和函数的半监督聚类算法
  • 5.2.2 基于局部和全局一致性的半监督算法
  • 5.3 基于局部一致和全局平滑的半监督聚类算法
  • 5.3.1 数据建模
  • 5.3.2 算法描述及分析
  • 5.4 实验及分析
  • 5.4.1 合成数据实验
  • 5.4.2 文本数据实验
  • 5.5 本章小结
  • 参考文献
  • 第六章 基于统计分析和语义词典的查询扩展
  • 6.1 引言
  • 6.2 常用的查询扩展算法
  • 6.3 基于全局分析的查询扩展算法
  • 6.3.1 算法描述
  • 6.3.2 实验及分析
  • 6.4 基于相关性和相似度融合的查询扩展
  • 6.4.1 语义词典和语义相似度计算
  • 6.4.2 算法描述
  • 6.4.3 实验及分析
  • 6.5 本章小结
  • 参考文献
  • 第七章 结束语
  • 7.1 本文的工作总结
  • 7.2 未来的工作展望
  • 攻读博士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    文本挖掘中若干关键问题的研究
    下载Doc文档

    猜你喜欢