论文摘要
文本挖掘是指从文本数据中获取可理解的、可用的知识的过程,其涉及数据挖掘、模式识别、信息检索、自然语言处理等多个领域的内容。本文针对文本挖掘中的若干关键问题,例如文本分类的特征抽取、聚类分析以及查询扩展等,展开了如下的研究:(1)基于鉴别语义分析的文本特征抽取。本文提出一个适用于高维数据的鲁棒线性鉴别模型RDM(Robust linear Discriminant analysisModel)。该模型采用正则化方法提高传统鉴别分析模型的泛化能力,并引入能量自适应准则自动选择正则化参数,从而避免了复杂的模型参数选择问题。在RDM基础之上,本文提出一种鉴别语义特征抽取DSF(Discriminative Semantic Feature extraction)算法,该算法在文本的潜在语义空间内进行鲁棒鉴别分析,从而抽取出最能体现分类信息的语义特征。文本分类实验表明DSF算法性能优于常用的线性鉴别分析算法,并且其性能不受潜在语义空间维度大小的影响,从而验证了RDM的鲁棒性。(2)基于局部鉴别索引的文本特征抽取。本文研究面向分类的流形建模方法,提出一个新的文本特征抽取算法——局部鉴别索引LDI(Locality Discriminating Indexing)。该算法用近邻图来描述语义空间中文本类内的局部邻近结构,同时提出入侵图的概念,并用其自适应地描述不同类别流形在局部区域内的交叠。LDI算法通过求解广义特征值问题得到一个在增强类内流形结构紧致性的同时减少不同类流形间交叠的最优线性子空间。LDI算法成功地使用流形学习的思想来提高文本的类别可分性,文本分类实验结果表明局部鉴别索引算法优于其它基于流形学习的特征抽取算法。(3)基于子类合并的文本聚类。针对传统聚类算法无法发现复杂文本类别结构的不足,本文提出一个新的自适应子类合并ASM(Adaptive Subcluster Merging)算法。该算法首先将文本集划分成若干个相似粒度的子类,而后根据类中心密度大于类边缘密度的假设将部分子类合并,从而得出聚类结果。在合成数据和文本数据上的聚类实验结果表明ASM算法的聚类有效性明显优于最大方差聚类算法,同时也避免了基于密度聚类算法的复杂的参数选择过程。(4)基于局部一致和全局平滑假设的文本半监督聚类。无监督的聚类的结果很难与数据的真实类别结构一致。为了解决这一问题,本文提出一种基于局部一致和全局平滑LCGS(Local Consistency andGlobal Smoothing)的半监督聚类算法。LCGS算法将已知的少量标注信息用一个约束等式表示,将局部一致和全局平滑思想体现在目标函数中,从而将半监督聚类问题转化为一个带约束的二次优化问题,并最终得到一个全局最优的聚类结果。在文本数据上的实验表明当标注数据仅占数据总量的2%时,LCGS算法的聚类有效性就可比无监督聚类算法高60%。(5)融合词语相关性与语义相似度的查询扩展。在文本检索系统中,查询短小和查询词与索引词不匹配现象会降低系统的检索精度。为了解决这个问题,本文首先提出一种基于全局分析GA(GlobalAnalysis)的查询扩展算法。GA算法通过统计语料集中词对的互信息和距离得到索引词间的相关性,从而扩展出与原始查询最为相关的词。而后,本文将统计分析得出的词语相关性与通过知识库——《知网》得到的语义相似度融合,提出基于相关性和相似度融合RSI(Relevance and Similarity Intergrating)的扩展算法,从而确保扩展词不仅与查询相关并且与查询的主旨相近。实验结果表明GA算法的性能优于局部伪反馈算法,而RSI算法的检索精度又高于GA算法。