论文摘要
互联网上绝大多数的信息是以文本的形式保存的,文本信息的爆炸式增长给信息检索技术带来了巨大的挑战,人们越来越难以快速准确地从网上检索到相关信息。在目前使用最多的基于关键词的字符匹配检索中,参与匹配的只有词的外在形式,而日常语言中多词同义、一词多义等不确定性因素的存在,使得用户很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。而潜在语义索引(LSI—Latent Semantic Indexing)模型的出现有效地克服基于关键词检索无法处理多义词和同义词问题,它具有可计算性强、需要人参与少等优点。LSI通过截断的奇异值分解建立潜在语义空间,词汇和文本都被投影在该空间,进而可以提取词汇间深层次的语义关系,从而呈现出自然语言中的语义结构,进一步提高了检索性能。本文围绕着如何利用LSI技术及其特点进一步提高中文文本检索的性能展开讨论。首先对LSI的相关关键技术以及数学基础进行了深度挖掘,对其在中文文本中的应用进行了举例和深入分析。其次对LSI的重要优化过程——权重计算进行了深入分析,提出了一种基于“非线性函数”和“位置因子”的新权重方案,并对其效果进行了对比验证。然后利用LSI能够方便计算出文本和文本相似度的特点,提出了“文本—文本检索”功能,弥补了由于检索语句较短和输入不准确等问题对检索查准率的影响,能够更好的帮助用户进行更加有效的检索。最后,开发了“中文潜在语义索引分析系统”作为实验平台,针对LSI的每个相对独立的环节专门设计实验方法,以可视化的方式呈现实验结果,文中所有研究内容都在该系统中作了验证。
论文目录
摘要Abstract第1章 绪论1.1 信息检索综述1.1.1 信息检索的发展1.1.2 信息检索的基本定义1.2 信息检索模型1.3 潜在语义索引1.3.1 潜在语义索引综述1.3.2 潜在语义索引的研究概述1.4 本文的研究意义1.5 论文结构1.6 本章小结第2章 潜在语义索引的基本理论2.1 潜在语义索引的基本思想2.2 奇异值分解2.3 潜在语义索引的数学依据2.4 LSI/SVD的特点2.5 潜在语义索引中相似关系的计算2.6 潜在语义索引中词汇和文本的扩充2.7 本章小结第3章 中文潜在语义索引的处理3.1 LSI在中文文本处理中的应用3.1.1 LSI中文样本实例分析3.1.2 LSI中文文本信息检索的处理3.2 中文LSI信息处理的特点3.3 中文LSI检索系统性能评价指标3.4 本章小结第4章 潜在语义索引的权重改进4.1 潜在语义索引权重计算综述4.1.1 布尔权重4.1.2 tfc权重4.1.3 熵权重4.1.4 TF-IDF-IG4.2 潜在语义索引权重改进方案4.2.1 非线性加权方法4.2.2 特征词在文本中的位置对权重的影响4.3 本章小结第5章 中文潜在语义索引分析系统的开发5.1 系统总体设计5.2 "中文潜在语义索引分析系统"的预处理5.3 中文潜在语义索引分析系统的设计与实现5.3.1 模块与LSI过程的对应关系5.3.2 文本集处理模块5.3.3 奇异值分解模块5.3.4 计算机文献检索模块5.3.5 文本—文本检索模块5.3.6 文本内容显示模块5.3.7 分词和扩展模块5.4 本章小结第6章 中文潜在语义索引分析系统的测试6.1 测试语料库的设计6.2 实验结果与分析6.2.1 潜在语义索引新权重改进实验6.2.2 中文潜在语义索引分析系统测试6.3 本章小结结论致谢参考文献攻读硕士学位期间发表的论文及科研成果
相关论文文献
标签:信息检索论文; 潜在语义索引论文; 权重计算论文; 文本文本检索论文;