论文题目: 基于潜在语义分析的中文概念检索研究
论文类型: 博士论文
论文专业: 系统工程
作者: 刘云峰
导师: 齐欢
关键词: 潜在语义分析,信息检索,权重计算,潜在语义空间维度特性,快速检索,语义布尔检索
文献来源: 华中科技大学
发表年度: 2005
论文摘要: 互联网上绝大多数的信息是以文本的形式保存的,互联网上文本信息的爆炸式增长给信息检索技术带来了巨大的挑战,人们越来越难以快速准确地从网上检索到相关信息。由于自然语言中多词同义、一词多义等不确定性因素存在,相同概念可以有多种不同的表述方式,被称为“知识的非常态”。传统的基于关键词字符匹配的信息检索中,参与匹配的只有外在的表现形式,而非它们所表达的全部概念,用户很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。把信息检索从关键词匹配的层面提高到概念(语义)的层面,从概念意义上来认知和处理检索用户的请求成为当前信息检索技术的研究热点。潜在语义分析(LSA)是一种自然语言统计模型,被认为是一种获取、归纳和表述知识的方法。基于LSA 的检索模型与其它基于概念词典或概念网络的检索模型相比,具有可计算性强、需要人的参与少等优点。LSA 通过截断的奇异值分解建立潜在语义空间,潜在语义空间中词语和文档被投影在代表潜概念的维度上,进而可以提取词语间的语义关系,呈现出自然语言中的语义结构。当前LSA 尚存在一些理论基础有待扩充和进一步的解释,以中文LSA 作为研究的主题,以中文概念检索作为研究背景,对相关的一些难点问题,比如权重计算、潜在语义空间维度特性等进行系统地研究。权重计算是LSA 中的重要优化过程,传统的LSA 权重定义方法继承于向量空间模型(VSM),而忽视了LSA 与VSM 的本质差别。定义词语全局权重后生成的潜在语义空间的维度突出了权重较大的词语间的语义关系。文档语义是由词语构成的,而词语要放到文档当中去理解。为了突出那些与重要词语间的互信息量较大的文档对建立词语间语义关系的作用,提出文档全局权重的定义作为LSA 权重计算的修正扩展。通过实验检验各种词语全局权重和加入文档全局权重后的检索效果,结果表明熵权重定义优于其它词语全局权重,加入文档全局权重后,能够在更少的维度上获得更高的查准率。潜在语义空间中的维度代表着“潜概念”,由于没有显式的概念与之对应,人们一直不能深入理解潜在语义空间中的维度,LSA 的应用和发展受到限制。随潜在语义空间被剔除维度的增多,词语间相关度发生有规律的变化。认为文档(词语)间“泛”意义上的相关性主要体现在对应大奇异值的维度上,同时“局部”意义上的相关性主要体现在对应小奇异值的维度上。进而推测潜在语义空间维度和概念粒度之间存在某种近似的、隐含的对应关系。采用多层次文档聚类来验证这一结论,发
论文目录:
摘要
Abstract
1 绪论
1.1 课题的来源
1.2 自然语言处理综述
1.3 信息检索发展综述
1.4 潜在语义分析综述
1.5 研究的目的和意义
1.6 本文的研究内容与结构
2 潜在语义分析基础理论与研究方法
2.1 潜在语义分析基础理论
2.2 潜在语义空间更新方法
2.3 潜在语义空间评价方法
2.4 LSA 应用示例及其解释
2.5 中文潜在语义分析的特殊处理
2.6 本章小结
3 潜在语义分析权重计算模型的扩展
3.1 潜在语义分析权重计算方法综述
3.2 局部权重计算方法
3.3 词语全局权重计算方法
3.4 文档全局权重计算方法
3.5 本章小结
4 潜在语义空间维度特性及在多层次文档聚类中的应用
4.1 潜在语义空间的Zipf 规律
4.2 潜在语义空间维度特性
4.3 基于潜在语义空间维度特性的多层次文档聚类
4.4 本章小结
5 潜在语义分析快速检索和布尔检索研究
5.1 基于潜在语义分析的快速检索方法研究
5.2 潜在语义分析布尔检索模型
5.3 本章小结
6 总结与展望
6.1 全文总结
6.2 研究展望
致谢
参考文献
附录1 CLSAS 检索示例
附录2 攻读博士学位期间发表文章
附录3 攻读博士学位期间获奖情况
附录4 攻读博士学位期间参加课题
发布时间: 2006-04-05
参考文献
- [1].基于局部语义概念表示的图像场景分类技术研究[D]. 张瑞杰.解放军信息工程大学2013
- [2].基于上下文的音视频标注研究[D]. 钟岑岑.北京交通大学2014
- [3].基于支持向量机的文本情感分析研究[D]. 韩开旭.东北石油大学2014
相关论文
- [1].基于语义统计分析的网络舆情挖掘技术研究[D]. 万源.武汉理工大学2012
- [2].基于潜在语义分析的社会化标注系统标签语义检索研究[D]. 宣云干.南京大学2011
- [3].中文信息处理中若干关键技术的研究[D]. 王建会.复旦大学2004
- [4].文本挖掘若干关键技术研究[D]. 陈晓云.复旦大学2005
- [5].基于统计的NLP技术在中文信息检索中的应用研究[D]. 孙越恒.天津大学2005
- [6].文本检索中若干问题研究[D]. 王秀娟.北京邮电大学2006
- [7].语义检索中若干关键问题的研究[D]. 梅翔.北京邮电大学2007
标签:潜在语义分析论文; 信息检索论文; 权重计算论文; 潜在语义空间维度特性论文; 快速检索论文; 语义布尔检索论文;