NLP技术在中文信息检索中的应用研究

NLP技术在中文信息检索中的应用研究

论文题目: NLP技术在中文信息检索中的应用研究

论文类型: 博士论文

论文专业: 计算机应用技术

作者: 刘向威

导师: 何丕廉

关键词: 中文信息检索,技术,文本聚类,自动摘要,查询扩展

文献来源: 天津大学

发表年度: 2005

论文摘要: 随着科学技术的高速发展和各种信息资源数量的不断增多,为了提高效率,信息检索己经成为信息科学技术领域最重要的研究内容之一。其中涉及到自然语言处理(NLP)的技术有:分词、信息抽取、自动聚类和分类、自动摘要、查询扩展、等等。近年来,对网络中文信息检索的需求与日俱增。针对这一需求,本文对中文信息检索中涉及到的几项NLP关键技术进行了研究。本文在深入研究基于向量空间模型的文本聚类方法的基础上,提出了一个新的聚类模型:即在传统的基于相似度的平面划分聚类模型中增加一个文本特征向量调整模块。本文同时给出了用以进行特征提取的特征评价函数,对基于相似度的平面划分聚类算法做了改进。实验结果表明增加了文档特征调整的聚类模型具有较好的聚类效果。本文提出了一种基于主题聚类的自动摘要算法。在一篇文章中,主题思想由文中的各个子主题构成,如同议论文中的论点由分论点构成一样,基于主题聚类的自动摘要算法把统计方法与知识理解相结合,既摆脱了领域限制,又使摘要的结果更为准确。本文构造出一个新的依赖关系模型,能较好地为摘要算法选择较为准确的属性,给出评价语句重要性的规则,这为摘要算法提供了选择较为重要语句的尺度。本文还提出了一种较为客观的、基于任务的摘要性能评估算法。目前大多数检索系统中,用户的需求是通过查询关键词来表示的。用户实际需求与查询关键词之间往往存在较大的语义差距,如何缩小这种语义差距是实现面向用户个性化信息服务的关键问题。本文提出了一种查询扩展优化算法,给出了对查询关键词的增加、删除和权重修改的自适应模型算法,在模型中给出了确定扩展关键词数量的方法,优化了查询反馈中的权重调节因子,使之能够更好的满足用户的实际需求。实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以提高查询精度。

论文目录:

中文摘要

ABSTRACT

第一章 绪论

1.1 信息检索研究概况

1.2 基于自然语言处理技术的信息检索的研究现状

1.3 本文主要研究工作和创新之处

1.4 论文结构

第二章 信息检索关键技术介绍

2.1 文本聚类技术

2.1.1 平面划分方法

2.1.2 层次的方法

2.1.3 基于密度的方法

2.1.4 基于网格的方法

2.1.5 基于模型的方法

2.1.6 文本聚类结果的评价方法

2.2 自动摘要技术

2.2.1 自动摘录

2.2.2 基于理解的自动摘要

2.2.3 信息抽取

2.2.4 基于结构的自动摘要

2.2.5 中文自动摘要的研究状况

2.3 查询扩展技术

2.3.1 查询扩展方法

2.3.2 国内外研究现状

第三章 基于向量空间模型的文本聚类方法

3.1 文本聚类的问题描述

3.2 一种基于向量空间模型的文本聚类方法

3.2.1 新的聚类模型

3.2.2 文档表示

3.2.3 文档分词、预处理

3.2.4 文档特征提取

3.2.5 文档特征权值调整

3.2.6 文档聚类

3.3 文本聚类的评价方法

3.4 实验与结果

3.4.1 测试集

3.4.2 实验步骤

3.4.3 实验结果

3.5 结束语

第四章 基于主题聚类的自动摘要算法研究

4.1 引言

4.2 基于主题聚类的自动摘要

4.2.1 文档预处理

4.2.2 基于依赖关系的属性选择

4.2.3 语句重要性评估规则

4.2.4 基于主题聚类的自动摘要算法

4.3 应用及性能评估

4.3.1 摘要性能评估算法

4.3.2 实验内容与性能指标

4.3.3 实验结果与性能分析

4.4 结论

第五章 面向用户的查询扩展统计模型

5.1 用户兴趣模型

5.1.1 用户兴趣模型表示

5.1.2 用户兴趣模型更新

5.2 面向用户的查询扩展

5.2.1 查询关键词权重的重新计算

5.2.2 查询关键词扩充

5.2.3 查询关键词删除

5.2.4 查询扩展模型中参数的确定

5.3 实验与结果分析

5.3.1 对比算法

5.3.2 实验结果与讨论

5.4 结束语

第六章 结论与展望

6.1 本文取得的成果

6.2 存在的问题和研究前景展望

参考文献

发表论文和科研情况说明

致谢

发布时间: 2007-07-10

参考文献

  • [1].基于统计的NLP技术在中文信息检索中的应用研究[D]. 孙越恒.天津大学2005
  • [2].中文信息检索索引模型及相关技术研究[D]. 杨传耀.复旦大学2007

相关论文

  • [1].文本检索中若干问题研究[D]. 王秀娟.北京邮电大学2006
  • [2].面向智能信息检索的Web挖掘关键技术研究[D]. 袁方.东北大学2006
  • [3].Web信息智能获取若干关键问题研究[D]. 贾自艳.中国科学院研究生院(计算技术研究所)2004
  • [4].基于统计语言建模的信息检索及相关研究[D]. 丁国栋.中国科学院研究生院(计算技术研究所)2006
  • [5].文本信息处理的若干关键技术研究[D]. 熊云波.复旦大学2006
  • [6].信息检索相关技术研究[D]. 王树梅.南京理工大学2007

标签:;  ;  ;  ;  ;  

NLP技术在中文信息检索中的应用研究
下载Doc文档

猜你喜欢