同义词在文本特征提取与查询扩展中的应用

同义词在文本特征提取与查询扩展中的应用

论文摘要

现代信息的快速增加以及用户对查询质量要求的提高,使得传统的信息检索技术已很难满足用户的需要,而在信息检索中存在的词语的匹配和同义重复等问题在一定程度上影响了检索效率的提高。本文对同义词关系在文本特征提取与查询扩展中的应用进行了研究。在特征提取中,利用同义词改进了传统的TF-IDF文本特征词提取方法。该方法在传统TF-IDF方法计算的词语权重的基础上根据同现频率对同义词及其相关词进行了权重调整,并根据词语相似度对同义词进行加权合并。在局部查询扩展中引入了同义词因素。首先利用初始查询术语进行初次检索,从查询结果集中找出与初始查询术语相关的文档作为局部文档集合,将局部文档集合中初始查询术语的同义词作为扩展词,提出了一种基于同义词关系的局部扩展方法。其次,在局部文档集中将初始查询术语及其同义词的相关词作为扩展词,改进了局部共现查询扩展方法。对以上方法分别做了实验验证,结果表明同义词关系在文本特征提取和查询扩展中的作用是不容忽视的。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.2.1 特征提取的研究
  • 1.2.2 查询扩展的研究
  • 1.2.3 同义词的研究
  • 1.3 本文主要研究工作和论文组织
  • 第2章 信息检索概述
  • 2.1 信息检索
  • 2.2 信息检索模型简介
  • 2.2.1 信息检索模型
  • 2.2.2 向量空间模型
  • 2.3 文本预处理技术
  • 2.3.1 文本分词技术
  • 2.3.2 去停用词
  • 2.4 信息检索系统评价指标
  • 第3章 文本中同义词的识别
  • 3.1 信息检索中的同义词关系
  • 3.2 同义词查找
  • 3.3 词语相似度
  • 3.3.1 词语相似度定义
  • 3.3.2 词语相似度计算方法
  • 3.3.3 基于《知网》的词语相似度计算方法
  • 第4章 同义词在文本特征提取中的应用
  • 4.1 文本特征词提取
  • 4.1.1 文本特征词提取常用方法
  • 4.1.2 传统TF-IDF方法
  • 4.1.3 侯选特征词的提取
  • 4.2 同义词查找
  • 4.3 同义词的相关词计算
  • 4.4 同义词合并加权
  • 第5章 同义词在文本查询扩展中的应用
  • 5.1 基于同义词关系的局部查询扩展
  • 5.1.1 基本过程
  • 5.1.2 同义扩展词的选取
  • 5.2 基于同义词关系的改进的局部共现查询扩展
  • 5.2.1 基本过程
  • 5.2.2 相关扩展词的选取
  • 5.3 扩展词加权
  • 第6章 实验与分析
  • 6.1 测试集
  • 6.2 数据处理
  • 6.3 实验结果评测与分析
  • 第7章 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间取得的科研成果
  • 相关论文文献

    • [1].文本特征提取的研究进展[J]. 南京信息工程大学学报(自然科学版) 2019(06)
    • [2].基于层次分析的微博短文本特征计算方法[J]. 通信学报 2016(12)
    • [3].基于内容主体和涉及领域的微博文本特征对信息传播效果的差异分析[J]. 情报探索 2016(10)
    • [4].利用文本特征,提高预习效率[J]. 语数外学习(高中版上旬) 2020(07)
    • [5].韦利《论语》的翻译文本特征[J]. 北方文学 2017(14)
    • [6].把握文本特征 高效阅读小说[J]. 语文天地 2017(08)
    • [7].关注生活 借力阅读[J]. 作文成功之路(中) 2017(07)
    • [8].广告文本特征及其英译策略[J]. 长江丛刊 2017(20)
    • [9].进入科普童话的三条路径[J]. 教师 2017(22)
    • [10].根据文本特征设计阅读任务[J]. 广东教育(综合版) 2014(01)
    • [11].基于多指标融合的文本特征评价及选择算法[J]. 计算机工程与应用 2016(24)
    • [12].微博话题识别中基于动态共词网络的文本特征提取方法[J]. 图书情报知识 2016(03)
    • [13].利用文本特征功能 提升学生的英语阅读能力[J]. 课程教材教学研究(中教研究) 2018(Z2)
    • [14].抓文本特征之绳,提英语阅读精髓[J]. 英语画刊(高级版) 2016(01)
    • [15].魏晋玄言诗的文本特征[J]. 牡丹江大学学报 2013(11)
    • [16].基于非负矩阵分解的短文本特征扩展与分类[J]. 计算机科学 2019(12)
    • [17].基于卡方统计检验法对文本特征选择的技术实现[J]. 电脑知识与技术 2014(30)
    • [18].论20世纪90年代小说都市叙事的文本特征及其文化精神[J]. 语文学刊 2009(23)
    • [19].微博新闻的文本特征及写作技巧[J]. 新闻与写作 2014(03)
    • [20].基于多文本特征融合的中文微博的立场检测[J]. 计算机工程与应用 2017(21)
    • [21].从文本特征切入,指导小说阅读[J]. 启迪与智慧(下) 2020(04)
    • [22].利用文本特征:高中英语阅读教学的重要手段[J]. 北方文学 2017(35)
    • [23].重校本《金瓶梅词话》的民间文本特征[J]. 宜宾学院学报 2012(07)
    • [24].一种基于本体的文本特征选取方法[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [25].基于文本特征值的正文抽取方法[J]. 桂林电子科技大学学报 2017(02)
    • [26].周秦《书》经之文本特征及其学术变迁[J]. 郑州大学学报(哲学社会科学版) 2019(05)
    • [27].抓住文本特征 重视语言训练[J]. 语文教学之友 2013(03)
    • [28].民航文献中飞机相关术语的文本特征及翻译策略探析[J]. 考试周刊 2018(61)
    • [29].基于SPSS统计分析的文本特征值提取算法[J]. 计算机与数字工程 2014(02)
    • [30].一种基于词聚类的文本特征描述方法[J]. 计算机系统应用 2011(02)

    标签:;  ;  ;  ;  

    同义词在文本特征提取与查询扩展中的应用
    下载Doc文档

    猜你喜欢