基于知网的多关键字检索研究

基于知网的多关键字检索研究

论文摘要

随着因特网信息的飞速膨胀,网络成为人们获取信息的主要渠道,而信息检索也成为人们上网的主要目的之一。但是,如何从这样一个庞大的信息资源库中获取需要的准确信息,已成为人们面临的一个重要问题。现有的搜索引擎往往采用机械式的字符串匹配的搜索技术,在处理单一关键词时,基本可以满足用户要求,但在处理多关键词时,问题就出现了。首先,由于只是基于字符串匹配,使得位置靠后的关键词很可能被忽略掉。再者,即使多个关键词都匹配到,但没有注重关键词的各自的重要度,从而导致检索结果与用户意图不符,降低查询的准确度。在处理多关键词时,需要一个强大的知识库的支持。《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它为自然语言信息处理的研发提供了丰富的知识资源。因此,本文选定《知网》来实现多关键词的处理,使得检索不再是简单的基于关键词的机械式匹配,而是注重关键词间的语义关系,用以解决当前搜索引擎查准率低的问题。本文认真研究《知网》后提出了基于知网的多关键词知晓模型,模型主要包括三大模块的实现:词义消歧模块、语义关系知晓模块、复合词处理模块。词义消歧模块:一词多义是制约语义关系知晓的重要因素。因此,本文提出了影响相关度的五种因素,并通过计算多关键词的语义相关度进行词义消歧。语义关系知晓模块:根据汉语的特点,本文提出了八种多关键词语义关系、核心关键词与分级权重,并根据不同的语义关系设置不同的分级权重,以提高查询的准确度。复合词处理模块:对于《知网》中未出现的词语,即复合词,本文基于语义关系知晓提出了概念组合法,以确定复合词义原表示项,并解决了复合词无法参与语义关系判断的难题。为了验证模型的合理性,本文分别对三个模块进行了实验,并结合多关键词的知晓技术设计了一个元搜索引擎检索模型。从实验结果来看,基于知网的多关键词知晓模型在搜索引擎中的应用是可行的,提高了搜索引擎的查准率。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 课题目的和意义
  • 1.1.1 搜索引擎的重要性
  • 1.1.2 当前搜索引擎存在的问题
  • 1.2 本文的组织结构
  • 2 搜索引擎概述
  • 2.1 搜索引擎的介绍
  • 2.1.1 搜索引擎的发展
  • 2.1.2 搜索引擎的分类
  • 2.1.3 未来搜索引擎的发展方向
  • 2.2 智能搜索引擎
  • 2.2.1 智能检索的特点
  • 2.2.2 智能检索技术
  • 2.3 元搜索引擎的概述
  • 2.3.1 元搜索引擎的原理
  • 2.3.2 元搜索引擎的分类
  • 2.3.3 元搜索引擎的主要技术
  • 2.3.4 常见元搜索引擎的介绍
  • 2.3.5 元搜索引擎的发展
  • 2.4 智能元搜索引擎
  • 3 知网简介
  • 3.1 知网的提出
  • 3.2 知网的结构
  • 3.3 知网的指导思想
  • 3.4 知网的描述
  • 3.4.1 知网的知识词典
  • 3.4.2 知网的描述语言
  • 3.5 基于知网的语义计算
  • 3.5.1 义原相似度
  • 3.5.2 词语相似度
  • 4 基于知网的多关键词知晓技术研究
  • 4.1 多关键词检索的必要性
  • 4.2 多关键词分析
  • 4.3 最佳义原表示项选择
  • 4.3.1 现有的基于知网的消歧法的不足
  • 4.3.2 基于知网的消歧模型
  • 4.4 多关键词的语义关系分析
  • 4.4.1 多关键词的语义关系
  • 4.4.2 多关键词的语义关系计算
  • 4.4.3 核心关键词的选择
  • 4.5 复合词的知晓
  • 4.5.1 分解复合词
  • 4.5.2 复合词语义分析
  • 5 基于知网的多关键词知晓实现
  • 5.1 元搜索引擎系统的实现框架图
  • 5.2 元搜索引擎系统搜索引擎源的选择
  • 5.3 知网数据库的建立
  • 5.4 实验及结果分析
  • 5.4.1 最佳义原表示项实验
  • 5.4.2 复合词知晓实验
  • 5.4.3 多关键词分析检索实验
  • 6 总结
  • 致谢
  • 参考文献
  • 附录:A.作者在攻读硕士学位期间发表的论文目录
  • 相关论文文献

    • [1].基于局部语义相关性的定义文本义原预测[J]. 中文信息学报 2020(05)
    • [2].基于知网义原信息量的词语相似度计算方法[J]. 软件导刊 2015(06)
    • [3].一种基于义原信息量的词语相似度计算方法[J]. 电脑与信息技术 2015(03)
    • [4].收手[J]. 东西南北 2010(08)
    • [5].一种实例库与义原关系相结合的概念消歧算法[J]. 首都师范大学学报(自然科学版) 2016(03)
    • [6].基于《知网》义原空间的文本相似度计算[J]. 科学技术与工程 2013(29)
    • [7].基于知网义原词向量表示的无监督词义消歧方法[J]. 中文信息学报 2015(06)
    • [8].一种改进的基于本体概念相似度计算方法研究[J]. 南京邮电大学学报(自然科学版) 2011(06)
    • [9].基于角度—相似度转换模型的义原相似度计算[J]. 浙江工业大学学报 2017(06)
    • [10].基于逆概念频率的词语相似度计算[J]. 厦门大学学报(自然科学版) 2015(02)
    • [11].词语转喻变义及其族群现象中的义原桥接[J]. 广西民族大学学报(哲学社会科学版) 2015(06)
    • [12].基于义原关系的多策略汉语词义消歧方法[J]. 大连理工大学学报 2010(04)
    • [13].基于《知网》的词语语义相似度改进算法研究[J]. 计算机工程 2015(02)
    • [14].一种改进的基于《知网》的词语相似度计算方法[J]. 计算机应用 2009(01)
    • [15].面向语义检索的中医理论知识库构建方法的研究[J]. 中文信息学报 2012(05)
    • [16].基于知网的词汇语义相似度计算方法研究[J]. 计算机应用研究 2010(09)
    • [17].基于HowNet的词语相关度计算模型[J]. 微型机与应用 2012(08)
    • [18].基于知网的中文词语相似度计算[J]. 智能计算机与应用 2015(03)
    • [19].中文问句分类特征的研究[J]. 计算机应用与软件 2012(03)
    • [20].基于语义相似度的共词分析方法研究[J]. 图书馆学刊 2017(01)
    • [21].借重于人工知识库的词和义项的向量表示:以HowNet为例[J]. 中文信息学报 2016(06)
    • [22].忠于文本的《离骚》题义原探[J]. 山花 2011(12)
    • [23].基于匈牙利算法的语义相似度分析在信息安全泄密检查中的应用[J]. 新乡学院学报(自然科学版) 2010(06)
    • [24].一种频率增强的语句语义相似度计算[J]. 湖南大学学报(自然科学版) 2013(02)
    • [25].“厨”义原流与“厨柜”文化漫议[J]. 楚雄师范学院学报 2015(08)
    • [26].她们为什么迷“耽美”[J]. 大众心理学 2010(06)
    • [27].基于HowNet的论文复制检测关键技术研究[J]. 福建师范大学学报(自然科学版) 2011(06)
    • [28].面向网络舆情分析的语义相似度算法研究[J]. 山东科学 2014(06)
    • [29].网络文章中句子倾向性判别的方法研究[J]. 信息网络安全 2012(03)
    • [30].一种基于Hownet的词向量表示方法[J]. 北京大学学报(自然科学版) 2019(01)

    标签:;  ;  ;  ;  ;  

    基于知网的多关键字检索研究
    下载Doc文档

    猜你喜欢