中文搜索引擎的关键技术研究

中文搜索引擎的关键技术研究

论文摘要

本文简要地介绍了互联网搜索引擎的概念、分类及发展历史;分析了中文搜索引擎的工作流程、系统组成和其中应用的相关原理技术,同时指出了中文搜索引擎的不足和发展趋势。本文着重分析了汉语自动分词技术和检索技术在中文搜索引擎中应用和面临的一些主要问题,分析和比较了现有汉语自动分词技术和检索技术。在对搜索引擎用户的查询需求的分析基础上,本文建立了一种基于HNC理论的语义六元组模型,该模型将搜索用户查询关键词的特征归纳为{时间、空间、环境、主角、行为动作、状态(结果)}六个要素,并提出了模型的建立的算法。本文进一步出了一种面向网页文档的语义挖掘算法、基于网页挖掘的二次匹配检索算法和新的排序算法,简化了查询关键字,有效的降低了网页的噪音。使得网页与查询语句的相关度更精确,也大大降低了检索算法的时间复杂度。文章的最后,利用lucene检索系统改进了搜索引擎系统模型。实现了面向Web的查询关键字和网页文档的语义统一模型,解决了查询文字与网页文档之间的语义概念关联问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 搜索引擎概述
  • 1.2 搜索引擎的发展
  • 1.3 搜索引擎分类
  • 1.4 搜索引擎技术的发展趋势
  • 1.5 本文的主要工作及内容组织
  • 第二章 搜索引擎的工作过程和系统组成
  • 2.1 搜索引擎的工作过程
  • 2.2 搜索引擎系统组成
  • 2.2.1 搜索器
  • 2.2.2 索引器
  • 2.2.3 检索器
  • 2.2.4 检索结果排序
  • 2.3 本章小结
  • 第三章 中文搜索引擎关键技术研究
  • 3.1 汉语自动分词技术研究
  • 3.1.1 汉语的特点
  • 3.1.2 一元切分
  • 3.1.3 二元分词技术
  • 3.1.4 基于字符串匹配的分词技术
  • 3.1.5 基于统计的分词技术
  • 3.1.6 几种分词技术的综合比较
  • 3.1.7 分词中的难题
  • 3.1.8 中文分词的应用
  • 3.2 检索技术
  • 3.2.1 布尔逻辑模型
  • 3.2.2 模糊逻辑模型
  • 3.2.3 向量空间模型
  • 3.2.4 概率检索模型
  • 3.2.5 基于超文本技术的信息检索模型
  • 3.2.6 用户行为相关的检索模型
  • 3.2.7 基于聚类的检索模型
  • 3.2.8 本章小结
  • 第四章 LUCENE 简介
  • 4.1 什么是 LUCENE
  • 4.2 LUCENE的历史
  • 4.3 LUCENE的全文索引与数据库的全文索引的比较
  • 4.4 LUCENE的优点
  • 4.5 LUCENE的系统结构
  • 4.6 LUCENE的数据流分析
  • 4.7 LUCENE的索引结构分析
  • 4.8 LUCENE并发控制及锁机制
  • 4.9 本章小结
  • 第五章 基于 HNC 理论的网页语义挖掘技术
  • 5.1 HNC 理论简介
  • 5.2 基于 HNC 理论的语义六元组模型建立
  • 5.2.1 对搜索引擎用户的查询需求的分析
  • 5.2.2 语义六元组模型的建立
  • 5.3 基于六元组模型的网页文档语义挖掘算法
  • 5.4 基于网页挖掘二次匹配检索算法
  • 5.5 算法的验证与分析
  • 5.5.1 搜索引擎的评价标准
  • 5.5.2 语义六元组模型算法有效性的验证与分析
  • 5.5.3 网页文档语义挖掘算法的验证与分析
  • 5.6 本章小结
  • 第六章 对搜索引擎模型的改进
  • 6.1 引言
  • 6.2 总体流程
  • 6.3 各个模块的主要功能
  • 6.4 检索工具及排序
  • 6.4.1 基于 Lucene 工具建立搜索引擎
  • 6.4.2 返回文档排序
  • 6.5 本章小结
  • 第七章 论文总结与展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  

    中文搜索引擎的关键技术研究
    下载Doc文档

    猜你喜欢