文本检索中若干问题研究

文本检索中若干问题研究

论文摘要

信息检索技术就是从信息的集合中识别和获取信息的技术,这种技术对人们的学习和科研有着重大意义,尤其是在互联网广泛应用的今天,信息数量激增,信息检索技术已经成为人们有效地开发和利用各种信息资源,更广泛、更快捷、更全面地吸收和获取信息的一条重要途径。本文的研究主要涉及文本检索中的文档处理、文本分类、查询优化等相关技术,主要成果包括: 1.文本分类中的特征选择 本文对常用的互信息函数进行了改进,引入了绝对可信度、相对可信度和综合可信度的概念,提出了基于互信息可信度的特征选择方法,该方法不仅考虑了某个词与某类的相关程度,还考虑了该词与各个类之间相关程度的差别,也就是与类别间互信息最大值的可信度,实验数据表明,相对于基本的互信息函数,基于互信息可信度的特征选择算法能够有效提高分类的准确率、召回率和F1值。此外,本文还提出对几种常规的评估函数进行归一化,或者基于这些常规评估函数进行局部特征选择,实验数据表明,归一化的特征选择和局部特征选择都或多或少地提高了系统的分类准确率。 2.多类判别问题 对于多类别文本的判别问题,通常需要对每个类别确定阈值,当文本与某类的相似度在该类的阈值之上,就将文本归于该类中。本文在多类判别问题的阈值确定方面进行了研究,提出了评估指标最大化阈值确定法,对任一类别,以最大化该类的分类评估值为准则,寻找该类的闽值。实验结果表明,该方法能够将部分多类样本正确分类,但是还需要进一步的研究。 3.查询优化 本文针对已有的带有衰减因子的词共现模型,提出了基于向量距离的改进互信息的查询扩展方法,将检索词在文档空间中的距离引入到互信息计算中,实验数据表明该算法能够有效提高信息检索系统的性能,此外,本文提出了可变权值的伪反馈算法,利用初次检索结果中前列文档与查询的相似度对Ide公式进行修改,实验数据证明该方法能够取得较好的反馈效果。 4.对文本图像的识别处理 本文研究了传统OCR技术中的相关内容,对经典滴水算法进行了改进,提出了一种惯性大水滴滴水算法,增大水滴的尺寸,并且使水滴具有了惯性,当它遇到连笔字符或者字符表面的凹槽时,不会像传

论文目录

  • 第一章 绪论
  • 1.1 选题意义
  • 1.2 国内外研究现状
  • 1.3 本文拟解决的问题
  • 1.4 本文的创新点
  • 1.5 本文内容安排
  • 本章参考文献
  • 第二章 信息检索的相关技术
  • 2.1 引言
  • 2.1.1 信息检索
  • 2.1.2 本章内容安排
  • 2.2 信息检索模型
  • 2.2.1 布尔模型
  • 2.2.2 概率模型
  • 2.2.3 向量空间模型
  • 2.3 信息检索系统
  • 2.4 信息检索中的相关技术
  • 2.4.1 中文信息检索的分词
  • 2.4.2 索引建立
  • 2.4.3 评价指标
  • 2.5 本章小结
  • 本章参考文献
  • 第三章 文本分类技术研究
  • 3.1 引言
  • 3.1.1 方法提出背景
  • 3.1.2 本章内容安排
  • 3.2 文本分类
  • 3.2.1 问题描述
  • 3.2.2 相关技术概述
  • 3.3 特征选择
  • 3.3.1 常用的评价函数
  • 3.3.2 基于互信息可信度的特征选择算法
  • 3.3.3 归一化和局部的特征选择
  • 3.4 特征抽取
  • 3.4.1 词-文档矩阵
  • 3.4.2 PCA和LDA介绍
  • 3.4.3 实验结果
  • 3.5 多类判别问题
  • 3.5.1 问题提出
  • 3.5.2 评估指标最大化阈值确定法
  • 3.5.3 算法实现及实验结果
  • 3.6 本章小结
  • 本章参考文献
  • 第四章 查询优化的相关研究
  • 4.1 引言
  • 4.1.1 方法提出背景
  • 4.1.2 本章主要内容
  • 4.2 查询扩展
  • 4.2.1 问题描述
  • 4.2.2 查询扩展方法
  • 4.3 基于改进互信息的查询扩展
  • 4.3.1 关键词与查询间的互信息
  • 4.3.2 基于距离的互信息计算
  • 4.3.3 关键词之间的距离计算
  • 4.3.4 实验结果
  • 4.4 查询语词重新加权
  • 4.4.1 相关反馈
  • 4.4.2 伪相关反馈
  • 4.4.3 局部聚类相关反馈
  • 4.4.4 可变权值的伪相关反馈
  • 4.4.5 实验结果
  • 4.5 本章小结
  • 本章参考文献
  • 第五章 文本图像检索的相关研究
  • 5.1 引言
  • 5.1.1 文本图像的检索
  • 5.1.2 本章内容安排
  • 5.2 传统的OCR技术
  • 5.2.1 OCR技术的关键技术
  • 5.2.2 图像二值化
  • 5.2.3 手写数字切分算法
  • 5.3 惯性大水滴滴水算法
  • 5.3.1 TDF算法的数学描述
  • 5.3.2 惯性滴水算法(IDF)
  • 5.3.3 大水滴及惯性滴水算法(BIDF)
  • 5.3.4 寻找切分起始点
  • 5.3.5 实验结果
  • 5.4 本章小结
  • 本章参考文献
  • 第六章 总结和展望
  • 6.1 论文总结
  • 6.2 未来工作展望
  • 致谢
  • 博士期间完成的主要论文
  • 相关论文文献

    • [1].关于“信息检索学”是否存在问题的探讨[J]. 中国索引 2012(03)
    • [2].从新视角开展信息检索建模研究[J]. 中国出版 2020(08)
    • [3].在线健康信息检索行为实验研究内容梳理及启示[J]. 图书情报工作 2020(03)
    • [4].情境感知视角下的信息检索发展研究[J]. 图书情报导刊 2020(04)
    • [5].计算机信息检索对图书情报的影响分析[J]. 中国新通信 2020(17)
    • [6].任务情境下的儿童信息检索行为研究[J]. 图书馆理论与实践 2019(05)
    • [7].企业用户信息检索模式研究[J]. 中国管理信息化 2019(18)
    • [8].探讨现代信息检索对图书馆信息服务的影响[J]. 办公室业务 2019(22)
    • [9].“信息检索与利用”混合式教学中实践教学作业设置探讨[J]. 江苏科技信息 2018(13)
    • [10].基于蓝墨云班课的翻转课堂教学实践——以高职“信息检索”课程为例[J]. 中国信息技术教育 2017(01)
    • [11].信息检索在公安管理中的应用探讨[J]. 山西青年 2017(02)
    • [12].检索是一种素养[J]. 大学生 2017(07)
    • [13].自学检索[J]. 大学生 2017(10)
    • [14].信息检索服务小微企业的探析——基于“大众创业、万众创新”背景[J]. 科技创业月刊 2016(04)
    • [15].网络档案信息检索的元数据设计[J]. 山西档案 2020(01)
    • [16].巧用智能手机拓展高职信息检索课堂[J]. 北极光 2019(03)
    • [17].跨语言信息检索中的最关联英文语义翻译选取[J]. 现代电子技术 2017(12)
    • [18].雨课堂在《信息检索与利用》课程教学中的应用实践[J]. 中国教育信息化 2017(20)
    • [19].研究生与本科生信息检索焦虑研究[J]. 图书馆学刊 2015(11)
    • [20].网络环境下的图像信息检索行为的现状调查及优化对策[J]. 科教文汇(上旬刊) 2014(10)
    • [21].微信辅助信息检索教学的SWOT分析[J]. 中国新通信 2014(24)
    • [22].开放网络知识的信息检索与数据挖掘探究[J]. 电脑迷 2016(09)
    • [23].高校图书馆读者信息检索竞赛活动研究[J]. 新世纪图书馆 2014(10)
    • [24].跨语言信息检索在搜索引擎中的应用[J]. 中小企业管理与科技(上旬刊) 2013(04)
    • [25].艺术信息检索[J]. 大舞台 2012(03)
    • [26].我国企业信息检索存在的通病与对策[J]. 重庆与世界(学术版) 2012(07)
    • [27].财经院校经济信息检索与利用教育模式的构建[J]. 高等财经教育研究 2012(04)
    • [28].网络环境下高职院校信息检索教育的思考[J]. 科技信息 2009(31)
    • [29].2006-2007年国外用户信息检索行为研究述评[J]. 图书馆建设 2008(03)
    • [30].医科院校信息检索教育形式多样化的研究[J]. 科技情报开发与经济 2008(18)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    文本检索中若干问题研究
    下载Doc文档

    猜你喜欢