论文摘要
我们在文中讨论了几种模型:基于kolmogorov complexity的NID(NCD)理论的几种模型(第二章、第三章),图模型(第四章),简单关联模型(第五章),设计程序进行了实验验证,和经典的向量空间模型做了对比。并且从两个方面力图解决信息检索理论和经验上的ad hoc问题:从普遍理论导出检索模型,用普遍理论解释经验模型。此外,探讨了信息检索结果等价的形式化分析、向量空间模型假设的形式化分析及其前缀复杂性表示。 一,在NCD理论和模型方面做的工作主要有三:信息检索的NCD解释、NCD模型近似实现和试验、经验模型和NCD模型的比较和解释。 1:信息检索的NCD理论(第二章)。我们从算法信息(描述复杂性)的角度讨论了信息检索的NCD理论。NCD从理论方面给出了解决信息检索理论上一直存在的ad hoc问题的途径。由Kolmogorov complexity定义出来的NCD在理论上证明为一切有意义的距离中最优的。如果信息检索必须含有评分和排序,并且将相关度等同于评分函数所得到的评分,依照评分来排序文档,那么,理论上NCD应该是最优的检索模型。但是由于NCD不可计算,因此只提供了一个理论解释,而具体模型则需要我们用各种策略去近似NCD。 2:NCD模型近似实现和试验(第二章、第三章)。2a.NCD模型依照压缩算法的近似实现和试验(第二章)。 ●我们由NCD理论近似得出了两种基于压缩算法的模型。两个模型由NCD理论近似导出,不同于信息检索的模型(信息检索模型一直具有ad hoc问题),并且是揭示了压缩和信息检索相关度之间的关系。就文本的结构算法信息进行了实验。实验的结果表明,压缩率越大,则检索效果越好。而对文本做编码,使得单词能够作为一个单位,或者编码长度一致,检索效果也有了提高。这表明,进一步改进压缩算法,提高压缩率,进而得到更高的检索效果;修改实现压缩算法的程序,使之真正以单词为单位进行压缩,从而得到更好的检索效果。 ●我们根据lz算法,设计了一个简单算法,真正以单词为单位进行压缩(把词作为不可压缩的码字),编制程序进行了实验验证。实验结果表明,真正以单词为单位进行压缩,则检索性能大有提高,限于条件,简化算法没有达到lz算法最优压缩效果。
论文目录
关于学位论文使用授权的说明摘要Abstract第一章 信息检索概述1.1 引言1.2 四种基本的信息检索模型1.2.1 基于集合论的模型1.2.1.1 布尔模型1.2.1.2 布尔模型的几种变体1.2.1.3 MMM模型1.2.1.4 Paice模型1.2.1.5 P-norm模型1.2.2 代数模型1.2.2.1 向量空间模型1.2.2.2 广义向量空间模型1.2.2.3 潜在语义标引模型(latent semantics indexing model,LSI)1.2.2.4 神经网络模型(Neural Network Model)1.2.3 概率模型1.2.3.1 贝叶斯网络(bayesian)1.2.4 语言模型1.2.4.1 一元语法模型1.2.4.2 隐马尔科夫模型(HMM)1.2.4.3 统计语言翻译模型1.2.4.4 信息检索的语言模型和贝叶斯决策理论1.3 检索模型评价与评测组织1.3.1 模型评价1.3.2 TREC简介1.4 模型的基础理论研究以及理论研究上的ad hoc问题1.5 各种模型的实现1.5.1 一般信息检索系统的架构1.5.2 几个信息检索软件简介1.5.2.1 smart1.5.2.2 lemur第二章 信息检索的NID(NCD)距离与由此导出的模型2.1 描述复杂性理论(Kolmogorov's complexity)2.1.1 任意性或随机性与不可计算性或非递归性2.1.2 描述复杂性(Kolmogorov's complexity)2.1.3 准测度,描述概率和推理概率2.1.4 描述复杂性(Kolmogorov's comptexity)和距离2.2 描述复杂性(Kolmogorov's complexity),归一化绝对距离和信息检索2.2.1 归一化绝对距离2.2.2 压缩概述,有损压缩,无损压缩与信息检索2.2.2.1 通用压缩算法概述2.2.2.2 非通用压缩-多媒体数据的压缩2.2.2.3 压缩算法和技术目前和将来的发展2.2.2.4 有损压缩,无损压缩和信息检索2.3 信息检索的NCD模型2.3.1 信息检索的NCD模型的实现2.4 信息检索的NCD模型的zlib近似实现和实验2.4.1 实验12.4.1.1 实验1的设定2.4.1.2 实验1的结果2.4.1.3 实验1的分析2.4.2 实验22.4.2.1 实验2的设定2.4.2.2 实验2的结果2.4.2.3 实验2的分析2.4.3 实验32.4.3.1 实验3的设定2.4.3.2 实验3的结果2.4.3.3 实验3的分析2.4.4 实验42.4.4.1 实验4的设定2.4.4.2 实验4的结果2.4.4.3 实验4的分析2.4.5 实验52.4.5.1 实验5的设定2.4.5.2 实验5的结果2.4.5.3 实验5的分析2.4.6 实验62.4.6.1 实验6的设定2.4.6.2 实验6的结果2.4.6.3 实验6的分析2.4.7 zlib试验分析2.5 ncd的bzip近似模型与实验2.5.1 bzip近似模型的压缩算法2.5.2 实验72.5.2.1 实验7的设定2.5.2.2 实验7的结果2.5.2.3 实验7的分析2.5.3 实验82.5.3.1 实验8的设定2.5.3.2 实验8的结果2.5.3.3 实验8的分析2.5.4 实验92.5.4.1 实验9的设定2.5.4.2 实验9的结果2.5.4.3 实验9的分析2.5.5 bzip试验分析2.6 NCD模型一个简单的近似实现2.6.1 实验102.6.1.1 实验10的设定2.6.1.2 实验10的结果2.6.1.3 实验10的分析2.6.2 实验112.6.2.1 实验11的设定2.6.2.2 实验11的结果2.6.2.3 实验11的分析2.7 结论与将来的工作2.7.1 信息检索的NCD理论2.7.2 NCD模型依照压缩算法的近似实现和试验2.7.2.1 NCD模型依照LZ,BWT的近似实现和试验2.7.2.2 NCD模型以单词为单位进行压缩的LZ简单实现和试验2.7.3 信息检索NCD模型将来的进一步工作第三章 信息检索的经验模型,NCD距离与NCD距离模型探讨3.1 信息检索的形式定义与若干性质3.1.1 信息检索的形式描述3.2 向量空间模型与其他经验模型的比较,向量空间模型的假设3.2.1 语言模型和向量空间模型的比较3.2.2 向量空间模型的假设3.2.3 一个典型的向量空间模型的表示函数与评分函数3.3 归一化绝对距离在VSM两个假设之下导出的模型与实验验证3.3.1 归一化绝对距离在向量空间模型的两个假设之下导出的模型3.3.2 实验13.3.2.1 实验1的设定3.3.2.2 实验1的结果3.3.2.3 实验1的分析3.3.3 实验23.3.3.1 实验2的设定3.3.3.2 实验2的结果3.3.3.3 实验2的分析3.4 向量空间模型与归一化绝对距离的比较3.4.1 向量空间模型与归一化绝对距离3.5 结论和将来的工作3.5.1 信息检索结果等价的形式化分析、向量空间模型假设的形式化分析及其前缀复杂性表示3.5.2 NCD模型在VSM假设之下的近似实现和试验3.5.3 NCD模型中近似取得词语的算法信息或前缀复杂度的方法3.5.4 经验模型(VSM)和NCD模型的比较和解释第四章 信息检索的文档图模型4.1 文档图模型与相关的工作4.1.1 文档图模型4.1.2 我们的图模型和其他机构一些相关的工作4.2 离散马尔可夫链、图模型、对阅读过程的建模(词之间,句子之间的连接关系)4.3 图模型试验4.3.1 实验14.3.1.1 实验1的设定4.3.1.2 实验1的结果4.3.1.3 实验1的分析4.4 结论和将来的工作第五章 关联模型:简化的实现和试验5.1 简单关联模型5.2 简单关联模型试验一5.2.1 实验设定5.2.2 实验结果5.2.3 实验分析5.3 简单关联模型试验二5.3.1 实验设定5.3.2 实验结果5.3.3 实验分析5.4 简单关联模型试验三:混合简单关联模型和向量空间模型5.4.1 实验设定5.4.2 实验结果5.4.3 实验分析5.5 混合实验对应的简单向量空间模型实验5.5.1 实验设定5.5.2 实验结果5.5.3 实验分析5.6 简单关联模型结论和将来进一步的工作第六章 经典信息检索模型的相关实验6.1 经典信息检索模型的软件实现6.1.1 简单的经典模型检索6.1.2 带反馈的经典模型检索6.1.3 rerank检索6.1.4 评测6.2 信息检索的向量空间,okapi,lm模型的检索实验6.2.1 实验16.2.1.1 实验1的设定6.2.1.2 实验1的结果6.2.2 实验26.2.2.1 实验2的设定6.2.2.2 实验2的结果6.2.3 实验36.2.3.1 实验3的设定6.2.3.2 实验3的结果6.3 反馈试验6.3.1 实验46.3.1.1 实验4的设定6.3.1.2 实验4的结果6.3.2 实验56.3.2.1 实验5的设定6.3.2.2 实验5的结果6.4 信息检索模型的rerank实验6.4.1 实验66.4.1.1 实验6的设定6.4.1.2 实验6的结果6.4.1.3 实验6的分析6.4.2 实验76.4.2.1 实验7的设定6.4.2.2 实验7的结果6.4.3 实验86.4.3.1 实验8的设定6.4.3.2 实验8的结果第七章 结论7.1 基于kolmogorov complexity的NCD模型,理论和经验模型的解释7.1.1 信息检索的NCD理论7.1.2 基于kolmogorov complexity的NCD模型的近似实现和试验7.1.2.1 NCD模型依照压缩算法的近似实现和试验7.1.2.2 NCD模型在VSM假设之下的近似实现和试验7.1.3 VSM诸经验摸型和NCD模型的比较和解释7.1.3.1 近似取得词语的算法信息或前缀复杂度的方法7.1.3.2 经验模型(VSM)和NCD模型的比较和解释7.2 信息检索结果等价,VSM假设的形式化分析和VSM假设的前缀复杂性表示7.2.1 信息检索结果等价的形式化分析7.2.2 向量空间模型假设的形式化分析和前缀复杂性表示7.3 图模型7.4 简单关联模型参考文献致谢声明附录A 相关数学概念,定理,公式和证明A.1 随机性和有效测试的有关概念和定理个人简历、在学期间的研究成果及发表的论文
相关论文文献
- [1].关于“信息检索学”是否存在问题的探讨[J]. 中国索引 2012(03)
- [2].从新视角开展信息检索建模研究[J]. 中国出版 2020(08)
- [3].在线健康信息检索行为实验研究内容梳理及启示[J]. 图书情报工作 2020(03)
- [4].情境感知视角下的信息检索发展研究[J]. 图书情报导刊 2020(04)
- [5].计算机信息检索对图书情报的影响分析[J]. 中国新通信 2020(17)
- [6].任务情境下的儿童信息检索行为研究[J]. 图书馆理论与实践 2019(05)
- [7].企业用户信息检索模式研究[J]. 中国管理信息化 2019(18)
- [8].探讨现代信息检索对图书馆信息服务的影响[J]. 办公室业务 2019(22)
- [9].“信息检索与利用”混合式教学中实践教学作业设置探讨[J]. 江苏科技信息 2018(13)
- [10].基于蓝墨云班课的翻转课堂教学实践——以高职“信息检索”课程为例[J]. 中国信息技术教育 2017(01)
- [11].信息检索在公安管理中的应用探讨[J]. 山西青年 2017(02)
- [12].检索是一种素养[J]. 大学生 2017(07)
- [13].自学检索[J]. 大学生 2017(10)
- [14].信息检索服务小微企业的探析——基于“大众创业、万众创新”背景[J]. 科技创业月刊 2016(04)
- [15].网络档案信息检索的元数据设计[J]. 山西档案 2020(01)
- [16].巧用智能手机拓展高职信息检索课堂[J]. 北极光 2019(03)
- [17].跨语言信息检索中的最关联英文语义翻译选取[J]. 现代电子技术 2017(12)
- [18].雨课堂在《信息检索与利用》课程教学中的应用实践[J]. 中国教育信息化 2017(20)
- [19].研究生与本科生信息检索焦虑研究[J]. 图书馆学刊 2015(11)
- [20].网络环境下的图像信息检索行为的现状调查及优化对策[J]. 科教文汇(上旬刊) 2014(10)
- [21].微信辅助信息检索教学的SWOT分析[J]. 中国新通信 2014(24)
- [22].开放网络知识的信息检索与数据挖掘探究[J]. 电脑迷 2016(09)
- [23].高校图书馆读者信息检索竞赛活动研究[J]. 新世纪图书馆 2014(10)
- [24].跨语言信息检索在搜索引擎中的应用[J]. 中小企业管理与科技(上旬刊) 2013(04)
- [25].艺术信息检索[J]. 大舞台 2012(03)
- [26].我国企业信息检索存在的通病与对策[J]. 重庆与世界(学术版) 2012(07)
- [27].财经院校经济信息检索与利用教育模式的构建[J]. 高等财经教育研究 2012(04)
- [28].网络环境下高职院校信息检索教育的思考[J]. 科技信息 2009(31)
- [29].2006-2007年国外用户信息检索行为研究述评[J]. 图书馆建设 2008(03)
- [30].医科院校信息检索教育形式多样化的研究[J]. 科技情报开发与经济 2008(18)
标签:文本信息检索论文; 描述复杂性论文; 图模型论文; 简单关联模型论文; 经验模型论文; 经验模型的问题论文; 信息检索的问题论文;