信息自适应过滤的效用指标优化方法

信息自适应过滤的效用指标优化方法

论文摘要

TREC(Text Retrieval Conference)是信息检索领域中最重要的国际会议,文本过滤是TREC的重要任务之一,自适应过滤是过滤任务的最重要的子任务。对TREC指标函数的优化是一个包括优化时机、优化策略、优化幅度等因素的复杂的过程,是自适应过滤中非常重要的研究方向。利用极大似然估计法(记为ML)对评测指标进行优化在TREC9中取得了第一名的成绩。ML是一种全局优化的方法,它对文档得分(相似度)分布参数估计偏差最小,能够较精确的反映语料集的整体特征。但是ML是一种全局性的方法,它对语料库的局部(每一反馈区间)特征反应“不敏感”,尤其是到了过滤中后期由于过滤的累积效应,ML对阈值的调整有滞后作用,这样就降低了过滤系统的性能。 本文主要解决的是ML方法对语料库局部反应“不敏感”的问题,在ML方法的基础上对TREC效用指标函数再进行局部优化,本文把这种方法叫做基于极大似然估计法的局部优化方法(记为MMLOR)。MMLOR不是对ML方法和局部优化方法简单的相加,它是一个复杂的逐步迭代的过程。MMLOR方法以ML方法为主线,又根据每一反馈区间对TREC效用指标函数的增益情况对阈值进行局部优化,从而增加过滤系统对局部的敏感度。因此,MMLOR方法不仅可以反应语料库的整体分布特征,还可以反应出语料库的局部特征,对效用指标函数起到全面优化的作用。 本文在相同的过滤环境下对MMOLOR.、ML、局部优化的方法的进行了比较,实验结果表明采用MMLOR方法对TREC效用指标函数进行优化的效果最好,从而证明了MMLOR优化方法比ML和局部优化方法更合理、更有效。

论文目录

  • 摘要
  • Abstract
  • 引言
  • 1 绪论
  • 1.1 论文背景
  • 1.1.1 信息过滤是海量信息的需要
  • 1.1.2 信息过滤是保障信息安全需要
  • 1.1.3 过滤技术的重要意义
  • 1.2 文本过滤的研究现状
  • 1.2.1 文木过滤发展概述
  • 1.2.2 文本过滤的任务描述
  • 1.2.3 文本过滤的与文本检索的关系
  • 1.3 向量空间模型简介
  • 1.3.1 VSM的几个基本概念
  • 1.3.2 VSM的相似度的计算
  • 1.3.3 VSM的优缺点
  • 1.4 文本过滤常用方法及逻辑模型
  • 1.5 论文的组织结构
  • 2 TREC及自适应过滤
  • 2.1 TREC简介
  • 2.1.1 TREC的数据集
  • 2.1.2 THU实验研究中的主要技术
  • 2.1.3 TREC算法评价
  • 2.2 自适应过滤
  • 2.2.1 自适应过滤的任务描述
  • 2.2.2 自适应过滤的系统结构
  • 2.2.3 自适应过滤的评估
  • 2.3 自适应过滤中的目标优化技术比较
  • 2.3.1 Direct Utility方法
  • 2.3.2 Beta-Gamma方法
  • 2.3.3 Logistic Regression方法
  • 2.3.4 Score Distribution方法
  • 2.3.5 启发式的阈值调整算法
  • 2.3.6 贪心搜索算法(Greedy Search)
  • 2.3.7 优化算法的比较和评价
  • 3 基于极大似然估计法的自适应过滤效用指标局部优化方法
  • 3.1 相似度分布模型
  • 3.2 基于极大似然估计法的自适应过滤效用指标局部优化方法
  • 3.2.1 KUN参数分布算法中存在的问题
  • 3.2.2 相似度分布参数的极大似然估计法
  • 3.2.3 利用共扼梯度下降法对参数进行估计
  • 3.2.4 TREC中极大似然法的使用
  • 3.2.5 局部效用指标的优化技术
  • 3.2.6 基于极大似然估计法的局部效用指标优化方法
  • 4 MMLOR自适应过滤系统试验设计及结果分析
  • 4.1 语料库及特征提取
  • 4.1.1 语料库及说明
  • 4.1.2 分词的实施
  • 4.1.3 特征提取
  • 4.1.4 特征项权重的计算
  • 4.1.5 文本的存储方法和压缩
  • 4.2 Rocchio算法
  • 4.3 MMLOR自适应过滤系统的体系结构
  • 4.3.1 过滤系统的体系结构
  • 4.3.2 MMLOR方法在过滤中对阈值调整的示意图
  • 4.4 MMLOR方法算法复杂度分析
  • 4.5 实验结果分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 大连理工大学学位论文版权使用授权书
  • 相关论文文献

    • [1].儿童九维健康效用量表的应用介绍[J]. 中国卫生经济 2020(05)
    • [2].一种高平均效用项集挖掘的有效算法[J]. 信息与电脑(理论版) 2020(05)
    • [3].实验材料在演讲稿写作中的独特效用[J]. 应用写作 2019(12)
    • [4].情景描述在演讲稿写作中的独特效用[J]. 应用写作 2017(12)
    • [5].论医生收入组成对患者效用的影响[J]. 商 2016(13)
    • [6].信访问题必须统筹治理[J]. 人民周刊 2015(06)
    • [7].从效用层面浅析口红效应[J]. 现代经济信息 2020(08)
    • [8].国内外普适性健康效用量表综述研究[J]. 中国卫生政策研究 2020(08)
    • [9].激励视角下供应链金融监管效用演化博弈分析[J]. 中国市场 2017(17)
    • [10].人力资源管理成本与效用的平衡[J]. 现代营销(下旬刊) 2015(11)
    • [11].企业审计人员专业胜任能力和审计效用均衡的探索[J]. 商场现代化 2015(08)
    • [12].论内部审计如何在防范风险和深化效用方面发挥更大作用[J]. 大众投资指南 2020(11)
    • [13].消费两效用[J]. 当代工人 2015(03)
    • [14].实施多元积累 促进语言效用[J]. 语文天地 2009(03)
    • [15].要富裕还要幸福[J]. 党政干部参考 2011(05)
    • [16].儿童九维健康效用量表及其应用介绍[J]. 中国药物经济学 2020(10)
    • [17].基于活动效用的通勤者出行方式选择研究[J]. 系统科学与数学 2020(10)
    • [18].居民医疗保险中道德风险引致福利效用损失测度——理论分析模型及框架[J]. 西北人口 2011(05)
    • [19].基于体验效用的幸福及其测量[J]. 心理科学进展 2010(07)
    • [20].效用空间驱动下的产品在线定制过程研究[J]. 科技进步与对策 2009(12)
    • [21].论语言文化与政治效用的关系[J]. 中州学刊 2009(05)
    • [22].吉芬商品的效用层次分析[J]. 现代经济信息 2009(23)
    • [23].基于马尔科夫链的起源过滤效用评估模型[J]. 陕西科技大学学报 2020(02)
    • [24].效用可测量:一场“序数主义革命”的再革命——一个心理学与经济学杂交的幸福经济学成果[J]. 外国经济学说与中国研究报告 2014(00)
    • [25].如何发挥媒资效用的几点思考[J]. 神州 2013(19)
    • [26].路径选择效用度模型中有效因子的分析[J]. 长春师范大学学报 2020(10)
    • [27].基于讨价还价的重叠联盟效用划分策略[J]. 模式识别与人工智能 2014(10)
    • [28].相对效用、男孩偏好与生育性别选择[J]. 南方人口 2010(01)
    • [29].校友捐赠效用与持续捐赠意愿的关系研究——来自“非双一流”高校的实证依据[J]. 高教探索 2019(12)
    • [30].社交网络中用户体验效用对知识持续共享意愿影响研究[J]. 现代情报 2020(03)

    标签:;  ;  ;  

    信息自适应过滤的效用指标优化方法
    下载Doc文档

    猜你喜欢