基于遗传算法的自适应文本过滤方法的研究

基于遗传算法的自适应文本过滤方法的研究

论文摘要

网络信息的飞速膨胀带来了“信息爆炸”问题,快速准确的从中获取用户所需要的信息,成为一个急需解决的问题。信息过滤(Information Filtering,IF)技术可以帮助人们检出感兴趣的信息从而屏蔽掉其它不需要的部分。面对实时在线的网络信息过滤新挑战,自适应信息过滤(Adaptive InformationFiltering,AIF)技术就在这种情况下产生了,由于具有只需要少量的用户需求信息和能自适应的调整过滤系统等一系列优点,从而成为学者们关注和研究的热点话题。在AIF文本预处理方面,针对文档频率对高频词过于依赖和互信息对低频词过于依赖这一特点,本文给出了二者组合的特征选择方法,试图用组合特征选择方法消除二者的缺点和弊端;另外,对文档频率进行了改进,综合考虑了类内文本频率和类外文本频率。实验结果显示:该方法能有效的提取更有代表意义的特征词来构建用户模板,这样不仅降低了向量空间的维数、简化了计算,而且减少了用户模板的冗余性。在AIF用户模板自适应学习方面,本文采用了一种基于遗传算法的自适应模板自学习过程。通过对系统伪相关反馈的信息进行遗传优化,选择最优的特征信息作为正例质心送入Rocchio(一种反馈算法)反馈模块,从而实现自适应的学习并更新了用户模板。根据实验结果,该方法有效地屏蔽了伪相关反馈信息的稀疏性以及特征歧义性对自学习的误导,改善了AIF系统的过滤性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题的研究背景、意义及现状
  • 1.1.1 课题的研究背景及意义
  • 1.1.2 课题的研究现状
  • 1.1.3 课题的研究重点
  • 1.2 课题与相关领域知识的关系
  • 1.2.1 信息过滤与信息检索
  • 1.2.2 信息过滤与自适应信息过滤
  • 1.2.3 信息过滤与信息抽取
  • 1.3 课题的来源及研究内容
  • 1.3.1 课题的来源
  • 1.3.2 本文的研究内容
  • 1.3.3 本文的组织结构
  • 第2章 自适应信息过滤及文本表示
  • 2.1 自适应信息过滤的体系结构
  • 2.2 基于向量空间模型的文本表示方法
  • 2.2.1 向量空间模型
  • 2.2.2 相似度计算
  • 2.3 用户模板的关键技术
  • 2.3.1 用户需求的扩展
  • 2.3.2 用户模板的概念
  • 2.3.3 用户模板构造方法
  • 2.3.4 用户模板参数设定
  • 2.4 本章小结
  • 第3章 自适应过滤文本预处理关键技术
  • 3.1 实验语料
  • 3.1.1 语料的来源
  • 3.1.2 分词及预处理
  • 3.2 特征加权
  • 3.3 特征选择
  • 3.3.1 特征选择的研究现状
  • 3.3.2 组合特征选择方法
  • 3.3.3 一种改进的特征选择算法
  • 3.4 实验的评价标准
  • 3.5 实验及结果分析
  • 3.5.1 实验流程
  • 3.5.2 实验结果分析
  • 3.6 本章小结
  • 第4章 基于遗传算法的用户模板自学习
  • 4.1 用户模板自学习的研究现状
  • 4.2 遗传算法在模板自学习中的应用
  • 4.2.1 遗传算法基本概念、方法
  • 4.2.2 遗传算法的选择、交叉和变异
  • 4.2.3 遗传算法的一般流程
  • 4.2.4 遗传算法在信息过滤中应用现状
  • 4.2.5 本文的遗传算法实现
  • 4.3 自适应信息过滤的阈值设定
  • 4.4 用户模板的伪相关文档自学习
  • 4.5 基于遗传算法的用户模板自学习
  • 4.6 实验及实验结果
  • 4.6.1 实验过程
  • 4.6.2 正反例反馈实验的对比分析
  • 4.6.3 反馈优化处理的实验对比分析
  • 4.7 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于遗传算法的自适应文本过滤方法的研究
    下载Doc文档

    猜你喜欢