论文摘要
网络信息的飞速膨胀带来了“信息爆炸”问题,快速准确的从中获取用户所需要的信息,成为一个急需解决的问题。信息过滤(Information Filtering,IF)技术可以帮助人们检出感兴趣的信息从而屏蔽掉其它不需要的部分。面对实时在线的网络信息过滤新挑战,自适应信息过滤(Adaptive InformationFiltering,AIF)技术就在这种情况下产生了,由于具有只需要少量的用户需求信息和能自适应的调整过滤系统等一系列优点,从而成为学者们关注和研究的热点话题。在AIF文本预处理方面,针对文档频率对高频词过于依赖和互信息对低频词过于依赖这一特点,本文给出了二者组合的特征选择方法,试图用组合特征选择方法消除二者的缺点和弊端;另外,对文档频率进行了改进,综合考虑了类内文本频率和类外文本频率。实验结果显示:该方法能有效的提取更有代表意义的特征词来构建用户模板,这样不仅降低了向量空间的维数、简化了计算,而且减少了用户模板的冗余性。在AIF用户模板自适应学习方面,本文采用了一种基于遗传算法的自适应模板自学习过程。通过对系统伪相关反馈的信息进行遗传优化,选择最优的特征信息作为正例质心送入Rocchio(一种反馈算法)反馈模块,从而实现自适应的学习并更新了用户模板。根据实验结果,该方法有效地屏蔽了伪相关反馈信息的稀疏性以及特征歧义性对自学习的误导,改善了AIF系统的过滤性能。
论文目录
摘要ABSTRACT第1章 绪论1.1 课题的研究背景、意义及现状1.1.1 课题的研究背景及意义1.1.2 课题的研究现状1.1.3 课题的研究重点1.2 课题与相关领域知识的关系1.2.1 信息过滤与信息检索1.2.2 信息过滤与自适应信息过滤1.2.3 信息过滤与信息抽取1.3 课题的来源及研究内容1.3.1 课题的来源1.3.2 本文的研究内容1.3.3 本文的组织结构第2章 自适应信息过滤及文本表示2.1 自适应信息过滤的体系结构2.2 基于向量空间模型的文本表示方法2.2.1 向量空间模型2.2.2 相似度计算2.3 用户模板的关键技术2.3.1 用户需求的扩展2.3.2 用户模板的概念2.3.3 用户模板构造方法2.3.4 用户模板参数设定2.4 本章小结第3章 自适应过滤文本预处理关键技术3.1 实验语料3.1.1 语料的来源3.1.2 分词及预处理3.2 特征加权3.3 特征选择3.3.1 特征选择的研究现状3.3.2 组合特征选择方法3.3.3 一种改进的特征选择算法3.4 实验的评价标准3.5 实验及结果分析3.5.1 实验流程3.5.2 实验结果分析3.6 本章小结第4章 基于遗传算法的用户模板自学习4.1 用户模板自学习的研究现状4.2 遗传算法在模板自学习中的应用4.2.1 遗传算法基本概念、方法4.2.2 遗传算法的选择、交叉和变异4.2.3 遗传算法的一般流程4.2.4 遗传算法在信息过滤中应用现状4.2.5 本文的遗传算法实现4.3 自适应信息过滤的阈值设定4.4 用户模板的伪相关文档自学习4.5 基于遗传算法的用户模板自学习4.6 实验及实验结果4.6.1 实验过程4.6.2 正反例反馈实验的对比分析4.6.3 反馈优化处理的实验对比分析4.7 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢
相关论文文献
标签:自适应信息过滤论文; 用户模板论文; 特征选择论文; 遗传算法论文;