论文摘要
随着信息技术的发展,特别是因特网应用的普及,出现了“信息过载”和“信息迷失”的问题。如何管理因特网上的大量信息,提供个性化服务成为当前信息服务领域的研究热点之一。论文主要研究网络信息提取系统中的用户兴趣模型,解决了已有系统不能向单个用户提供个性化服务的问题。论文在分析研究建模技术的基础上,提出了一种由短期兴趣模型和长期兴趣模型组成的混合用户兴趣模型,主要介绍了用户兴趣模型的建立和更新方法。通过在二层树状结构中加入时间向量来精确描述用户兴趣模型,使它不但具有层次性,而且能区分用户的短期和长期兴趣。同时采用层次和划分结合的聚类算法进行文本聚类,提高了聚类效率。为了准确收集用户的浏览行为,通过相关性分析归纳出反映用户兴趣的浏览行为最小组合,并提出基于优化时间窗的兴趣漂移算法来更新模型,它通过分类错误率的显著变化跟踪用户兴趣的改变和通过优化时间窗口处理用户兴趣漂移。系统通过“显式”收集用户浏览内容和浏览行为调整用户兴趣度,建立用户兴趣模型,同时通过基于优化时间窗的兴趣漂移算法“隐式”更新用户兴趣模型。实验结果表明,基于此兴趣模型的网络信息提取系统能对检索结果做出个性化过滤处理,提高用户的查准率和查全率,满足用户的个性化需求。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 个性化信息过滤技术的发展状况1.2.1 个性化信息过滤系统的分类1.2.2 国内外研究现状1.2.3 个性化信息过滤系统存在的问题1.3 本文的工作与组织结构第二章 相关理论和技术2.1 用户兴趣模型2.2 用户数据的收集2.3 建模的相关技术2.3.1 向量空间模型2.3.2 经典聚类算法2.3.3 HOOK技术2.4 本章小结第三章 网络信息提取系统中用户兴趣模型的建立3.1 混合用户模型建模3.1.1 混合用户兴趣模型3.1.2 基于时间的二层树状空间向量模型表示3.1.3 用户兴趣模型的存储方式3.2 用户浏览页面预处理3.2.1 浏览页面的获取3.2.2 HTML页面规范化3.2.3 文本特征向量的抽取3.3 文本聚类3.3.1 聚类算法分析3.3.2 层次和划分结合的聚类算法3.4 基于概化方法的兴趣主题词抽取3.5 本章小结第四章 网络信息提取系统中用户兴趣模型的更新4.1 基于兴趣度估计的用户浏览行为4.1.1 用户浏览行为分类4.1.2 间接行为的相关性分析4.1.3 最小浏览行为组合4.2 用户浏览行为获取4.3 用户兴趣度计算4.3.1 基于浏览内容的兴趣度计算4.3.2 基于浏览行为的兴趣度计算4.3.3 两种兴趣度的结合4.4 用户兴趣模型遗忘更新算法4.4.1 基于优化时间窗的兴趣漂移算法4.4.2 跟踪用户兴趣漂移4.4.3 处理用户兴趣漂移4.5 本章小结第五章 系统实现与结果分析5.1 系统设计5.1.1 数据库设计5.1.2 用户兴趣模型初始化5.2 个性化信息过滤系统实验与结果分析5.3 部分实验设计与结果分析5.3.1 文本聚类实验5.3.2 基于优化时间窗的兴趣漂移实验5.3.3 网页兴趣度计算实验5.4 本章小结第六章 总结和展望6.1 论文总结6.2 进一步的研究方向参考文献致谢攻读学位期间主要的研究成果
相关论文文献
标签:混合用户兴趣模型论文; 兴趣漂移论文; 树状结构论文; 相关性分析论文;