网络信息提取系统关键技术研究与实现

论文摘要

随着信息技术的发展,特别是因特网应用的普及,出现了“信息过载”和“信息迷失”的问题。如何管理因特网上的大量信息,提供个性化服务成为当前信息服务领域的研究热点之一。论文主要研究网络信息提取系统中的用户兴趣模型,解决了已有系统不能向单个用户提供个性化服务的问题。论文在分析研究建模技术的基础上,提出了一种由短期兴趣模型和长期兴趣模型组成的混合用户兴趣模型,主要介绍了用户兴趣模型的建立和更新方法。通过在二层树状结构中加入时间向量来精确描述用户兴趣模型,使它不但具有层次性,而且能区分用户的短期和长期兴趣。同时采用层次和划分结合的聚类算法进行文本聚类,提高了聚类效率。为了准确收集用户的浏览行为,通过相关性分析归纳出反映用户兴趣的浏览行为最小组合,并提出基于优化时间窗的兴趣漂移算法来更新模型,它通过分类错误率的显著变化跟踪用户兴趣的改变和通过优化时间窗口处理用户兴趣漂移。系统通过“显式”收集用户浏览内容和浏览行为调整用户兴趣度,建立用户兴趣模型,同时通过基于优化时间窗的兴趣漂移算法“隐式”更新用户兴趣模型。实验结果表明,基于此兴趣模型的网络信息提取系统能对检索结果做出个性化过滤处理,提高用户的查准率和查全率,满足用户的个性化需求。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景

1.2 个性化信息过滤技术的发展状况

1.2.1 个性化信息过滤系统的分类

1.2.2 国内外研究现状

1.2.3 个性化信息过滤系统存在的问题

1.3 本文的工作与组织结构

第二章相关理论和技术

2.1 用户兴趣模型

2.2 用户数据的收集

2.3 建模的相关技术

2.3.1 向量空间模型

2.3.2 经典聚类算法

2.3.3 HOOK技术

2.4 本章小结

第三章网络信息提取系统中用户兴趣模型的建立

3.1 混合用户模型建模

3.1.1 混合用户兴趣模型

3.1.2 基于时间的二层树状空间向量模型表示

3.1.3 用户兴趣模型的存储方式

3.2 用户浏览页面预处理

3.2.1 浏览页面的获取

3.2.2 HTML页面规范化

3.2.3 文本特征向量的抽取

3.3 文本聚类

3.3.1 聚类算法分析

3.3.2 层次和划分结合的聚类算法

3.4 基于概化方法的兴趣主题词抽取

3.5 本章小结

第四章网络信息提取系统中用户兴趣模型的更新

4.1 基于兴趣度估计的用户浏览行为

4.1.1 用户浏览行为分类

4.1.2 间接行为的相关性分析

4.1.3 最小浏览行为组合

4.2 用户浏览行为获取

4.3 用户兴趣度计算

4.3.1 基于浏览内容的兴趣度计算

4.3.2 基于浏览行为的兴趣度计算

4.3.3 两种兴趣度的结合

4.4 用户兴趣模型遗忘更新算法

4.4.1 基于优化时间窗的兴趣漂移算法

4.4.2 跟踪用户兴趣漂移

4.4.3 处理用户兴趣漂移

4.5 本章小结

第五章系统实现与结果分析

5.1 系统设计

5.1.1 数据库设计

5.1.2 用户兴趣模型初始化

5.2 个性化信息过滤系统实验与结果分析

5.3 部分实验设计与结果分析

5.3.1 文本聚类实验

5.3.2 基于优化时间窗的兴趣漂移实验

5.3.3 网页兴趣度计算实验

5.4 本章小结

第六章总结和展望

6.1 论文总结

6.2 进一步的研究方向

参考文献

致谢

攻读学位期间主要的研究成果

网络信息提取系统关键技术研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢