论文题目: 个性化的Web信息采集技术研究
论文类型: 博士论文
论文专业: 计算机软件与理论
作者: 吴丽辉
导师: 白硕
关键词: 个性化服务,个性化信息采集,用户兴趣,个性化信息采集系统,搜索引擎
文献来源: 中国科学院研究生院(计算技术研究所)
发表年度: 2005
论文摘要: 随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大难题。传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求。个性化Web信息采集就是针对这个问题而提出来的。个性化Web信息采集的研究目标在于充分利用用户的个性化信息,通过用户兴趣制导或与用户交互等灵活手段来采集Web信息,充分利用网络信息,以更好地服务于用户的个性化需求。 围绕个性化Web信息采集系统PSearch,论文的主要工作包括以下几个方面: (1) 用户兴趣个性化信息的获取。分析了用户兴趣个性化信息的收集和更新,重点从用户需求扩展、特征选择,以及文本聚类分析三个方面来做了分析和实验。 ● 当捕获用户当前的浏览行为时,根据用户当前浏览内容的计算结果,选择那些跟用户需求关键词相似度最大的词扩展进来,从而保证了扩展词的质量。实验结果表明,通过这样的需求扩展确实获得了用户的当前个性化兴趣。 ● 隐式收集用户兴趣在本质上与文本分类中的特征选择问题相似。隐式收集用户兴趣可以借鉴文本特征选择方法来实现用户兴趣的收集。实验结果表明在用户兴趣个性化信息的获取中,信息增益方法效果较佳。 ● 如果能够对用户浏览的页面聚类,就能够得到用户具体感兴趣的主题。隐式收集用户兴趣可以借鉴文本聚类分析来实现用户兴趣的收集。实验结果表明在用户兴趣个性化信息的获取中,Bisecting K-means是一个合适的选择。 (2) 待采页面的选择。根据页面在Web上的分布特征,分析了个性化Web信息采集系统PSearch的种子URL设置、页面采集过程、已采页面与用户兴趣的相关度判定和待采URL与用户兴趣的相关度预测,提出了PSearch页面选择算法。实验结果表明PSearch页面选择算法的采集准确性要明显优于广度优先算法。 (3) 相关度的判定。借鉴了信息检索中的分类过程,实验结果表明,在PSearch的相关度判定中kNN的性能较佳。提出了PSearch页面推荐算法。较之Google返回的检索结果,PSearch推荐给用户的页面和用户的当前兴趣更相关,实现了为用户提供个性化服务的目的。 (4) 个性化Web信息采集的性能优化。分别从优雅采集、页面采集、页面刷新、分布式采集等几方面详细分析了PSearch的性能优化。在页面采集中分析了多线程、DNS缓存、持续连接、重复网页、采集器陷阱和网页的存储。
论文目录:
摘要
目录
图目录
表目录
第一章 引言
1.1 个性化Web信息采集的研究背景及意义
1.2 个性化技术的研究现状
1.2.1 个性化的定义
1.2.2 个性化推荐的实现方式
1.2.3 隐私问题
1.3 Web信息采集的研究现状
1.3.1 Web信息采集的基本原理
1.3.2 Web信息采集的发展方向
1.4 论文的工作与组织结构
1.4.1 论文的主要工作
1.4.2 论文的组织结构
1.5 本章小结
第二章 用户兴趣个性化信息的获取
2.1 引言
2.2 用户兴趣个性化信息的获取
2.2.1 用户兴趣个性化信息的收集
2.2.2 用户兴趣个性化信息的更新
2.2.3 服务器日志
2.3 用户需求扩展分析
2.3.1 用户需求扩展概述
2.3.2 实验与结果
2.4 不同特征选择方法的性能
2.4.1 特征选择方法概述
2.4.2 实验与结果
2.5 不同文本聚类分析的性能
2.5.1 文本聚类分析概述
2.5.2 实验与结果
2.6 相关研究
2.7 本章小结
第三章 待采页面的选择
3.1 引言
3.2 待采页面的选择分析
3.2.1 页面的采集过程
3.2.2 待采页面的选择算法
3.3 个性化Web信息采集的页面选择算法
3.3.1 页面在Web上的分布特征
3.3.2 种子URL的设置
3.3.3 个性化Web信息采集的页面采集过程
3.3.4 已采页面与用户兴趣的相关度判定
3.3.5 待采URL与用户兴趣的相关度预测
3.3.6 实验与结果
3.4 相关研究
3.5 本章小结
第四章 相关度的判定
4.1 引言
4.2 不同文本分类方法的性能
4.2.1 文本分类方法概述
4.2.2 实验与结果
4.3 个性化Web信息采集的页面推荐
4.3.1 向量空间模型概述
4.3.2 个性化Web信息采集的页面推荐算法
4.3.3 实验与结果
4.4 个性化Web信息采集的应用
4.5 相关研究
4.6 本章小结
第五章 个性化Web信息采集的性能优化
5.1 引言
5.2 优雅采集
5.3 页面采集
5.3.1 多线程
5.3.2 DNS缓存
5.3.3 持续连接
5.3.4 重复网页
5.3.5 采集器陷阱
5.3.6 网页的存储
5.4 页面刷新
5.4.1 页面刷新策略
5.4.2 增量式Web信息采集的页面刷新过程
5.4.3 实验与结果
5.5 分布式采集
5.6 相关研究
5.7 本章小结
第六章 结束语
6.1 论文工作总结
6.2 下一步研究方向
参考文献
致谢
作者简历
发布时间: 2006-12-27
参考文献
- [1].网络日志中用户兴趣的挖掘及利用[D]. 郭岩.中国科学院研究生院(计算技术研究所)2004
- [2].基于聚类分析的网络用户兴趣挖掘方法研究[D]. 马力.西安电子科技大学2012
- [3].在线论坛用户兴趣图谱发现与个性化信息推荐[D]. 张召.华东师范大学2012
- [4].基于兴趣与保护隐私的在线社区推荐技术研究[D]. 李东胜.复旦大学2012
- [5].移动个性化信息服务系统的进化机制研究[D]. 谢海涛.北京邮电大学2012
- [6].社会网络中兴趣发现与信息组织的研究[D]. 谢兴.复旦大学2011
- [7].社交协作行为中的用户建模及其应用研究[D]. 徐童.中国科学技术大学2016
- [8].面向Internet个性化服务的用户建模技术研究[D]. 应晓敏.中国人民解放军国防科学技术大学2003
- [9].大规模社交网络中局部兴趣社区发现研究[D]. 尹红军.中国科学技术大学2014
相关论文
- [1].面向Internet个性化服务的用户建模技术研究[D]. 应晓敏.中国人民解放军国防科学技术大学2003
- [2].面向服务环境中服务的个性化推荐[D]. 张程.中国科学院研究生院(计算技术研究所)2006
- [3].个性化信息分发及概念检索的研究[D]. 张磊.中国科学院研究生院(计算技术研究所)2002
- [4].复杂网络与互联网个性化信息服务的研究[D]. 赵鹏.中国科学技术大学2006
- [5].基于本体论的个性化和社会化元搜索引擎的研究[D]. 李强.浙江大学2006
标签:个性化服务论文; 个性化信息采集论文; 用户兴趣论文; 个性化信息采集系统论文; 搜索引擎论文;