
论文摘要
本文针对目前Internet上信息获取存在效率不高与“资源迷向”的问题,以及日益增长的个性化需求,提出了一个面向Web的基于XML的个性化信息检索系统模型,研究了其中的关键算法,所研究的内容目前属于信息检索和电子商务的重要研究课题和热点,具有一定的理论和实际应用意义。本文首先研究了国内外搜索引擎系统及主要算法,分析了搜索引擎系统的主要结构和存在的主要问题,并在此基础上探索了基于XML的个性化信息检索系统所涉及的关键技术和算法,主要围绕用户模型的生成和个性化搜索引擎的系统结构以及提高搜索引擎性能的关键技术三个方面进行。主要的工作是:首先通过天网日志文件对用户行为特征进行了统计分析,指出用户查询词及查询过程相对稳定,由此构造基于行为特征的用户模型,并给出相应生成算法;其次,在分析搜索引擎基本结构的基础上,提出了个性化系统实现的基本结构,并分析了其实现的关键技术;第三,在构造个性化搜索引擎原型系统的过程中,结合统计规律,确定了以提高查准率为主要目标的实现思路,改进了信息抓取策略;优化了网页去噪消重算法;提出了以单字构造中文分词词库的新方法;结合用户模型,改进相关分析方法,并拓展了相关分析的应用领域。理论分析和实验结果表明,构造的原型系统是可行和有效的。
论文目录
摘要ABSTRACT第一章 绪论1.1 项目背景及研究意义1.1.1 项目背景1.1.2 项目意义1.2 搜索引擎的研究现状及发展趋势1.2.1 发展现状1.2.2 关键技术的研究现状1.2.3 发展趋势1.3 本文研究内容和结构第二章 搜索引擎原理和体系结构2.1 搜索引擎分类2.1.1 基于网络蜘蛛的搜索引擎2.1.2 目录索引型搜索引擎2.1.3 元搜索引擎2.1.4 主题搜索引擎2.2 搜索引擎的体系结构2.3 搜索引擎的工作原理2.4 搜索引擎主要指标2.5 搜索引擎的关键技术2.6 现有搜索引擎存在的主要问题2.7 现有搜索引擎的结构及性能分析2.7.1 结构分析2.7.2 搜索引擎的性能分析2.8 小结第三章 个性化搜索引擎模型3.1 个性化搜索引擎定义及分析3.2 基于用户行为特征的统计分析3.2.1 用户查询日志文件3.2.2 用户行为特征分析3.2.3 基于用户特征行为的访问模式挖掘3.3 用户兴趣模型的生成3.3.1 新的个性化信息抽取方法3.3.2 用户兴趣模型的生成和更新3.4 个性化搜索引擎系统结构3.5 小结第四章 个性化搜索引擎关键技术研究与改进4.1 信息搜集的改进4.1.1 网络蜘蛛系统模型4.1.2 网络蜘蛛搜索策略及流程优化4.1.3 网页表示的 XML 转化4.1.4 提高网页抓取效率的改进措施4.1.5 结果及性能分析4.2 信息处理的优化4.2.1 去噪消重算法的改进4.2.2 中文分词的优化4.2.3 索引设计4.3 相关分析4.3.1 现有的相关分析技术4.3.2 相关分析技术的改进4.3.3 算法分析4.4 小结第五章 总结与展望5.1 本文工作总结5.2 进一步的研究工作参考文献致谢攻读学位期间的主要研究成果附录一 信息抓取的部分程序附录二 网页消重净化等部分程序附录三 中文分词的部分程序附录四 PageRank 算法优化的部分程序
相关论文文献
标签:个性化论文; 用户模型论文; 信息检索论文; 相关分析论文;