中文网页定题采集及分类研究

中文网页定题采集及分类研究

论文摘要

网络正深刻地改变着我们的生活,Internet已经发展成为当今世界上最大的信息库,如何快速、准确地从浩瀚的信息资源中寻找到所需的信息已经成为网络用户的一大难题。因而基于Web的网上信息的采集和相关的信息处理日益成为人们关注的焦点。传统的Web信息采集所采集的页面数量过于庞大,所采集页面的内容过于杂乱,需要消耗非常大的系统资源和网络资源。同时Internet信息的分散状态和动态变化也是困扰着信息采集的问题。定题搜索引擎将信息检索限定在特定主题领域,就主题相关的信息提供检索服务,相应特定主题所需采集的网页数量极大减少且主题统一。与通用的搜索引擎相比较,定题搜索引擎由于检索的范围较小,查准率和查全率易于保证。本文所研究的就是建立定题搜索引擎的前期关键技术—Web信息定题采集及分类技术。全文的主要内容如下:通过对Web结构和Web链接特性的研究,分析了一些在定题Web信息采集过程中有用的规律。对元数据进行定义,讨论了几种基本的超链及其元数据类型。研究了网页信息抽取问题,分析了常见类型的元数据并确定了适合作为定题信息采集依据的元数据类型。讨论了如何基于元数据通过主题扩展得到主题相关词集,包括禁用词过滤、主题候选词的抽取及相关策略过滤等过程。重点研究了利用改进的Apriori算法,对元数据库进行关联挖掘抽取主题候选词,并给出了主题词关联挖掘和过滤,即主题扩展的迭代算法。实验证明,本文所提供的元数据处理策略,能很好地进行主题的抽取与扩展,为实现更有效的定题Web信息采集提供良好前提。给出了一个基于Web元数据的定题信息采集系统并加以描述。对经典的基于超链分析的相关性判别算法HITS和PageRank进行了描述和分析,给出了基于Web元数据的多种相关性判别算法,并利用Web元数据对HITS和PageRank算法进行了改进,提出了M-PageRank算法和M-HITS算法。测试了各种算法的性能并作了比较研究,实验验证了所提出的算法能为实现定题检索提供良好前提。讨论了文本分类的基础及Web网页在文本分类中的特性和特殊处理,将HTML文档用TFE表示,考虑半结构文档词条所处结构对分类的影响,修正了反映特征词在网页中的权重函数,引入扩展文本作为网页分类的内容补充。研究了既考虑文档结构又兼顾文档内容的改进的朴素贝叶斯和支持向量机Web网页分类方法,并通过实验验证了两种分类方法的良好效果。通过对Web定题采集和分类的研究,本文从技术和方法上做出了一些增强及改进,提出的方法及改进的算法取得了较好的实验效果,所得到的若干结论也具有理论和实践上的指导意义。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究的背景、目的和意义
  • 1.2 Web信息采集
  • 1.3 定题Web信息采集
  • 1.4 Web网页分类
  • 1.5 论文内容及组织
  • 2 Web结构分析及信息抽取
  • 2.1 引言
  • 2.2 Web图结构
  • 2.3 Web链接分析
  • 2.4 元数据
  • 2.5 信息抽取
  • 2.6 元数据分析
  • 2.7 本章小结
  • 3 主题扩展
  • 3.1 引言
  • 3.2 禁用词过滤
  • 3.3 主题候选词的抽取
  • 3.4 相关策略过滤
  • 3.5 主题扩展算法
  • 3.6 实验
  • 3.7 本章小结
  • 4 定题采集
  • 4.1 引言
  • 4.2 定题信息采集系统
  • 4.3 相关性判别算法
  • 4.4 实验
  • 4.5 本章小结
  • 5 Web文档分类
  • 5.1 引言
  • 5.2 文本分类基础
  • 5.3 Web文档特殊处理
  • 5.4 改进的朴素贝叶斯分类
  • 5.5 支持向量机分类
  • 5.6 实验
  • 5.7 本章小结
  • 6 总结与展望
  • 6.1 全文总结
  • 6.2 研究展望
  • 致谢
  • 参考文献
  • 附录1 攻读博士学位期间发表论文
  • 附录2 攻读博士学位期间参与的科研项目
  • 相关论文文献

    • [1].试论网络环境下定题跟踪服务的发展[J]. 图书情报导刊 2020(02)
    • [2].和县 抓好监督文章[J]. 江淮法治 2016(21)
    • [3].作文的定题与选材[J]. 高中生学习(试题研究) 2017(05)
    • [4].小议图书馆参考咨询工作中的定题跟踪服务[J]. 科技致富向导 2012(30)
    • [5].图书馆参考咨询工作中的定题跟踪服务[J]. 情报探索 2011(05)
    • [6].优化高校图书馆定题跟踪服务的几点思考[J]. 科技情报开发与经济 2009(03)
    • [7].高校图书馆拓展与深化科研定题跟踪服务的最佳实现途径[J]. 情报探索 2012(11)
    • [8].基于语义的数字图书馆定题情报服务模型研究[J]. 图书馆理论与实践 2012(02)
    • [9].再论高校定题情报跟踪服务[J]. 科技信息 2011(22)
    • [10].新型定题信息服务模式应用评析[J]. 高校图书馆工作 2009(02)
    • [11].大学生英语定题演讲文本与非限时议论文语体差异分析[J]. 宿州学院学报 2016(10)
    • [12].高校图书馆科研定题服务实例与分析[J]. 农业图书情报学刊 2015(09)
    • [13].大学艺术类专业课程“定题定时法”教学策略见解[J]. 南昌教育学院学报 2014(05)
    • [14].“潇湘八景”研究定题跟踪服务的思考[J]. 科技情报开发与经济 2014(08)
    • [15].基于多Agent系统的定题爬虫算法[J]. 计算机工程 2008(16)
    • [16].基于定题爬虫的网页分类的多级判定算法[J]. 科学技术与工程 2009(18)
    • [17].网络环境下研究所定题信息服务的工作原则与发展策略[J]. 科技文献信息管理 2009(04)
    • [18].围绕提质增效创新履职实践[J]. 江苏政协 2019(07)
    • [19].另一种春天[J]. 商务旅行 2012(03)
    • [20].关键把握:科研成败重在选题[J]. 中国学校体育 2016(06)
    • [21].信息共享空间环境下的定题情报服务[J]. 图书馆学刊 2009(12)
    • [22].我国定题情报服务论文研究热点及发展趋势分析[J]. 河北联合大学学报(医学版) 2013(03)
    • [23].科研课题定题情报服务及其优化[J]. 情报资料工作 2008(02)
    • [24].树立“三精”导向 提升视察成效[J]. 江苏政协 2017(11)
    • [25].利用馆藏资源开展定题情报服务[J]. 中国科技信息 2011(01)
    • [26].开展定题文献服务实践与认识[J]. 黑龙江史志 2011(15)
    • [27].说说写作那些事[J]. 政工导刊 2016(02)
    • [28].定题情报服务在高校图书馆的应用[J]. 科技情报开发与经济 2009(34)
    • [29].肥城市:“三步曲”抓好党员充电学习[J]. 科技致富向导 2011(34)
    • [30].定题或立项检索的英文医学检索工具选择[J]. 中华医学图书情报杂志 2011(09)

    标签:;  ;  ;  ;  ;  ;  

    中文网页定题采集及分类研究
    下载Doc文档

    猜你喜欢