
论文摘要
目前Web上的资源日益增多,为更有效地利用这些资源,近年来产生了垂直搜索引擎。它是面向专业或主题的搜索引擎,只采集与专业或主题相关的信息,这样就需要从Web页面等资源中抽取出特定的主题信息,本文的研究重点正是从Web页面中抽取与特定主题相关的信息。针对目前Web信息抽取方法实现复杂等问题,设计了一种基于标签序列的Web页面主题信息抽取方法。该方法通过设定的策略和样本建立抽取规则,构建规则库,借助规则库实现对页面主题信息抽取,这样降低了处理Web页面过程的复杂性,并减少了页面处理时间。通过应用本方法抽取部分网站的手机参数页面,表明该方法召回率和准确率都比较高。当需要抽取的Web页面结构发生变化而出现主题的新属性时,目前已有的方法建立的分装器并不能随着这种变化准确地发现主题的新属性。针对该问题,提出了一种基于可信度的Web页面主题新属性发现方法,通过对待抽取属性和已抽取属性的特点进行分析,引入可信度理论,通过一系列规则和证据,量化待抽取属性需要抽取的可信度,以判断待抽取属性是否为主题的新属性。并将其应用到部分网站页面手机参数主题属性发现中,实验证明该方法能够较为准确发现页面中主题的新属性。最后设计了一种垂直搜索引擎原型系统,主要完成了专业网络蜘蛛模块的详细设计,它综合了本文提出的Web页面主题信息抽取方法和Web页面主题新属性发现方法,以实现对页面主题信息的采集。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 研究现状1.2.1 Web信息抽取技术研究现状1.2.2 搜索引擎发展现状1.3 研究内容1.4 本文组织结构第二章 Web信息抽取及垂直搜索引擎技术2.1 DOM技术2.1.1 DOM2.1.2 Cobra软件2.2 分装器2.3 Web信息抽取评价指标2.4 文本预处理2.4.1 文本分类2.4.2 中文分词2.5 Lucene工具包2.6 垂直搜索引擎原理2.7 本章小结第三章 基于标签序列的 Web页面主题信息抽取方法研究3.1 引言3.2 相关概念与分析3.2.1 相关概念3.2.2 页面结构分析3.2.3 主题属性页面显示格式特征分析3.2.4 主题属性页面表示方式特征分析3.3 一种基于标签序列的Web页面主题信息抽取方法3.3.1 相关策略3.3.2 相关定义3.3.3 基于标签序列的Web页面主题信息抽取模型3.3.4 样本训练3.3.5 主题信息抽取3.4 实验3.4.1 实验过程3.4.2 实验分析3.5 本章小结第四章 基于可信度的Web页面主题新属性发现4.1 引言4.2 可信度4.3 一种基于可信度的 Web页面主题新属性发现方法4.3.1 证据定义4.3.2 基于可信度的Web页面主题新属性发现模型4.3.3 字体关系可信度4.3.4 背景关系可信度4.3.5 待抽取属性名与已抽取属性名拥有相同父节点可信度4.3.6 待抽取属性名与已抽取属性名格式相同可信度4.3.7 待抽取属性名与用户感兴趣范围关系可信度4.4 实验4.4.1 实验过程4.4.2 实验分析4.5 本章小结第五章 垂直搜索引擎原型系统设计5.1 系统整体框架5.2 总体结构5.2.1 模块介绍5.2.2 系统处理流程5.3 专业网络蜘蛛5.4 总体设计5.4.1 URL队列管理子模块5.4.2 主题信息抽取与新属性发现子模块5.5 本章小结第六章 总结和展望6.1 本文工作总结6.2 进一步展望参考文献致谢攻读学位期间主要的研究成果
相关论文文献
标签:信息抽取论文; 垂直搜索引擎论文; 主题信息论文; 新属性论文;