论文摘要
随着科技的发展,计算机的普及率越来越高,上网浏览信息的人越来越多。如今,人们的生活、工作、学习和商务活动都会用到互联网,网页已成为人们获取信息的重要途径。网页中包含着文本,图片,视频等。不同的人他所感兴趣的网页信息不同,那些人们不感兴趣的信息分散在他们感兴趣的信息的周围,分散了他们对自己感兴趣的信息的注意力,给他们阅读网页带来了不便。本文提出了一种基于DOM的网页信息抽取方法,过滤掉人们不感兴趣的网页信息,只保存人们感兴趣的信息。本文的方法不是机械地查找我们感兴趣的信息,而是尽可能的过滤掉不是我们感兴趣的信息。首先使用Eclipse开发工具,利用开源的HTML解析程序NekoHTML将待抽取的网页解析成一棵DOM树。然后设计了一种深度优先的搜索算法去递归地遍历生成的DOM树的每一结点,判断该节点是否包含我们感兴趣的信息。如果被遍历的节点包含我们感兴趣的信息就保存它,如果不包含我们感兴趣的信息就过滤掉它。本文使用java语言编程实现网页信息抽取算法,使用JSP和Servlet开发用户图形界面。本文采用抽取算法,过滤掉用户不感兴趣的网页信息,只保存用户感兴趣的网页信息。用户可以通过图形界面选择自己喜欢的信息,用户选择完他们喜欢的信息后,我们的抽取算法就会根据用户的选择,过滤掉用户不感兴趣的信息,返回给用户他们喜欢的信息。本文首先介绍了网页信息抽取工具研究的目的和意义,接着对11种已有的网页信息抽取技术的优缺点进行了分析,介绍了网页的种类和网页的组成,然后介绍了DOM树和本文所用到的开源的网页解析工具NekoHTML,最后设计网页信息抽取算法,完成网页信息抽取工具的实现。
论文目录
相关论文文献
- [1].起步阶段的网页信息资源长期保存[J]. 上海档案 2012(02)
- [2].试论计算机网页设计中图形设计的处理运用[J]. 河北农机 2019(06)
- [3].高校重要网页信息采集归档实践探析[J]. 浙江档案 2017(09)
- [4].《网页信息展示》[J]. 美苑 2015(S2)
- [5].高校网页翻译特点、难点及英译经验总结[J]. 校园英语 2017(12)
- [6].分类加权的TF-IDF的网页分类算法[J]. 数码世界 2017(07)
- [7].面向BIU的网页解析[J]. 科学中国人 2017(23)
- [8].基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用[J]. 计算机应用与软件 2017(02)
- [9].网页信息呈现方式影响用户决策研究述评[J]. 经营与管理 2016(11)
- [10].基于本体思想的网页信息抽取方法[J]. 计算机与现代化 2015(09)
- [11].基于“控制字符”网页信息的隐藏技术[J]. 福建电脑 2014(06)
- [12].知识管理背景下网页信息档案化管理的思考[J]. 兰台世界 2011(15)
- [13].国外网页信息存档项目及相关问题研究[J]. 图书馆建设 2009(12)
- [14].浅谈现代网页设计与制作[J]. 吉林交通科技 2010(02)
- [15].基于可视块的多记录型复杂网页信息提取算法[J]. 计算机科学 2019(10)
- [16].计算机图像处理技术在网页设计中的运用[J]. 计算机产品与流通 2017(08)
- [17].计算机网页设计中的布局与排版研究[J]. 现代信息科技 2018(06)
- [18].网站管理地址泄露下网页信息快速加密仿真[J]. 计算机仿真 2017(05)
- [19].页面美术使用技巧在网页设计中的应用分析——以学校网络中心为例[J]. 美术文献 2018(12)
- [20].网页设计的艺术性分析[J]. 明日风尚 2018(03)
- [21].网页设计中计算机图像处理技术的应用[J]. 美术文献 2018(08)
- [22].试论网页设计中计算机图像处理技术[J]. 信息与电脑(理论版) 2018(07)
- [23].浅析网页设计中的色彩运用[J]. 艺术科技 2017(10)
- [24].以营销为导向的企业网页信息翻译探究[J]. 浙江海洋学院学报(人文科学版) 2012(03)
- [25].网页设计中动态多元素应用[J]. 无线互联科技 2018(24)
- [26].基于R语言爬虫技术的网页信息抓取方法研究——以抓取二手房数据为例[J]. 科技风 2019(06)
- [27].网页设计中的色彩搭配及技巧[J]. 黑龙江纺织 2019(01)
- [28].新时期网页设计中计算机图像处理技术的应用[J]. 信息与电脑(理论版) 2018(11)
- [29].浅析网页设计中图形信息的有效传达[J]. 当代旅游 2019(12)
- [30].基于文档对象模型结构聚类的钓鱼网页检测方法[J]. 科学技术与工程 2018(23)