公开信息搜集方法研究与实现

公开信息搜集方法研究与实现

论文摘要

因特网是一个基于TCP/IP协议连接各国、各机构成千上万计算机网络的通信网,集各种信息资源于一体,海量的信息源令传统载体望尘莫及。由于政府、机构、企业和个人都可以在网上发布信息,因此它成为无所不有的庞杂信息源。目前,在因特网上仅数据库就有上百万种,其他信息更是难以计数,这些资源在数量和增长速度上是其他任何环境下的信息资源所无法比拟的。随着计算机技术的发展和因特网的普及,Web数据变得越来越重要。在公开信息搜集领域,因特网正成为一个新的公开信息搜集对象,但由于因特网数据及应用的特殊性,使得传统的公开信息搜集方法不能直接应用于这个新对象,而以数据挖掘为基础发展起来的Web挖掘是解决此矛盾的一种新方法,将其引入到公开信息的搜集中正是本文研究的目的和意义所在。论文分析和总结了因特网信息的特点及当前常用的公开信息搜集方法,在此基础上,通过对Web内容挖掘、使用挖掘、结构挖掘方法及其在公开信息搜集中的应用研究,充分证明了Web挖掘方法可以有效地提高公开信息搜集的质量和效率。首先,在Web内容挖掘中,针对Web文本的特征,对其挖掘流程进行了详细的阐述,研究了文本挖掘过程中的特征提取算法,重点分析了传统TFIDF算法,指出了传统TFIDF算法没有考虑词条在文本内分布情况的不足,并在此基础上提出了加权TFIDF改进算法,通过实验验证了改进后的算法可以有效地提高文本的查准率和查全率;在Web使用挖掘中,论文研究了Web使用挖掘的预处理过程,以实验验证了其有效性,并在经过预处理的日志数据之上通过实验使用类Apriori算法发现了用户浏览网页的频繁模式;在Web结构挖掘中,研究了Page-Rank算法和HITS算法的原理,并对其在公开信息搜集应用中的可行性进行了分析。最后在全文总结中,对Web挖掘在公开信息搜集中的应用前景进行展望并给出了下一步的研究方向。

论文目录

  • 摘要
  • Abstract
  • 第一章 序言
  • 1.1 选题背景及意义
  • 1.1.1 选题背景
  • 1.1.2 选题意义
  • 1.2 因特网公开信息资源的特点及现行的搜集方法
  • 1.2.1 因特网公开信息资源的特点
  • 1.2.2 因特网公开信息资源现行的搜集方法
  • 1.2.3 公开信息资源的主要类型
  • 1.3 从数据挖掘到Web 挖掘
  • 1.3.1 数据挖掘的定义
  • 1.3.2 Web 数据挖掘的特点
  • 1.3.3 Web 挖掘流程
  • 1.3.4 Web 挖掘的分类
  • 1.3.5 Web 挖掘的意义
  • 1.3.6 Web 挖掘与数据挖掘的关系
  • 1.4 Web 挖掘的应用现状及存在的不足
  • 1.4.1 Web 挖掘研究现状
  • 1.4.2 Web 挖掘面临的挑战
  • 第二章 Web 内容挖掘方法及其在公开信息搜集中的应用
  • 2.1 Web 内容挖掘定义及分类
  • 2.2 Web 文本挖掘方法及改进
  • 2.2.1 Web 文本预处理
  • 2.2.2 文本特征提取
  • 2.2.3 文本的分类和聚类
  • 2.2.4 挖掘结果显示
  • 2.3 Web 文本挖掘方法的实验验证
  • 2.3.1 实验组织与数据准备
  • 2.3.2 实验结果
  • 2.3.3 实验结果分析
  • 2.4 本章小结
  • 第三章 Web 使用挖掘方法及其在公开信息搜集中的应用
  • 3.1 Web 使用挖掘概念及意义
  • 3.1.1 问题提出的背景
  • 3.1.2 Web 使用挖掘的定义
  • 3.1.3 Web 使用挖掘在公开信息获取中的研究意义
  • 3.1.4 研究难点
  • 3.2 Web 使用挖掘的研究对象
  • 3.2.1 服务器端的数据
  • 3.2.2 用户端的数据
  • 3.2.3 代理服务器端数据
  • 3.3 Web 使用挖掘中日志数据的预处理过程
  • 3.3.1 数据清理
  • 3.3.2 用户识别
  • 3.3.3 会话识别
  • 3.3.4 路径补充
  • 3.3.5 事务识别
  • 3.4 预处理过程实验验证
  • 3.4.1 实验组织
  • 3.4.2 实验数据
  • 3.4.3 实验结果分析
  • 3.5 基于类Apriori 算法的模式发现及验证
  • 3.5.1 问题的描述
  • 3.5.2 类Apriori 算法
  • 3.5.3 类Apriori 算法的验证
  • 3.6 本章小结
  • 第四章 Web 结构挖掘方法及其在公开信息搜集中的应用
  • 4.1 超链接分析概述
  • 4.1.1 超链接与Web 挖掘
  • 4.1.2 超链接分析思想
  • 4.1.3 超链接分析意义
  • 4.2 常用的超链接分析算法
  • 4.2.1 Page-Rank 算法
  • 4.2.2 HITS 算法
  • 4.2.3 Page-Rank 算法与HITS 算法的比较
  • 4.2.4 HITS 算法实验及结果分析
  • 4.3 Web 结构挖掘在公开信息搜集中的应用
  • 4.3.1 帮助结果排序
  • 4.3.2 识别Web 社区
  • 4.3.3 确定Web 影响因子
  • 4.4 本章小结
  • 第五章 Web 挖掘在电子商务中的应用实例
  • 5.1 货源搜索
  • 5.2 货源搜索引擎
  • 5.3 货源信息分检
  • 5.4 系统分检
  • 5.5 用户分检
  • 5.6 实验过程及结果分析
  • 5.6.1 系统分检结果
  • 5.6.2 用户分检结果
  • 5.7 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].竞争对手信息搜集的基本内容[J]. 竞争情报 2008(03)
    • [2].浅谈如何利用云技术等多种媒介来提高学生信息搜集和处理能力[J]. 才智 2016(18)
    • [3].学会提升信息搜集整理能力[J]. 职业教育(上旬刊) 2016(12)
    • [4].幼儿评价的开展如何做好信息搜集及保育工作[J]. 中华少年 2017(24)
    • [5].第三学段学生信息搜集运用能力的现状分析及对策思考[J]. 教学月刊小学版(语文) 2017(Z2)
    • [6].大学生就业信息搜集技能研究[J]. 现代企业教育 2014(20)
    • [7].论“选择-进入”机制在网络个人信息搜集利益平衡中的价值[J]. 长春市委党校学报 2009(04)
    • [8].基于Web2.0的竞争情报信息搜集工作研究[J]. 大学图书情报学刊 2008(04)
    • [9].从“福建事变”看近代美国驻华领事馆对华信息搜集[J]. 党史博览 2019(03)
    • [10].网络信息搜集工具分析之CNKI与重庆维普的比较[J]. 科技广场 2012(04)
    • [11].谈培养学生课前信息搜集整理能力的策略[J]. 学校管理 2009(06)
    • [12].重视搜集信息 培养自学能力[J]. 现代教育科学(小学教师) 2010(06)
    • [13].数字化人机界面操纵员监视过程中信息搜集失误试验研究[J]. 安全与环境学报 2016(05)
    • [14].提高幼儿搜集信息能力的策略——以科学探究活动的信息搜集为例[J]. 幼儿教育研究 2020(01)
    • [15].广交会“客户信息”搜集技术研究[J]. 中外企业家 2016(29)
    • [16].生物教学中学生信息搜集能力的培养[J]. 教学与管理 2009(10)
    • [17].战争信息署档案资源导论[J]. 近现代国际关系史研究 2017(01)
    • [18].互联网特定领域信息搜集系统设计[J]. 信息安全与通信保密 2008(10)
    • [19].创设有效活动 激发学习兴趣[J]. 青海教育 2008(Z2)
    • [20].如何培养低年级学生信息搜集能力[J]. 小学语文教学 2013(32)
    • [21].教育信息搜集在图书馆中的应用[J]. 中国教育技术装备 2009(27)
    • [22].web安全信息搜集平台设计要点探讨[J]. 电子世界 2018(15)
    • [23].如何在小学语文教学中培养学生的信息搜集、处理能力[J]. 课外语文 2019(30)
    • [24].小学语文教学中如何培养学生的信息搜集与处理能力[J]. 课程教育研究 2018(31)
    • [25].近代美国驻华领事馆对华信息搜集探析——以“福建事变”为例[J]. 南京社会科学 2018(05)
    • [26].消费者自我信息搜集不全面对品牌资产的影响[J]. 消费导刊 2009(01)
    • [27].培养学生搜集和处理信息能力的有效策略[J]. 宁波教育学院学报 2012(06)
    • [28].基于移动信息咨询服务系统的学科热点信息搜集[J]. 中华医学图书情报杂志 2015(08)
    • [29].高空视觉图像识别技术下的信息搜集系统优化设计[J]. 现代电子技术 2015(24)
    • [30].从信息利用角度看行政立法的公民参与[J]. 法制与社会 2010(03)

    标签:;  ;  ;  ;  ;  ;  

    公开信息搜集方法研究与实现
    下载Doc文档

    猜你喜欢