网上资源的数据挖掘与不安全因素分析

网上资源的数据挖掘与不安全因素分析

论文摘要

随着Internet飞速发展,WWW成为全球性的信息服务中心,它涉及到新闻、广告、金融等各方面的信息服务。全世界每年Web服务器数量都以超过30%的比例增长,Web页面以60%的比例快速增长,在每个用户面前汇成了一个信息海洋。面对海量数据,我们往往无所适从,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“我们淹没在数据的海洋中,却缺少知识”的现象。另外,随着网络技术和网络规模的不断发展,网络入侵的风险和机会越来越多,传统的网络防护和监测技术也显得捉襟见肘。由此,如何在信息海洋中有效地发现对浏览者感兴趣的信息和确保网络数据的安全成了当今研究的课题。论文主要对用户访问日志进行关联分析,挖掘出与用户访问的页面具有一定相关度的页面并推荐给用户,发现用户感兴趣的知识。同时,采用关联规则分析用户特有的行为模式,网络管理员尽可能地找出数据不安全因素,其挖掘过程为数据收集、预处理、频繁访问模式挖掘和推荐集的生成,主要工作有:1、分析了Web日志数据的预处理的原则和方法,对各阶段进行了算法描述,并且以遵义医学院官方网站一天的Web日志数据为例,编写程序实现Web日志的预处理,挖掘出用于模式分析的事务文件。2、分析了传统的Apriori算法思想,介绍一种基于临时表的Apriori改进的算法,并且对两种算法进行了仿真实验,将实验结果进行比较,从时间和空间花费证明改进的基于临时表的Apriori算法优于原始的算法。3、建立了Web日志挖掘原型系统,系统由自适应网站在线推荐子系统和网络入侵检测子系统构成。建立的Web日志系统,通过与用户当前访问匹配找出相匹配关联项,向用户提供自适应页面服务,系统也能通过多用户的访问信息发掘用户的访问行为,能及时发现一些非法的入侵行为,对评价网站系统的安全性和用户的可信度起着帮助作用。但是鉴于日志数据的预处理阶段和日志的挖掘阶段各个环节实现过程中算法的复杂性和硬件条件的限制,系统无法向用户提供实时服务,所以在以后的学习和研究中,要继续对数据预备处理各阶段和关联算法的进行改善,降低自适应和入侵检测的时间和空间开销。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 研究的背景
  • 1.2 研究的意义
  • 1.3 WEB日志掘挖技术的研究现状
  • 1.3.1 国外的研究现状
  • 1.3.2 国内的研究现状
  • 1.3.3 本文工作内容和组织
  • 第二章 WEB挖掘概述
  • 2.1 数据挖掘技术简介
  • 2.1.1 Web挖掘的特点
  • 2.1.2 Web挖掘的分类
  • 2.2 WEB日志挖掘
  • 2.2.1 Web日志挖掘定义
  • 2.2.2 Web日志挖掘流程
  • 2.2.3 Web日志挖掘技术
  • 第三章 WEB日志数据预处理
  • 3.1 数据净化
  • 3.1.1 数据净化的功能
  • 3.1.2 数据净化算法描述
  • 3.1.3 净化后日志数据表
  • 3.1.4 数据净化的实验数据截图
  • 3.2 用户识别
  • 3.2.1 用户识别原则及方法
  • 3.2.2 用户识别算法描述
  • 3.2.3 用户识别结构表及实验数据部分截图
  • 3.3 会话识别和路径补充
  • 3.3.1 会话识别和路径补充处理原则
  • 3.3.2 会话识别和路径补充算法
  • 3.3.3 会话识别和路径补充的结构表
  • 3.4 事务识别
  • 3.4.1 事务识别的作用
  • 3.4.2 事务识别的算法描述
  • 3.4.3 事务识别数据表结构及部分实验数据截图
  • 第四章 WEB日志关联规则和频繁项集的挖掘
  • 4.1 关联规则
  • 4.1.1 关联规则的定义
  • 4.2 APRIORI算法
  • 4.2.1 Apriori算法简介
  • 4.2.2 算法分析
  • 4.2.3 基于临时表的Apriori算法的改进
  • 4.2.4 改进前后的分析比较
  • 第五章 WEB日志数据挖掘的应用
  • 5.1 系统实现环境
  • 5.2 自适应网站在线推荐
  • 5.2.1 自适应网站在线推荐的实现
  • 5.2.2 自适应推荐要注意的问题
  • 5.3 WEB数据挖掘在网络入侵检测中的应用
  • 5.3.1 Web网络入侵的常见特征
  • 5.3.2 Web网络入侵行为的检测模型
  • 5.4 小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 研究展望
  • 致谢
  • 参考文献
  • 附录 攻读学位期间所发表的学术论文目录
  • 相关论文文献

    • [1].中小银行数据挖掘思路浅析[J]. 金融电子化 2020(05)
    • [2].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [3].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [4].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [5].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [6].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [7].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [8].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [9].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [10].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [11].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [12].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [13].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [14].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [15].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [16].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [17].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [18].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [19].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [20].浅析数据挖掘[J]. 内江科技 2020(06)
    • [21].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [22].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [23].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [24].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [25].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [26].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [27].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [28].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [29].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [30].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)

    标签:;  ;  ;  ;  ;  

    网上资源的数据挖掘与不安全因素分析
    下载Doc文档

    猜你喜欢