基于ATN算法和潜在语义索引的不良信息过滤系统研究

基于ATN算法和潜在语义索引的不良信息过滤系统研究

论文摘要

近年来,互联网取得了突飞猛进的发展,网络信息越来越丰富,呈指数级增长,到现在为止,全世界已有几亿个网站。然而,任何事物都有两面性,在互联网飞速发展的同时,大量不良信息在网上肆无忌惮的传播,给社会治安、人民的正常生活带来了极大的负面影响。在这种情况下,过滤现有网络资源中的不良信息是当前计算机研究人员必须面对的挑战。论文分析了当前互联网存在的严峻形势,总结了当前常用的三种不良信息过滤技术的相关概念、特点以及相关产品,分析对比了三种过滤技术的过滤效果,优点与不足。并在此基础上设计了一个基于扩充转移网络算法(ATN, Augmented Transition Network)和潜在语义索引(LSI, Latent Semantic Indexing)的不良信息过滤系统。在系统中用ATN算法来代替传统的基于字符串匹配的分词算法,由于该算法基于汉语词法、语法规则,所以在分词处理结果上有更高的准确性。用潜在语义索引算法取代传统简单的向量空间模型来做信息的过滤,该算法在处理汉语“一词多义”和“多词一义”有很好的效果。为了将过滤成果应用到实践中,系统将过滤结果以PICS标签的形式保存在数据库中以便推广应用。最后为了验证系统过滤性能,用中国教育和科研计算机网紧急响应组(CCERT, China Education and Research Network Emergency Response Te-am)提供的中文邮件数据集(CDSCE, CCERT Data Sets of Chinese Emails)做了实验验证,结果表明,系统设计合理,过滤效果较好。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第1章 绪论
  • 1.1 选题背景及意义
  • 1.2 国内外研究现状
  • 1.3 项目背景和研究内容
  • 1.4 本文的组织结构
  • 第2章 相关知识介绍
  • 2.1 不良信息过滤技术
  • 2.1.1 基于网址的过滤研究
  • 2.1.2 基于内容的过滤
  • 2.1.3 混合过滤
  • 2.2 扩充转移网络算法(ATN)
  • 2.2.1 ATN算法产生背景
  • 2.2.2 ATN算法的实现流程
  • 2.2.3 ATN算法的优缺点
  • 2.3 互联网选择平台(PICS)
  • 2.3.1 PICS产生的背景
  • 2.3.2 PICS技术的三个概念
  • 2.3.3 基于PICS的过滤软件的原理
  • 2.3.4 PICS系统的优缺点
  • 2.4 潜在语义索引模型(LSI)
  • 2.4.1 LSI算法产生相关背景
  • 2.4.2 LSI算法的实现流程
  • 2.4.3 LSI算法的优缺点
  • 2.5 中文分词技术在不良信息过滤中作用
  • 2.6 本章小结
  • 第3章 系统关键技术分析
  • 3.1 系统技术基础
  • 3.1.1 Spring简介
  • 3.1.2 Hibernate简介
  • 3.1.3 Dojo简介
  • 3.2 系统架构设计
  • 3.3 系统表结构设计
  • 3.4 中文预处理模块设计
  • 3.4.1 名词短语网络结构设计
  • 3.4.2 动宾短语网络结构设计
  • 3.4.3 介词短语网络结构设计
  • 3.4.4 句型网络结构设计
  • 3.4.5 寄存器
  • 3.4.6 中文去噪处理
  • 3.5 信息过滤模块设计
  • 3.5.1 向量空间模型
  • 3.5.2 文档相似度计算
  • 3.5.3 矩阵奇异值分解
  • 3.6 PICS模块设计
  • 3.6.1 PICS标签格式的定义
  • 3.6.2 PICS标签等级的划分
  • 3.7 系统关键问题及解决办法
  • 3.7.1 创建词库
  • 3.7.2 ATN效率问题
  • 3.7.3 ATN歧义问题
  • 3.7.4 样本集的获取
  • 3.7.5 特征词权重计算
  • 3.8 本章小结
  • 第4章 系统实现及垃圾邮件概念空间的构建
  • 4.1 中文预处理模块工作流程
  • 4.2 信息过滤模块工作流程
  • 4.3 PICS模块工作流程
  • 4.4 人机交互模块工作流程及实现
  • 4.4.1 系统主界面
  • 4.4.2 文档类型管理功能
  • 4.4.3 实验分析功能模块
  • 4.4.4 实验参数管理模块
  • 4.4.5 词库管理模块
  • 4.5 中文邮件样本集(CDSCE)
  • 4.6 构建垃圾邮件概念空间模型
  • 4.6.1 中文分词处理
  • 4.6.2 统计特征词词频
  • 4.6.3 计算特征词权重
  • 4.6.4 构造词文档矩阵
  • 4.6.5 奇异值分解
  • 4.7 本章小结
  • 第5章 实验及结果分析
  • 5.1 实验参数的确定
  • 5.1.1 实验数据集
  • 5.1.2 K值范围的确定
  • 5.1.3 实验测试集
  • 5.1.4 实验性能指标
  • 5.1.5 实验归档处理
  • 5.2 实验过程描述
  • 5.3 实验结果及分析
  • 1500实验结果及分析'>5.3.1 DS1500实验结果及分析
  • 2500实验结果及分析'>5.3.2 DS2500实验结果及分析
  • 3500实验结果及分析'>5.3.3 DS3500实验结果及分析
  • 5.3.4 系统K值的确定及最终实验结果
  • 5.3.5 实验对比
  • 5.4 本章小结
  • 结论与展望
  • 论文总结
  • 未来展望
  • 致谢
  • 参考文献
  • 攻读学位期间发表的论文
  • 相关论文文献

    • [1].两种粘结剂对5-ATN的包覆及其安全性能研究[J]. 山东化工 2016(03)
    • [2].星地一体化通信系统ATN终端卫星上行同频干扰[J]. 电子设计工程 2016(10)
    • [3].支持属性选择性披露的ATN证书描述方案[J]. 计算机工程 2010(09)
    • [4].民航航空电信网(ATN)技术[J]. 电子技术与软件工程 2019(12)
    • [5].彩色多普勒超声在肾移植术后AR与ATN鉴别诊断中应用[J]. 医学影像学杂志 2008(04)
    • [6].不同方法移植的人脐带间充质干细胞在ATN模型犬的体内分布及趋化性[J]. 公共卫生与预防医学 2010(02)
    • [7].保温时间对ATN陶瓷刀具材料力学性能及显微结构的影响[J]. 工具技术 2011(02)
    • [8].艺术技术民族相融 创新创意执行共举——贵州民族大学建筑学专业“ATN·CDIO”人才培养模式的探索[J]. 高教学刊 2018(18)
    • [9].基于ATN·CDIO人才培养模式的“空间认知”建筑设计基础教学探索[J]. 中国建设信息化 2019(09)
    • [10].阿尔茨海默病的ATN诊断标准重塑血管性认知障碍诊治[J]. 中国卒中杂志 2019(02)
    • [11].民航航空电信网(ATN)技术应用探析[J]. 中国高新技术企业 2016(24)
    • [12].基于属性敏感度度量的ATN模型[J]. 内蒙古科技大学学报 2018(03)
    • [13].人脐带间充质干细胞移植后在ATN大鼠的分布[J]. 公共卫生与预防医学 2010(05)
    • [14].基于IPSec的VPN在航空电信网ATN中的应用研究[J]. 计算机安全 2009(07)
    • [15].ATN中信任证链查找算法的研究[J]. 小型微型计算机系统 2011(09)
    • [16].AIDC技术在新一代空管系统中的应用[J]. 渭南师范学院学报 2015(06)
    • [17].亚太区ATN实施协调工作组第三次会议及亚太区AMHS实施计划研讨会举行[J]. 空中交通管理 2008(02)
    • [18].ATN·CDIO模式下建筑学实践性教学环节的组织——以建筑设计课为例[J]. 大学教育 2019(04)
    • [19].民航航空电信网技术应用研究[J]. 无线互联科技 2018(10)
    • [20].ATN协议体制的演化及其对我国航空通信发展的启示[J]. 电信科学 2008(07)
    • [21].浅谈甚高频数据链技术与应用[J]. 科技致富向导 2013(03)

    标签:;  ;  ;  ;  

    基于ATN算法和潜在语义索引的不良信息过滤系统研究
    下载Doc文档

    猜你喜欢