论文摘要
Internet的开放性和日益增长的规模,为人们提供了自由交换信息的便捷手段。同时巨大的开放信息源也使一些恶意的和不良的(反动、色情等)内容信息趁机而入,成为用户获取有效信息的严重障碍。为保护国家安全、稳定,同时保护网络用户远离有害信息的侵扰,以及控制对这些信息的访问,有必要采取有力措施对这类信息进行监管,同时也有必要为运行Web服务的各种组织,提供对此类信息的访问加以监管的技术和服务。为此开发先进的文本内容安全监管技术是一项紧急而又重要的课题。本文通过对综合运用机器学习、模式识别、数据挖掘、知识发现、自然语言理解、中文信息处理、粗糙集理论、人工智能等学科的相关知识,通过分析各类不良信息的特征,结合文本信息处理目前研究进展,对文本特征选择方法以及相关文本处理算法进行综合分析,研究了适合不良文本信息过滤的模型及关键算法。首先,对国内不良文本过滤现状及相关过滤系统的研究进行了讨论分析,分析了基于PICS(Platform for Internet Content Selection)的内容选择,基于URL的过滤,基于特征词的过滤的优缺点,提出了智能内容过滤是文本深层次分析的必要技术,指出了文本安全过滤的应用领域。研究了处理大样本集的文本预处理技术、网页正文获取、快速词频统计算法等。其次,研究了文本处理中的文本表达技术和特征选择技术,包括Filter特征选择技术,Wrapper特征选择技术,基于粗集的特征选择技术,以及权重计算和归一化技术。指出了各种特征选择技术的优缺点,并对文本表示技术进行了实验。指出不同的过滤器需要采用适于其本身的文本表达方法。正确的归一化能够得到较好的结果。实际的样本集一般是不平衡样本,不同的过滤器对于不平衡样本集试验结果的性能差别较大。试验表明:中心向量法、支持向量机基于向量空间模型来表示文本,我们正确归一化后,和没有归一化前比较,性能有很大的提高。Naive Bayes由于采用概率模型表示文本,在标准样本集(平衡样本集)上得到了同基于向量空间模型的方法和基于支持向量机的方法相差不多的结果。但是在实际样本集(不平衡样本集)上,对于训练集,准确率比基于向量空间模型的方法和基于支持向量机的方法较差,但是在过滤未知反动样本上,准确率非常差,而基于向量空间模型的方法和基于支持向量机的方法较好。分析表明一方面由于不同反动网站的反动样本语法风格不一样,另一方面是反动样本特征空间较大,基于概率的统计方法不能反映全部特征空间分布。中心向量法和支持向量机对于平衡样本集或不平衡样本集都表现了较好的性能。第三,讨论了粗糙集的基本概念,指出了粗糙集的理论本质。研究了粗糙集属性约简算法,比较了基于区分矩阵的约简算法和基于属性重要度的约简算法,指出基于区分矩阵的约简算法在处理文本信息时是不充分的。提出了一种混合的属性约简算法,试验表明该方法在处理文本信息时是非常有效的,一方面利用常用的约简算法降低了文本维数,另一方面利用粗糙集约简算法去掉了很多冗余属性和噪音属性。第四,提出了一种粗糙集和相关过滤器相结合的针对主题特殊文本的过滤新方法,本文基于属性重要度,对文本属性进行前向选择提出了一种新的粗糙集属性约简算法,它产生几个约简,由于各约简基之间没有相同的属性,试验表明在处理文本数据时,具有更强的分类能力。整个过程分成两个阶段:首先将粗糙集理论作为前端预处理工具,实现分类数据中属性的约简过程,降低数据维数但基本上不损失有效信息,然后用统计方法作为后端处理器进一步对约简后的数据进行分类过滤,使计算量大大减少,同时提高了分类速度。通过试验结果可以看出,对未经粗糙集约简的文本属性集和经过快速约简的文本属性集比较,当约简个数m取值为3时,所选择的属性个数大大减少,基于向量空间模型的方法和基于支持向量机的方法在训练集和测试集上都达到了未经约简前的准确率。最后,开发了内容安全网关中不良文本过滤模块,设计了一个有效的不良文本过滤架构。基于多模式匹配算法,研究设计了高效的不良文本过滤引擎,并应用于安全网关和电子邮件过滤系统中。
论文目录
相关论文文献
- [1].内容安全综述[J]. 科技信息 2010(08)
- [2].内容安全研究进展与教学内容选择[J]. 大众科技 2012(02)
- [3].基于内容评价的爬虫搜索策略研究[J]. 微电子学与计算机 2008(11)
- [4].出版企业全周期内容安全管理机制研究[J]. 中国公共安全(学术版) 2019(04)
- [5].节目备播安全管控的设计与实现[J]. 现代电视技术 2015(03)
- [6].内容过滤技术研究进展[J]. 信息安全与通信保密 2011(09)
- [7].基于语言特征的舆情事件抽取[J]. 信息安全与通信保密 2015(04)
- [8].P2P文件污染的建模与仿真分析[J]. 上海交通大学学报 2008(02)
- [9].保障内容安全的量子密钥应用综述[J]. 计算机工程 2019(12)
- [10].浅析网络安全中的内容过滤计算研究[J]. 网络安全技术与应用 2013(06)
- [11].基于核方法的敏感信息过滤的研究[J]. 通信学报 2008(04)
- [12].基于Vague集的Web内容安全文本分类[J]. 广西师范大学学报(自然科学版) 2010(01)
- [13].全媒体融合下城市台广电信息安全策略研究[J]. 广播电视信息 2016(06)
- [14].基于全生命周期的数字教材安全管理机制研究[J]. 教育传播与技术 2019(04)
- [15].基于隐私保护的电子选举投票系统[J]. 计算机应用 2016(S2)
- [16].无线广播发射台播出节目内容安全监测探讨[J]. 广播电视信息 2016(09)
- [17].一种互联网内容安全检测过滤系统[J]. 计算机应用研究 2008(09)
- [18].基于智能双驱检测技术的APP一站式安全监测探索与实践[J]. 电信技术 2019(04)
- [19].WEB内容过滤防火墙研究[J]. 科技信息 2011(26)
- [20].实时文本分类系统的研究与实现[J]. 计算机工程 2008(18)
- [21].出版单位网站和新媒体平台安全隐患和内容风险防范体系建设路径探析[J]. 传播力研究 2018(11)
- [22].融合通信内容安全监管的全新挑战与应对建议[J]. 电信科学 2015(S1)
- [23].网络信息内容安全问题研究[J]. 计算机安全 2011(02)
- [24].网络环境下科技信息资源共享的内容安全问题研究[J]. 现代情报 2010(01)
- [25].基于内容的网络不良文本信息动态过滤技术探析[J]. 广西师范学院学报(自然科学版) 2008(04)
- [26].基于语义倾向性分析的不良文本检测模型研究[J]. 贵州大学学报(自然科学版) 2013(03)
- [27].基于音频的数字视频内容安全检测模型研究[J]. 计算机应用与软件 2013(06)
- [28].MYSQL数据库内容安全研究管理方法论[J]. 计算机安全 2012(04)
- [29].基于语义的Web新闻内容倾向性分析框架[J]. 郑州大学学报(理学版) 2009(01)
- [30].“知识图谱+深度学习”赋能内容安全[J]. 信息安全研究 2019(11)
标签:内容安全论文; 文本过滤论文; 特征选择论文; 文本表达论文; 粗糙集论文; 向量空间模型论文; 支持向量机论文;