基于中文分词技术的网络经营行为监管系统分析与研究

基于中文分词技术的网络经营行为监管系统分析与研究

论文摘要

近年来网络经济日益增长,交易规模日趋庞大,网络已成为了人们自由交流的便捷工具。但是,这种开放性也使网络存在着很大的负面效应,如各种色情、迷信、反动、暴力和其他非法信息的传播,或者内部局域网中保密信息的泄漏,这些都已成为人们日益关注的焦点问题。而传统的过滤技术,如基于IP地址的过滤、基于关键字的过滤等,已难以有效地解决这些问题。本文首先对中文分词技术进行了分析研究,并对网络信息内容进行了安全分析,针对工商网络巡查的工作特点,探索能检索出网络非法经营行为的信息的检索工具。本文对目前的Web内容搜索方法做了分类研究,提出了一种根据工商行政管理工作特点的中文分词改进算法。该算法以最短路径匹配法为基础,以排除歧义为主要改进目标,同时兼顾分词速度,进行了改进。首先,根据工商行政机构在流通领域中网络经营行为的过滤需求,从用户预先收集的训练样本中提取出信息特征,调整词典的结构,然后对搜索引擎中的关键字段进行匹配,增加若干分词规则对待测文本进行分析并分类过滤,同时根据分词长短自动调整匹配环境。对选自互联网的主题网页的实验测试显示,文中提出的算法能够较好地实现对网页中不良网页的搜索功能,实现了对特定信息安全过滤的效果。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究目的及意义
  • 1.2 文献综述及研究现状
  • 1.2.1 文本分类研究现状
  • 1.2.2 自动分词研究现状
  • 1.3 网络监管在公共管理上的内涵与意义
  • 1.3.1 政府网络监管模式和作用
  • 1.3.2 工商部门网络监管的内涵与实质
  • 1.3.3 技术创新对于完善网络监管的意义
  • 1.4 工商网络监管现状
  • 1.4.1 市场主体未纳入登记管理范围
  • 1.4.2 监督检查职能没有得到履行
  • 1.4.3 未能有效保护消费者权益
  • 1.4.4 商标广告监督管理职能不到位
  • 1.4.5 违法电子合同无法查处
  • 1.5 工商行政管理部门在电子商务中监管缺位造成的负面影响
  • 1.5.1 电子商务市场主体鱼龙混杂
  • 1.5.2 不正当竞争行为泛滥
  • 1.5.3 侵犯消费者利益问题严重
  • 1.5.4 违法广告商标侵权活动猖撅
  • 1.5.5 合同诈骗及违约行为屡屡发生
  • 1.6 本文的研究内容
  • 2 基本概念
  • 2.1 搜索引擎
  • 2.2 web 挖掘
  • 2.2.1 内容挖掘(Web Content Mining)
  • 2.2.2 结构挖掘(Web Structure Mining)
  • 2.2.3 应用挖掘(Web Usage Mining)
  • 2.3 数据挖掘中的分类算法
  • 2.3.1 文本分类的方法
  • 2.3.2 合理分类的前提
  • 2.3.3 分类器
  • 2.4 中文分词技术
  • 2.4.1 分词词典
  • 2.4.2 分词算法
  • 2.4.3 歧义字段处理
  • 2.4.4 未登录词处理
  • 2.5 搜索策略
  • 2.5.1 广度优先搜索 BFS
  • 2.5.2 深度优先算法 DF
  • 2.5.3 随机游走搜索算法
  • 3 基于中文分词技术的工商行政管理网络经营行为监管系统的设计
  • 3.1 互联网内容监管系统模型设计
  • 3.1.1 需求分析
  • 3.1.2 监管模型概述及总体框架
  • 3.1.3 监管模型模块分析
  • 3.1.4 被动和主动分析监控模型的应用环境
  • 3.1.5 双层结构模型
  • 3.2 信息抓取设计
  • 3.2.1 信息抓取
  • 3.2.2 信息预处理
  • 3.3 网页内容信息挖掘设计
  • 3.4 网页信息服务功能的设计
  • 3.5 系统数据库设计
  • 3.5.1 保存抓取的文章
  • 3.5.2 存放后抽取的文本的表
  • 3.5.3 专业特征词表
  • 3.5.4 敏感信息分类表
  • 3.5.5 标签库
  • 3.6 控制台功能设计
  • 3.6.1 IP 扫描
  • 3.6.2 WWW 搜索
  • 4 工商行政管理网络经营行为监管系统的设计算法策略与实现
  • 4.1 针对工商网络监管专用搜索引擎过滤算法的改进
  • 4.1.1 一种改进的中文分词算法
  • 4.1.2 词典中最短路径中文分词算法的改进
  • 4.1.3 关于改进分词算法与词典最佳路径求解的评注
  • 4.2 算法的实现
  • 4.2.1 组词信息的查询策略
  • 4.2.2 分词结果输出
  • 4.2.3 分词过程中的状态
  • 4.2.4 算法实现的流程图
  • 4.3 本系统的具体实现过程
  • 4.3.1 文本预处理
  • 4.3.2 分词处理
  • 4.3.3 分词节点的属性联接、统计和权重的计算
  • 5 结束语
  • 5.1 对于中文文本过滤的认识
  • 5.2 本系统目前存在的问题及以后的改进工作
  • 参考文献
  • 致谢
  • 攻读学位期间主要科研成果
  • 相关论文文献

    • [1].基于神经网络的中文分词技术研究[J]. 科学技术创新 2019(32)
    • [2].中文分词技术研究[J]. 信息与电脑(理论版) 2020(10)
    • [3].中文分词技术在搜索引擎中的探讨[J]. 科技信息 2009(35)
    • [4].自然语言检索中的中文分词技术研究进展及应用[J]. 情报科学 2008(05)
    • [5].百度中文分词技术浅析[J]. 河南图书馆学刊 2008(04)
    • [6].计算机中文分词技术及其在数字化侦查中的应用研究[J]. 福建警察学院学报 2008(04)
    • [7].基于回溯法的中文分词技术[J]. 电子技术与软件工程 2019(21)
    • [8].面向未登录领域词切分的中文分词技术研究[J]. 信息系统工程 2013(11)
    • [9].中文分词技术研究综述[J]. 数据分析与知识发现 2020(Z1)
    • [10].中文分词技术在社会化媒体分析中的应用[J]. 中国教育技术装备 2014(16)
    • [11].计算机中文分词技术的应用[J]. 呼伦贝尔学院学报 2010(03)
    • [12].百度和谷歌的中文分词技术浅析[J]. 中国索引 2011(02)
    • [13].应用中文分词技术的网络推广管理系统的设计与实现[J]. 电子商务 2019(09)
    • [14].基于双向匹配法和特征选择算法的中文分词技术研究[J]. 昆明理工大学学报(自然科学版) 2011(01)
    • [15].中文分词技术在搜索引擎中的应用研究[J]. 计算机与网络 2010(01)
    • [16].中文分词技术的研究及在Nutch中的实现[J]. 科技信息 2011(19)
    • [17].基于云计算的中文分词研究[J]. 河北科技大学学报 2012(03)
    • [18].专家遴选系统设计与实现[J]. 计算机时代 2019(07)
    • [19].中文分词技术的研究现状与困难[J]. 信息技术 2009(07)
    • [20].基于分组hash与变长匹配的中文分词技术[J]. 计算机时代 2019(04)
    • [21].基于MMSEG算法的中文分词技术的研究与设计[J]. 信息技术 2016(06)
    • [22].中文分词技术综述[J]. 安阳师范学院学报 2010(02)
    • [23].中文分词技术及其实现[J]. 软件导刊 2011(01)
    • [24].考试系统基于中文分词技术的主观题评分尝试[J]. 科技信息 2009(28)
    • [25].中文分词技术的研究[J]. 电脑开发与应用 2010(03)
    • [26].NLP中文分词技术在桥梁报告数据处理中的应用[J]. 交通世界 2020(17)
    • [27].基于Lucene的中文分词技术改进[J]. 咸阳师范学院学报 2012(02)
    • [28].浅谈中文分词技术[J]. 科技资讯 2011(32)
    • [29].面向军事领域的中文分词技术研究[J]. 计算机与现代化 2018(11)
    • [30].基于专业词典的带词长的中文分词技术的研究[J]. 科技信息 2012(34)

    标签:;  ;  ;  ;  ;  

    基于中文分词技术的网络经营行为监管系统分析与研究
    下载Doc文档

    猜你喜欢