论文摘要
三网融合已逐渐成为我们信息技术发展的大趋势。在三网融合的大背景下,信息的传播途径将更加丰富、传播时间将更短、覆盖面将更大。由此会带来一系列的问题:大量的色情、暴力、血腥、反动、迷信的信息会得到更广泛、快速的传播,产生更大的危害;知识产权难以得到保护;垃圾信息充斥网络。因此需要一个强有力的内容监管系统对整个网络进行监管,屏蔽不良信息,过滤垃圾信息,打击盗版,净化网络环境,为全网内容可管、可控提供保障。随着网络文字媒体的不断涌现翻新,在三网融合的大前提下,文本信息监管愈发显的重要。文字内容监管系统是内容监管系统下的一个子系统,承担着对网络中一切文字信息的监管责任。文字监管系统通过对网络中的文字信息内容进行分析,对文本进行自动分类,自动识别,自动处理。面对海量的文字信息,要高效的进行处理,需要进行文本分类。运用文本分类方法能够屏蔽不良信息、过滤垃圾信息、保护知识产权。文本分类的效率会直接影响到文字内容监管系统的工作效率,因此,改进文本分类的算法是研究的重点。特征权重计算和分类模型是影响文本分类的关键因素。改进特征权重算法,使得更能表征文本类别的特征项获得更高的权重值;改进分类模型,使得分类的时间开销大幅降低。通过实验验证,改进后的方法准确度更高,速度更快,更加适合文字内容监管系统。