基于文本分类技术的信息过滤方法的研究

基于文本分类技术的信息过滤方法的研究

论文摘要

Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷失、色情和暴力充斥网上等很多问题,为解决这些问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。但传统的基于关键字或基于IP地址的过滤等过滤技术已不能很有效的解决这些问题,由此该课题对基于文本分类技术的过滤方法进行深入研究,希望能对网络信息内容进行分析,达到对网络信息的安全过滤。本课题将文本分类技术应用到中文信息过滤领域,提出了一种基于文本分类技术的信息过滤算法。首先对网络中收集的文本进行预处理工作,改进的预处理方法使两个字以上的纯中文词成为代表文本信息的特征项。其次,该文借助向量空间模型的思想,将文本表示为向量空间的形式,并在此基础上结合词的属性特征来分析文本的整体特征。该系统还根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征过滤模型作为匹配模板,再根据待测文本与信息特征过滤模型的匹配情况来判定待测文本是否满足用户过滤需求。同时,由于基于统计的文本过滤技术忽略了文本中的语义约束,不能真正达到对文本的智能分析,所以在该算法中还引入了局部语义分析,不仅从整体特征还从局部特征对文本进行分析,综合考虑了文本的统计特性和知识特性两方面因素,从而实现了对文本的分析过滤,经初步测试获得了对特定文本信息安全过滤的较好效果。实验结果表明,论文中所提出的算法能够对文本中的敏感信息进行识别,从而实现了对文本内容的分析,达到对文本安全过滤的目的。但要使信息过滤智能化,是一个复杂漫长的过程,论文提出的算法只是一个开端,有待于进一步研究。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究背景
  • 1.2 文本分类与信息过滤技术的概述
  • 1.2.1 文本分类技术的发展
  • 1.2.2 信息过滤技术的提出
  • 1.2.3 信息过滤技术中文本分类常用算法简介
  • 1.3 信息过滤技术的发展现状与不足
  • 1.3.1 信息过滤的概念及任务
  • 1.3.2 中文文本过滤的发展现状与不足
  • 1.4 信息过滤与文本分类及信息检索的关系
  • 1.4.1 信息过滤与文本分类
  • 1.4.2 信息过滤与信息检索
  • 1.5 本文主要工作及论文结构安排
  • 第2章 信息过滤模型的总体设计
  • 2.1 信息过滤的主要数学模型
  • 2.1.1 布尔模型
  • 2.1.2 向量模型
  • 2.1.3 概率模型
  • 2.2 课题研究中的有关定义
  • 2.3 信息过滤技术的基本原理
  • 2.4 基于文本分类技术的信息过滤模型的总体设计
  • 2.4.1 训练过程的模块设计
  • 2.4.2 分析过程的模块设计
  • 2.5 信息过滤系统的评价指标
  • 2.6 本章小结
  • 第3章 过滤模型的主要算法设计
  • 3.1 改进的文本预处理方法
  • 3.1.1 分词前的文本预处理算法
  • 3.1.2 分词处理
  • 3.1.3 去除停用词
  • 3.1.4 处理单个独立字和符号字典
  • 3.2 加权模块
  • 3.3 特征向量模块
  • 3.3.1 特征词表的定义
  • 3.3.2 建立特征词表
  • 3.4 文本特征提取
  • 3.5 特征阈值
  • 3.5.1 阈值计算方法简介
  • 3.5.2 特征阈值估算
  • 3.5.3 阈值调整算法
  • 3.6 本章小结
  • 第4章 基于文本分类技术的信息过滤算法
  • 4.1 全局匹配算法
  • 4.2 基于文本内容的局部匹配算法
  • 4.2.1 局部语义分析的必要性
  • 4.2.2 局部分析的框架
  • 4.2.3 局部匹配模型的建立
  • 4.2.4 局部匹配算法
  • 4.3 综合匹配算法
  • 4.4 相关度反馈
  • 4.5 信息过滤算法流程
  • 4.6 本章小结
  • 第5章 实验结果与分析
  • 5.1 实验测试数据的准备
  • 5.2 系统开发平台
  • 5.3 实验测试结果
  • 5.3.1 倾向性测试
  • 5.3.2 综合测试
  • 5.3.3 文本数量变化测试
  • 5.3.4 系统运行效果的比较
  • 5.4 结果分析
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于文本分类技术的信息过滤方法的研究
    下载Doc文档

    猜你喜欢