论文摘要
Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷失、色情和暴力充斥网上等很多问题,为解决这些问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。但传统的基于关键字或基于IP地址的过滤等过滤技术已不能很有效的解决这些问题,由此该课题对基于文本分类技术的过滤方法进行深入研究,希望能对网络信息内容进行分析,达到对网络信息的安全过滤。本课题将文本分类技术应用到中文信息过滤领域,提出了一种基于文本分类技术的信息过滤算法。首先对网络中收集的文本进行预处理工作,改进的预处理方法使两个字以上的纯中文词成为代表文本信息的特征项。其次,该文借助向量空间模型的思想,将文本表示为向量空间的形式,并在此基础上结合词的属性特征来分析文本的整体特征。该系统还根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征过滤模型作为匹配模板,再根据待测文本与信息特征过滤模型的匹配情况来判定待测文本是否满足用户过滤需求。同时,由于基于统计的文本过滤技术忽略了文本中的语义约束,不能真正达到对文本的智能分析,所以在该算法中还引入了局部语义分析,不仅从整体特征还从局部特征对文本进行分析,综合考虑了文本的统计特性和知识特性两方面因素,从而实现了对文本的分析过滤,经初步测试获得了对特定文本信息安全过滤的较好效果。实验结果表明,论文中所提出的算法能够对文本中的敏感信息进行识别,从而实现了对文本内容的分析,达到对文本安全过滤的目的。但要使信息过滤智能化,是一个复杂漫长的过程,论文提出的算法只是一个开端,有待于进一步研究。
论文目录
摘要Abstract第1章 绪论1.1 课题研究背景1.2 文本分类与信息过滤技术的概述1.2.1 文本分类技术的发展1.2.2 信息过滤技术的提出1.2.3 信息过滤技术中文本分类常用算法简介1.3 信息过滤技术的发展现状与不足1.3.1 信息过滤的概念及任务1.3.2 中文文本过滤的发展现状与不足1.4 信息过滤与文本分类及信息检索的关系1.4.1 信息过滤与文本分类1.4.2 信息过滤与信息检索1.5 本文主要工作及论文结构安排第2章 信息过滤模型的总体设计2.1 信息过滤的主要数学模型2.1.1 布尔模型2.1.2 向量模型2.1.3 概率模型2.2 课题研究中的有关定义2.3 信息过滤技术的基本原理2.4 基于文本分类技术的信息过滤模型的总体设计2.4.1 训练过程的模块设计2.4.2 分析过程的模块设计2.5 信息过滤系统的评价指标2.6 本章小结第3章 过滤模型的主要算法设计3.1 改进的文本预处理方法3.1.1 分词前的文本预处理算法3.1.2 分词处理3.1.3 去除停用词3.1.4 处理单个独立字和符号字典3.2 加权模块3.3 特征向量模块3.3.1 特征词表的定义3.3.2 建立特征词表3.4 文本特征提取3.5 特征阈值3.5.1 阈值计算方法简介3.5.2 特征阈值估算3.5.3 阈值调整算法3.6 本章小结第4章 基于文本分类技术的信息过滤算法4.1 全局匹配算法4.2 基于文本内容的局部匹配算法4.2.1 局部语义分析的必要性4.2.2 局部分析的框架4.2.3 局部匹配模型的建立4.2.4 局部匹配算法4.3 综合匹配算法4.4 相关度反馈4.5 信息过滤算法流程4.6 本章小结第5章 实验结果与分析5.1 实验测试数据的准备5.2 系统开发平台5.3 实验测试结果5.3.1 倾向性测试5.3.2 综合测试5.3.3 文本数量变化测试5.3.4 系统运行效果的比较5.4 结果分析5.5 本章小结结论参考文献攻读硕士学位期间发表的学术论文致谢
相关论文文献
标签:信息过滤论文; 文本分类论文; 过滤模型论文; 向量空间模型论文;