汉语文本自动分类 ——市长公开电话数据的统计分析

汉语文本自动分类 ——市长公开电话数据的统计分析

论文摘要

文本自动分类作为自动信息管理的一项核心技术,其研究一直受到高度关注.本文从市长公开电话文本分类具体的实际问题出发,在真实数据集上展开研究,研究主要包括以下几个方面:为了能对市长公开电话的海量文本数据进行全面的统计分析,研发了信息综合管理系统控制平台.该平台是集开发与应用为一体的大型工具软件,内含笔者设计的独立的平台语言和大量的通用化功能模块,其代码的高度可重用性避免了大量低水平重复开发造成的巨大人力物力资源的浪费,它的研发成功为后续的众多统计分析提供了便捷的环境,也是后续所有工作能够顺利完成的根本保障.本文介绍了平台构建的原理及关键性技术,在平台之上建立了单位分类机和行业分类机、统计分析与预警预报系统.在文本预处理阶段提出了提取未登录词及套话的一种方法,在特征提取方面提出了一个基于加权的卡方统计量提取停用词的方法,删除停用词后的分类器效率有了显著提高.虽然仅删除了500停用词,但由于停用词占训练集总词量的43.7%,因而数据噪音得到大幅度降低.在低频词方面提出了针对每一类按一定比例删除低频词,分类效果增加了一个百分点,如70%,低频词由13909降为3445,向量空间维数显著降低.在分类器构建方面,针对市长公开电话的实际需要,笔者认为朴素贝叶斯分类器有其自己的特点,算法简单且速度快,更适合要求实时的分类数据,但正确率较低,在项目早期的实际测试中,通过对其进行改进,提出了一种基于多重假设检验的特征加权朴素贝叶斯分类器,其优点是在正确率有所提高的情况下速度更快,缺点是参数选择较为困难.鉴于实际数据的类别数目较多,单层分类提高性能较为困难,基于地域信息提出了一种文本分类层次结构模型,和特征加权朴素贝叶斯分类器相比较,该模型构建更简单、实用,同时误判率更低.考虑到工单派发的实际需要,将几个分类器有机组合提出了一种基于分类委员会的文本分类模型构成单位自动分类机,它极大地减轻了受理处和办理处的工作压力,同时使投诉受理量有了大幅度的增加,其直接派发率高达80.76%,派发准确率81.04%.

论文目录

  • 提要
  • 第一章 绪论
  • §1.1 文本分类的国内外研究现状
  • §1.2 文本分类的简单介绍
  • §1.3 常用的几种分类器的介绍
  • §1.4 文本分类结果的评价方法
  • §1.5 应用实例简介-市长公开电话
  • §1.5.1 市长公开电话简介
  • §1.5.2 市长公开电话流程图
  • §1.5.3 实行自动文本分类的意义和必要性
  • §1.5.4 市长公开电话投诉文本的自身特点
  • §1.6 本文的内容和结构
  • 第二章 文本文档的表示
  • §2.1 汉字的机内码
  • §2.2 疑难字的输入
  • §2.2.1 问题的提出
  • §2.2.2 解决的方法
  • §2.3 分词预处理
  • §2.3.1 基于字典、词库匹配的分词方法
  • §2.3.2 基于理解的分词方法
  • §2.3.3 基于统计的分词方法
  • §2.4 向量空间模型
  • §2.4.1 向量空间模型的基本思想
  • §2.4.2 常用的词条权重表示法
  • §2.5 市长公开电话文本的表示
  • §2.5.1 市长公开电话文本的切分
  • §2.5.2 获取未登录词的一种方法
  • §2.5.3 提取投诉数据中的套话
  • §2.6 小结
  • 第三章 特征选择和特征提取
  • §3.1 特征选择的几种常用方法
  • §3.1.1 停用词和低频词
  • §3.1.2 互信息
  • §3.1.3 优比
  • §3.1.4 卡方统计量
  • §3.2 特征选择在市长公开电话上的应用
  • §3.2.1 基于卡方统计量的停用词提取
  • §3.2.2 卡方与优比结合的特征选择方法
  • §3.2.3 低频词的删除
  • §3.3 特征抽取
  • §3.3.1 隐性语义索引
  • §3.3.2 词条聚类
  • §3.4 小结
  • 第四章 汉语文本分类器的设计
  • §4.1 朴素贝叶斯分类器
  • §4.1.1 朴素贝叶斯分类器模型
  • §4.1.2 在市长公开电话上的应用
  • §4.2 基于多重假设检验的特征加权朴素贝叶斯分类器
  • §4.2.1 基于多重假设检验的特征加权系数的确定
  • §4.2.2 在市长公开电话数据集上的应用
  • §4.3 基于地域信息的文本分类层次结构模型
  • §4.4 基于分类委员会的文本分类模型
  • §4.5 基于朴素贝叶斯的多级分类器
  • §4.6 数据对分类器的性能影响
  • §4.7 小结
  • 第五章 信息综合管理系统控制平台
  • §5.1 引言
  • §5.2 平台系统数学模型的构建
  • §5.2.1 平台系统的数学抽象
  • §5.2.2 数据集的有序化
  • §5.2.3 控制集的有序化
  • §5.2.4 平台系统的构成
  • §5.3 平台系统的设计原理
  • §5.4 平台语言的通用指令集
  • §5.4.1 基础类指令
  • §5.4.2 数据库类
  • §5.4.3 文本操作类
  • §5.4.4 网络信息发布类指令
  • §5.4.5 多参数数据输入类
  • §5.4.6 列表模式
  • §5.4.7 图文模式
  • §5.4.8 码表模式
  • §5.4.9 Word文档、Excel电子表格模式
  • §5.4.10 自动化控制
  • §5.5 平台系统的算法实现
  • §5.6 平台系统的权限管理与安全机制
  • §5.7 平台系统指令集的优化
  • §5.7.1 指令效率分析
  • §5.7.2 指令集优化后的执行效果
  • §5.7.3 平台系统的优缺点
  • §5.8 平台在市长公开电话中的应用
  • §5.8.1 市长公开电话受理系统
  • §5.8.2 全自动单位分类机
  • §5.8.3 全自动行业分类机
  • §5.8.4 统计分析系统
  • §5.8.5 文档自动生成系统
  • §5.8.6 单位预警预报和行业预警预报
  • §5.9 小结
  • 结论
  • 参考文献
  • 附录
  • 附录1 平台系统的指令集列表
  • 附录2 疑难汉字速查软件界面(网络版页面)
  • 附录3 疑难汉字速查软件界面(单机版页面)
  • 附录4 计算机软机著作权登记证书-信息综合管理系统控制平台
  • 附录5 计算机软机著作权登记证书-疑难汉字速查软件
  • 附录6 分类机工作界面
  • 附录7 统计分析与预警预报工作界面
  • 附录8 统计分析与预警预报网站界面
  • 附录9 大屏幕演示控制系统网站界面
  • 攻读博士期间发表及待发的学术论文
  • 中文摘要
  • ABSTRACT
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    汉语文本自动分类 ——市长公开电话数据的统计分析
    下载Doc文档

    猜你喜欢