基于统计的中文新闻网页分类技术研究

基于统计的中文新闻网页分类技术研究

论文摘要

随着互联网技术的迅速发展,网络上的信息资源呈爆炸式增长,万维网已经成为拥有几十亿个Web页面的分布式信息空间。在这海量的数字资源中,信息大都以半结构化或者是非结构化的数据形式存在,信息的存储组织杂乱无章,要从其中迅速有效地获得所需信息是非常困难的事情。因此,设法对网页按照类别进行分类存储,是对网页进行有效组织的重要手段。在已分类的网页集合中,寻找所需的信息将会更加容易。而传统的手工分类方式显然无法应对海量的在线文档。因此,研究对网页的自动分类便具有重要意义。本文研究对中文新闻网页进行自动分类的技术和方法,所涉及的工作有:提出一种基于条件随机域模型的中文新闻网页信息自动提取方法。首先对网页中不规范的HTML标签组织进行自动修正,然后将网页表示成DOM树形式。在提取有用信息时,对DOM树形式的网页内容进行深度遍历,得到一个格式整齐、并为线性结构的多行文本,最后利用训练好的条件随机域标注模型,对文本的每一行进行标注,从而得到各种有用信息的边界。针对新闻网页包含有更多结构信息的特点,研究网页中的标题、元数据、正文、相关链接对分类性能的影响作用,并提出一种综合利用这些信息的加权策略,提高了网页分类的性能。分析了常用的几种特征选择方法在中文新闻网页分类应用下的性能。实验表明,在同样的实验测试条件下,信息增益在特征选择上的性能要优于其它特征选择方法,而LSI相对于所有的特征选择方法,能显著地降低分类特征的维数,同时还能使分类性能不下降。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 背景与意义
  • 1.2 课题的发展现状
  • 1.3 本文研究工作与内容安排
  • 第二章 文本分类技术概述
  • 2.1 文本分类的定义
  • 2.2 文本分类的过程
  • 2.2.1 预处理
  • 2.2.2 文本表示
  • 2.2.3 特征选取
  • 2.3 分类算法
  • 2.3.1 朴素贝叶斯(Na(l|¨)ve Bayes)
  • 2.3.2 K-近邻(KNN)
  • 2.3.3 支持向量机(Support Vector Machines,SVM)
  • 2.3.4 文本分类的评估指标
  • 2.4 相关评测和相关资源
  • 2.5 中文新闻网页自动分类
  • 第三章 基于条件随机域的新闻网页信息提取
  • 3.1 网页的基本结构和特点
  • 3.1.1 网页基本结构
  • 3.1.2 网页特点分析
  • 3.2 网页的规范化处理
  • 3.3 条件随机域与网页内容预处理
  • 3.3.1 条件随机域模型(CRF)
  • 3.3.2 基于DOM的网页树型结构构建
  • 3.3.3 网页信息的标注过程
  • 3.4 特征选择
  • 3.5 实验
  • 3.5.1 实验数据与工具
  • 3.5.2 实验结果
  • 第四章 基于结构信息组合的中文新闻网页分类
  • 4.1 网页的结构信息和超链接信息
  • 4.2 网页内容的表示与特征权值设置
  • 4.3 实验及其结果分析
  • 4.3.1 实验设置
  • 4.3.2 不同网页表示形式的分类性能对比
  • 4.3.3 不同结构信息加权组合后的分类性能对比
  • 第五章 中文新闻网页分类中的特征选择方法
  • 5.1 特征选择
  • 5.2 特征抽取
  • 5.3 不同特征选择方法的分类实验
  • 5.3.1 分类器设计
  • 5.3.2 分类测试实验
  • 总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于统计的中文新闻网页分类技术研究
    下载Doc文档

    猜你喜欢