论文摘要
随着互联网技术的迅速发展,网络上的信息资源呈爆炸式增长,万维网已经成为拥有几十亿个Web页面的分布式信息空间。在这海量的数字资源中,信息大都以半结构化或者是非结构化的数据形式存在,信息的存储组织杂乱无章,要从其中迅速有效地获得所需信息是非常困难的事情。因此,设法对网页按照类别进行分类存储,是对网页进行有效组织的重要手段。在已分类的网页集合中,寻找所需的信息将会更加容易。而传统的手工分类方式显然无法应对海量的在线文档。因此,研究对网页的自动分类便具有重要意义。本文研究对中文新闻网页进行自动分类的技术和方法,所涉及的工作有:提出一种基于条件随机域模型的中文新闻网页信息自动提取方法。首先对网页中不规范的HTML标签组织进行自动修正,然后将网页表示成DOM树形式。在提取有用信息时,对DOM树形式的网页内容进行深度遍历,得到一个格式整齐、并为线性结构的多行文本,最后利用训练好的条件随机域标注模型,对文本的每一行进行标注,从而得到各种有用信息的边界。针对新闻网页包含有更多结构信息的特点,研究网页中的标题、元数据、正文、相关链接对分类性能的影响作用,并提出一种综合利用这些信息的加权策略,提高了网页分类的性能。分析了常用的几种特征选择方法在中文新闻网页分类应用下的性能。实验表明,在同样的实验测试条件下,信息增益在特征选择上的性能要优于其它特征选择方法,而LSI相对于所有的特征选择方法,能显著地降低分类特征的维数,同时还能使分类性能不下降。
论文目录
相关论文文献
标签:网页分类论文; 网页信息提取论文; 网页结构信息组合论文; 特征选择论文;