统计和规则相结合的新闻网页分类系统的设计与实现

统计和规则相结合的新闻网页分类系统的设计与实现

论文摘要

文本分类是一项具有很高实用价值的信息组织和管理的关键技术,它可以对网络上的文本内容进行有效的组织与管理。常见的网页分类方法有文本相似度法、K-最近邻法、朴素贝叶斯法(Na?ve-Bayes,NB)、决策树、支持向量机等。网页分类算法采用向量空间模型进行表示文本特征向量,然后利用某种相似度计算方法计算网页所属的类别。本文对新闻网页自动分类技术进行了研究,在对文本分类技术的理论进行研究的基础上,分析了文本分类的实现过程,对其中的特征选取算法进行了详细的介绍,给出了文本分类的评价指标。介绍了新闻网页的结构和特点,分析了不规范的新闻网页的特点,并提出了使用开源工具Tidy进行规范新闻网页的方法。利用统计词频和人工参与的方法来抽取类别特征词集,采用开源的NekoHTML工具把新闻网页解析成DOM树,然后进行新闻网页正文的抽取工作,使用Java语言中的正则表达式功能进行新闻网页标题和超链接的抽取,使用计算词语的CHI值的方法进行新闻网页的特征选取,利用语义知识数据库HowNet进行词语之间语义距离的计算,提出了一种统计和规则相结合的新闻网页分类系统的模型。本文利用Java语言对新闻网页分类系统的各个环节作了简单的实现与测试,主要环节包括:类别特征词的抽取、新闻网页信息的抽取、语义距离的计算以及分类辅助规则的设计。类别特征词的抽取是利用统计和人工参与的方法来抽取的;新闻网页中正文信息的抽取利用的是开源的NekoHTML工具把新闻网页源代码解析成一个DOM树,去掉新闻网页中无用的节点STYLE、SCRIPT,标题和超链接的抽取是利用Java中正则表达式对新闻网页源代码来进行的;语义距离的计算采用的是中科院刘群的计算方法,使用Java语言实现的该算法,具体运行界面见第五章;分类辅助规则是人为地根据新闻网页类别中出现的专业术语来界定的;最后介绍了基于规则和统计的新闻网页分类系统的实现流程。实验结果表明:基于规则和统计的新闻网页分类算法是可行的,基本可以满足实际的新闻网页分类要求。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.2.1 信息检索
  • 1.2.2 信息过滤
  • 1.2.3 词义消歧
  • 1.3 研究现状
  • 1.3.1 国外研究现状
  • 1.3.2 国内研究现状
  • 1.4 研究内容与论文组织
  • 第二章 文本分类的相关理论研究
  • 2.1 文本分类的问题描述
  • 2.1.1 文本分类的定义
  • 2.1.2 文本分类的模型
  • 2.2 中文自动分词技术
  • 2.2.1 自动分词算法
  • 2.2.2 中文分词面临的困难
  • 2.3 文本分类的实现过程
  • 2.3.1 文本预处理
  • 2.3.2 文本的表示
  • 2.3.3 特征的选取
  • 2.4 文本分类的算法
  • 2.4.1 基于统计的方法
  • 2.4.2 基于规则的方法
  • 2.5 文本分类的评价指标
  • 2.5.1 评价方法
  • 2.5.2 评价标准
  • 2.6 本章小结
  • 第三章 系统的概要设计
  • 3.1 系统总体设计
  • 3.2 新闻网页结构特点分析
  • 3.2.1 新闻网页的结构
  • 3.2.2 新闻网页的特点
  • 3.2.3 标签不规范情况的分析
  • 3.3 系统需求描述
  • 3.3.1 功能性需求
  • 3.3.2 非功能性需求
  • 3.4 功能模块的概要设计
  • 3.4.1 类别特征词抽取模块
  • 3.4.2 标签不规范网页处理
  • 3.4.3 新闻网页的内容抽取
  • 3.4.4 新闻网页的特征词集
  • 3.4.5 语义距离的计算方法
  • 3.5 本章小结
  • 第四章 系统的详细设计
  • 4.1 类别特征词的抽取
  • 4.2 新闻网页信息抽取
  • 4.2.1 正文信息的抽取
  • 4.2.2 标题的抽取
  • 4.2.3 超链接的抽取
  • 4.3 语义距离类图设计
  • 4.4 分类辅助规则设计
  • 4.5 网页分类模块设计
  • 4.6 本章小结
  • 第五章 系统的实现
  • 5.1 类别特征词的实现
  • 5.2 网页信息抽取实现
  • 5.2.1 正文信息的抽取
  • 5.2.2 标题的抽取
  • 5.2.3 超链接的抽取
  • 5.3 语义距离算法实现
  • 5.4 分类辅助规则实现
  • 5.5 网页分类模块实现
  • 5.6 本章小结
  • 第六章 系统的测试
  • 6.1 实验的环境
  • 6.2 系统的运行
  • 6.3 实验结果与分析
  • 第七章 总结与展望
  • 7.1 主要工作
  • 7.2 主要创新点
  • 7.3 进一步工作的方向
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].如何实现从专题新闻网页到融合新闻的跨越——从澎湃新闻的“无锡高架桥垮塌”事件报道谈开去[J]. 新闻传播 2019(21)
    • [2].艺术设计在新闻网页设计中的应用价值[J]. 新闻战线 2016(14)
    • [3].磁性教育:关注教师身心健康[J]. 新课程(综合版) 2017(06)
    • [4].基于眼动仪分析新闻网页的视觉浏览模式[J]. 电视技术 2016(12)
    • [5].新闻网页的视觉设计[J]. 新闻战线 2018(24)
    • [6].中美知名高校新闻网页建设比较研究[J]. 泉州师范学院学报 2017(05)
    • [7].正则表达式在批量新闻网页处理中的应用[J]. 福建电脑 2008(03)
    • [8].新闻网页人性化色彩图形设计研究[J]. 新闻战线 2017(24)
    • [9].基于标题的中文新闻网页自动分类[J]. 现代图书情报技术 2008(10)
    • [10].设计一个好的新闻页不得不注意的三方面[J]. 计算机与网络 2017(07)
    • [11].一种高效的新闻网页噪声过滤方法[J]. 微型机与应用 2011(16)
    • [12].基于领域向量模型的新闻网页分类算法[J]. 软件导刊 2015(07)
    • [13].复杂网络在新闻网页关键词提取中的应用[J]. 云南民族大学学报(自然科学版) 2012(04)
    • [14].新闻网页的色彩特征——以千龙网为例[J]. 青年记者 2011(17)
    • [15].多模态话语分析视角下的少数民族地区新闻网页设计探究——以内蒙古自治区为例[J]. 电子测试 2015(16)
    • [16].一种新闻网页关键信息的提取算法[J]. 计算机应用 2016(08)
    • [17].我和火车有个约定[J]. 小溪流(成长校园) 2011(10)
    • [18].新闻网页中的视觉识别系统设计[J]. 新闻爱好者 2010(19)
    • [19].姚戈:冲进大时代[J]. 军营文化天地 2010(01)
    • [20].新闻网页的视觉识别系统设计[J]. 科技传播 2012(08)
    • [21].你的平安我的心愿[J]. 江苏教育 2014(15)
    • [22].基于CRFs的新闻网页主题内容自动抽取方法[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [23].基于语义联系的新闻网页关键词抽取[J]. 广西师范大学学报(自然科学版) 2009(01)
    • [24].面向Web的新闻网页正文信息抽取策略研究[J]. 电脑知识与技术 2008(S2)
    • [25].基于密度聚类模式的中文新闻网页关键词提取[J]. 广西师范大学学报(自然科学版) 2009(01)
    • [26].你真会“独立思考”吗[J]. 成才与就业 2015(06)
    • [27].当代兵团新闻网页试运行[J]. 当代兵团 2015(15)
    • [28].TTP:一个面向中文新闻网页的主题时间解析器[J]. 小型微型计算机系统 2013(05)
    • [29].基于词汇链的中文新闻网页关键词抽取方法[J]. 模式识别与人工智能 2010(01)
    • [30].新闻网页自动识别的相关特征研究[J]. 广西师范大学学报(自然科学版) 2008(03)

    标签:;  ;  ;  ;  

    统计和规则相结合的新闻网页分类系统的设计与实现
    下载Doc文档

    猜你喜欢