论文摘要
文本分类是一项具有很高实用价值的信息组织和管理的关键技术,它可以对网络上的文本内容进行有效的组织与管理。常见的网页分类方法有文本相似度法、K-最近邻法、朴素贝叶斯法(Na?ve-Bayes,NB)、决策树、支持向量机等。网页分类算法采用向量空间模型进行表示文本特征向量,然后利用某种相似度计算方法计算网页所属的类别。本文对新闻网页自动分类技术进行了研究,在对文本分类技术的理论进行研究的基础上,分析了文本分类的实现过程,对其中的特征选取算法进行了详细的介绍,给出了文本分类的评价指标。介绍了新闻网页的结构和特点,分析了不规范的新闻网页的特点,并提出了使用开源工具Tidy进行规范新闻网页的方法。利用统计词频和人工参与的方法来抽取类别特征词集,采用开源的NekoHTML工具把新闻网页解析成DOM树,然后进行新闻网页正文的抽取工作,使用Java语言中的正则表达式功能进行新闻网页标题和超链接的抽取,使用计算词语的CHI值的方法进行新闻网页的特征选取,利用语义知识数据库HowNet进行词语之间语义距离的计算,提出了一种统计和规则相结合的新闻网页分类系统的模型。本文利用Java语言对新闻网页分类系统的各个环节作了简单的实现与测试,主要环节包括:类别特征词的抽取、新闻网页信息的抽取、语义距离的计算以及分类辅助规则的设计。类别特征词的抽取是利用统计和人工参与的方法来抽取的;新闻网页中正文信息的抽取利用的是开源的NekoHTML工具把新闻网页源代码解析成一个DOM树,去掉新闻网页中无用的节点STYLE、SCRIPT,标题和超链接的抽取是利用Java中正则表达式对新闻网页源代码来进行的;语义距离的计算采用的是中科院刘群的计算方法,使用Java语言实现的该算法,具体运行界面见第五章;分类辅助规则是人为地根据新闻网页类别中出现的专业术语来界定的;最后介绍了基于规则和统计的新闻网页分类系统的实现流程。实验结果表明:基于规则和统计的新闻网页分类算法是可行的,基本可以满足实际的新闻网页分类要求。
论文目录
相关论文文献
- [1].如何实现从专题新闻网页到融合新闻的跨越——从澎湃新闻的“无锡高架桥垮塌”事件报道谈开去[J]. 新闻传播 2019(21)
- [2].艺术设计在新闻网页设计中的应用价值[J]. 新闻战线 2016(14)
- [3].磁性教育:关注教师身心健康[J]. 新课程(综合版) 2017(06)
- [4].基于眼动仪分析新闻网页的视觉浏览模式[J]. 电视技术 2016(12)
- [5].新闻网页的视觉设计[J]. 新闻战线 2018(24)
- [6].中美知名高校新闻网页建设比较研究[J]. 泉州师范学院学报 2017(05)
- [7].正则表达式在批量新闻网页处理中的应用[J]. 福建电脑 2008(03)
- [8].新闻网页人性化色彩图形设计研究[J]. 新闻战线 2017(24)
- [9].基于标题的中文新闻网页自动分类[J]. 现代图书情报技术 2008(10)
- [10].设计一个好的新闻页不得不注意的三方面[J]. 计算机与网络 2017(07)
- [11].一种高效的新闻网页噪声过滤方法[J]. 微型机与应用 2011(16)
- [12].基于领域向量模型的新闻网页分类算法[J]. 软件导刊 2015(07)
- [13].复杂网络在新闻网页关键词提取中的应用[J]. 云南民族大学学报(自然科学版) 2012(04)
- [14].新闻网页的色彩特征——以千龙网为例[J]. 青年记者 2011(17)
- [15].多模态话语分析视角下的少数民族地区新闻网页设计探究——以内蒙古自治区为例[J]. 电子测试 2015(16)
- [16].一种新闻网页关键信息的提取算法[J]. 计算机应用 2016(08)
- [17].我和火车有个约定[J]. 小溪流(成长校园) 2011(10)
- [18].新闻网页中的视觉识别系统设计[J]. 新闻爱好者 2010(19)
- [19].姚戈:冲进大时代[J]. 军营文化天地 2010(01)
- [20].新闻网页的视觉识别系统设计[J]. 科技传播 2012(08)
- [21].你的平安我的心愿[J]. 江苏教育 2014(15)
- [22].基于CRFs的新闻网页主题内容自动抽取方法[J]. 广西师范大学学报(自然科学版) 2011(01)
- [23].基于语义联系的新闻网页关键词抽取[J]. 广西师范大学学报(自然科学版) 2009(01)
- [24].面向Web的新闻网页正文信息抽取策略研究[J]. 电脑知识与技术 2008(S2)
- [25].基于密度聚类模式的中文新闻网页关键词提取[J]. 广西师范大学学报(自然科学版) 2009(01)
- [26].你真会“独立思考”吗[J]. 成才与就业 2015(06)
- [27].当代兵团新闻网页试运行[J]. 当代兵团 2015(15)
- [28].TTP:一个面向中文新闻网页的主题时间解析器[J]. 小型微型计算机系统 2013(05)
- [29].基于词汇链的中文新闻网页关键词抽取方法[J]. 模式识别与人工智能 2010(01)
- [30].新闻网页自动识别的相关特征研究[J]. 广西师范大学学报(自然科学版) 2008(03)