网络文本分类技术研究

网络文本分类技术研究

论文摘要

如今,由于网络技术的发展,使得互联网已成为人们获取信息的主要资源库。但网络的开放性使得网络中充满了各式各样的信息。为了使人们能够迅速从网络中获取到自己感兴趣的信息,如何使用网络文本分类技术来处理杂乱的网络信息,让这些信息资源变得有序,开始变得越来越重要。网络文本分类技术是信息过滤、搜索引擎等领域的基础,因此网络文本分类技术已逐步成为当今的研究热点。本文首先介绍了网络文本提取技术和文本分类的相关理论,如:HTML语言、中文分词、相似度计算、权重值计算、特征提取以及常用的文本分类方法。并且介绍了根据这些基本的理论方法,设计并实现了网络文本分类系统。本文主要进行了以下几方面的研究:在对网络文本提取部分,通过对HTML语言特点和一般网页结构的分析设计实现了网页的文本提取。在文本分类部分中,主要详细分析了KNN文本分类算法和朴素贝叶斯文本分类算法,并通过文本分类的算法实现对文本的领域分类。在对朴素贝叶斯分类方法分析的基础上,针对该方法的独立性假设的问题,采用了贝叶斯网络TAN模型对贝叶斯分类方法进行了改进,考虑了两词间的关系,一定程度上放宽了独立性假设。提出了文本态度判断的方法,通过针对文本情感特征词提取,对情感词进行权值分析,评估文本态度,从而判断出文本的态度实现对文本的二层分类。最后对网络文本分类系统测试,通过使用语料库文本的实验测试,证明该系统有一定的准确性,通过提取网页的文本内容对分类系统进行实验测试,证明该系统有一定的实用性。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 1 引言
  • 1.1 研究背景和意义
  • 1.1.1 研究背景
  • 1.1.2 网络文本分类意义
  • 1.2 文本分类技术的研究现状
  • 1.2.1 国外研究状况
  • 1.2.2 国内研究状况
  • 1.2.3 网络文本分类研究现状
  • 1.3 课题研究难点及突出问题
  • 1.4 论文组织结构
  • 2 网络文本提取技术
  • 2.1 HTML语言介绍
  • 2.2 网页内容提取的方法
  • 2.2.1 基于模板的网页内容提取法
  • 2.2.2 基于统计的网页内容提取法
  • 2.2.3 基于视觉的网页正文提取法
  • 2.3 本章小结
  • 3 网络文本分类关键技术
  • 3.1 网络文本预处理
  • 3.2 中文分词技术
  • 3.2.1 中文分词的问题及难点
  • 3.2.2 中文分词的主要方法
  • 3.3 文本表示
  • 3.4 权重计算
  • 3.5 特征提取
  • 3.6 常见文本分类算法
  • 3.6.1 贝叶斯分类方法
  • 3.6.2 决策树分类方法
  • 3.6.3 基于距离的分类方法
  • 3.6.4 其他分类方法
  • 3.7 本章小结
  • 4 网络文本内容提取及文本预处理的实现
  • 4.1 网页文本内容提取
  • 4.1.1 网页文本内容提取的实现
  • 4.1.2 网页内容提取主要主要步骤及流程
  • 4.1.3 网页内容提取主要函数
  • 4.2 中文分词实现
  • 4.2.1 词库索引的建立
  • 4.2.2 分词的主要步骤
  • 4.2.3 去除停用词
  • 4.3 文本表示
  • 4.4 特征提取
  • 4.5 本章小结
  • 5 文本分类的实现
  • 5.1 KNN分类
  • 5.1.1 KNN分类算法
  • 5.1.2 KNN分类的实现
  • 5.2 贝叶斯分类
  • 5.2.1 朴素贝叶斯模型
  • 5.2.2 贝叶斯公式介绍
  • 5.2.3 贝叶斯分类算法
  • 5.2.4 贝叶斯分类算法实现
  • 5.3 贝叶斯分类算法问题分析及改进
  • 5.3.1 基于TAN结构的贝叶斯分类方法
  • 5.3.2 TAN结构的贝叶斯方法实现
  • 5.4 文本情感分类
  • 5.4.1 文本情感概念的组成
  • 5.4.2 文本情感特征提取及分类实现
  • 5.5 本章小结
  • 6 网络文本分类系统的评估及实验结果
  • 6.1 分类器评估指标
  • 6.1.1 查准率和查全率
  • 6.1.2 F测试值
  • 6.1.3 精确率和错误率
  • 6.2 分类测试实验结果
  • 6.3 本章小结
  • 7 总结和展望
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 在学期间研究成果
  • 致谢
  • 相关论文文献

    • [1].一种基于语音识别与文本分类技术的非法广播判别方法[J]. 中国无线电 2020(01)
    • [2].跨语言文本分类技术研究进展[J]. 情报理论与实践 2010(11)
    • [3].文本分类技术应用于学科导航分类的可行性探讨[J]. 情报科学 2009(07)
    • [4].短文本分类技术研究综述[J]. 软件 2020(02)
    • [5].面向监理工程的文本分类技术研究[J]. 重庆理工大学学报(自然科学) 2017(10)
    • [6].基于机器学习的文本分类技术研究[J]. 软件 2019(09)
    • [7].基于网络文本分类技术的应用研究[J]. 科协论坛(下半月) 2009(11)
    • [8].网页文本分类技术研究[J]. 科技创业家 2013(09)
    • [9].基于遗传算法的文本分类技术[J]. 电脑知识与技术 2011(22)
    • [10].文本分类技术在信息检索中的应用[J]. 科技资讯 2010(18)
    • [11].Web文本分类技术研究现状述评[J]. 图书情报知识 2008(03)
    • [12].基于fastText的股票咨询案例中文短文本分类技术[J]. 宝鸡文理学院学报(自然科学版) 2020(03)
    • [13].TextCNN文本分类技术在OA系统中的应用研究[J]. 办公自动化 2020(14)
    • [14].利用文本分类技术研究方剂分类[J]. 辽宁中医药大学学报 2010(02)
    • [15].基于文本分类技术计算中医方剂相似度[J]. 微计算机信息 2010(12)
    • [16].基于机器学习的文本分类技术的研究[J]. 计算机与现代化 2009(08)
    • [17].文本分类技术在海洋信息处理领域中的应用[J]. 计算机科学 2008(11)
    • [18].基于SVM算法的文本分类技术研究[J]. 计算机仿真 2013(02)
    • [19].文本分类技术[J]. 电脑知识与技术 2009(24)
    • [20].文本分类技术在名人数据筛选系统中的应用[J]. 电脑知识与技术 2019(03)
    • [21].基于Rocchio和KNN提出的新的文本分类技术[J]. 自动化与仪器仪表 2017(08)
    • [22].文本分类技术探究[J]. 宿州学院学报 2012(05)
    • [23].文本分类技术研究[J]. 电脑知识与技术 2009(32)
    • [24].文本分类技术研究进展[J]. 电脑编程技巧与维护 2009(S1)
    • [25].基于目标迁移的文本分类技术[J]. 科技信息(科学教研) 2008(15)
    • [26].基于朴素贝叶斯的文化旅游文本分类技术研究[J]. 福州大学学报(自然科学版) 2018(05)
    • [27].基于内容挖掘的博客推荐系统的设计与实现[J]. 科技情报开发与经济 2008(25)
    • [28].基于并行计算的文本分类技术[J]. 计算机应用 2013(S2)
    • [29].基于改进ATSVM算法的评审专家自动推荐模型[J]. 重庆科技学院学报(自然科学版) 2010(01)
    • [30].运营商客服通话信息的文本自动分类[J]. 江苏通信 2018(05)

    标签:;  ;  ;  ;  

    网络文本分类技术研究
    下载Doc文档

    猜你喜欢