一种基于关键向量的文本分类模型的研究

一种基于关键向量的文本分类模型的研究

论文摘要

随着计算机与网络技术的快速发展,网络已成为人们存储与获取信息的主要手段,存储于网上的文本数量也成指数级增长。这在为用户提供了海量信息的同时,也给用户从中获取有用信息带来了困难。如何能够快速又精准的在如此大量的信息中检索到用户所需的内容已成为当今重要的研究课题。文本的自动分类技术能够有效地将文本信息组织起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。自从上个世纪六十年代被提出至今,文本的自动分类技术已经有了极大的发展,有许多分类算法被提出,文本自动分类技术已经在搜索引擎,数字图书馆,信息检索等领域得到了广泛的应用。向量空间模型是目前进行大规模文本处理的一种通用模型,当前主流的分类算法如K-近邻算法(KNN),支持向量机算法(SVM)等均是基于该模型的分类算法。虽然人们对这些算法已经有了深入的研究和广泛的应用,但是在其性能上仍有许多不尽人意的地方。课题首先在系统的理论学习和对国内外文献研究的基础上,分析了向量空间模型的特点和当前主流文本自动类算法的缺点和不足。针对目前主流分类算法对待训练文档过于简单的特点提出了一个基于向量空间模型的文本分类算法,引入了关键向量的概念,通过对训练文档进行分析,找出每一类别的关键向量,并赋予其一定的权值,使其为下一步的分类工作提供更多的信息,最后利用其对测试文档进行分类。在此之后,应用实验对该算法进行了测试,并与传统分类算法进行了比较。实验结果表明,与传统算法相比,该分类算法可以在一定程度改善分类速度与精度。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 论文研究的的背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文研究内容及论文组织结构
  • 第2章 向量空间模型
  • 2.1 文本表示
  • 2.1.1 特征项抽取作为文本特征
  • 2.1.2 特征项权重计算 TF-IDF 公式
  • 2.1.3 相似度计算
  • 2.2 向量空间模型
  • 2.2.1 向量空间模型的基本概念
  • 2.2.2 向空间模型的特点
  • 2.3 常用的文本分类算法
  • 2.4 本章小结
  • 第3章 基于关键向量的文本分类算法
  • 3.1 基本思路介绍
  • 3.1.1 传统的基于向量空间模型算法的不足
  • 3.1.2 早期的改进思路
  • 3.1.3 算法的评价
  • 3.2 基于关键向量的文本分类算法介绍
  • 3.2.1 相关概念的引入
  • 3.2.2 新算法的工作原理
  • 3.3 相关阈值的确定
  • 3.3.1 K 值的确定
  • 1和k2 值的确定'>3.3.2 k1和k2值的确定
  • 3.4 本章小结
  • 第4章 系统实现
  • 4.1 实验设计
  • 4.2 系统模型
  • 4.3 系统实现
  • 4.3.1 文本收集
  • 4.3.2 预处理
  • 4.3.3 文档的向量化
  • 4.3.4 关键向量的计算
  • 4.3.5 测试
  • 4.4 主要算法描述
  • 4.4.1 词频统计模块
  • 4.4.2 关键向量查找模块
  • 4.4.3 文本分类模块
  • 4.5 本章小结
  • 第5章 测试
  • 5.1 测试语料库
  • 5.1.1 文件格式
  • 5.1.2 文件内部标签
  • 5.1.3 类别
  • 5.2 实验环境说明
  • 5.3 评价标准
  • 5.4 实验过程及结果
  • 5.4.1 实验一:K 值的选取对分类效果的影响
  • 5.4.2 实验二:分类文件数量对分类效果的影响
  • 5.4.3 实验三:与其它分类算法的比较
  • 5.4.4 算法的时间性能分析
  • 5.5 实验讨论
  • 5.6 本章小结
  • 结论
  • 附录:分类器实现的主要代码
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J]. 出土文献 2012(00)
    • [2].召唤、整合与摧毁:群体传播时代网络叙述的副文本[J]. 现代传播(中国传媒大学学报) 2019(11)
    • [3].古义、真义与大义:以诠释范式为中心看中国古代思想文本的意义生成[J]. 复旦学报(社会科学版) 2020(01)
    • [4].广义文本情感分析综述[J]. 计算机应用 2019(S2)
    • [5].非连续性文本教学要聚合与实用[J]. 语文建设 2020(03)
    • [6].论文本的物质性[J]. 山东社会科学 2020(01)
    • [7].基于深度学习的学术文本段落结构功能识别研究[J]. 情报科学 2020(03)
    • [8].Word2vec-CNN-Bilstm短文本情感分类[J]. 福建电脑 2020(01)
    • [9].文本的时空呈现——高校写作教学改革思考之二[J]. 写作 2020(01)
    • [10].语体视角下语篇副文本系统的配置及耦合互文路径差异[J]. 当代修辞学 2020(03)
    • [11].重审“作者已死”:论作为“伴随文本”的作者与作品[J]. 西南大学学报(社会科学版) 2020(03)
    • [12].影视作品及数字媒体文本-类文本共生叙事研究[J]. 西南民族大学学报(人文社科版) 2020(06)
    • [13].金融学文本大数据挖掘方法与研究进展[J]. 经济学动态 2020(04)
    • [14].基于深度学习的自然场景文本检测与识别综述[J]. 软件学报 2020(05)
    • [15].多文本融合下的深度翻译研究[J]. 中国科技翻译 2020(02)
    • [16].伊瑟尔“召唤结构”理论下文学文本审美潜能再创造[J]. 湖北第二师范学院学报 2020(04)
    • [17].全文本视角下文艺类图书出版的意义生成[J]. 出版科学 2020(03)
    • [18].《阿Q正传》译入译出文本的风格计量学对比[J]. 外语研究 2020(03)
    • [19].广义叙述学视域下电子游戏的三种文本初探——以《王者荣耀》为例[J]. 科技传播 2020(12)
    • [20].面向文本的结构——内容联合表示学习模型[J]. 计算机应用研究 2020(S1)
    • [21].明清教材“孝”文本的传播逻辑[J]. 出版广角 2020(15)
    • [22].新型主流媒体的文本互动研究[J]. 传播与版权 2020(07)
    • [23].试论伴随文本对特稿收受与解释的影响——基于《人物》对新冠肺炎疫情的相关报道[J]. 新闻研究导刊 2020(18)
    • [24].让语文课堂充满语文的味道[J]. 文学教育(上) 2019(02)
    • [25].教师培养政策的政策文本研究[J]. 现代经济信息 2019(18)
    • [26].浅析手机取证中的文本分类[J]. 科技与创新 2019(22)
    • [27].住建部、工商总局联合修订《建设工程施工合同(示范文本)》[J]. 建筑技术开发 2017(22)
    • [28].2013版建设工程施工合同(示范文本)已废止,10月1日已执行2017版[J]. 建筑设计管理 2017(12)
    • [29].高校官方微信公众号的文本传播解读[J]. 西部广播电视 2018(16)
    • [30].自然场景图像中的文本检测方法研究[J]. 重庆科技学院学报(自然科学版) 2016(06)

    标签:;  ;  ;  ;  

    一种基于关键向量的文本分类模型的研究
    下载Doc文档

    猜你喜欢