基于本体的文本分类研究

基于本体的文本分类研究

论文摘要

随着Internet和企业内部网的迅猛发展,各种电子文本信息急剧膨胀。如何有效组织和管理这些信息,并快速、准确、全面的从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,帮助人们准确高效的定位信息和分流信息。因此具有广泛的应用前景。传统文本分类大都采用向量空间模型的文本表示方法,采用关键词作为特征来构建。如朴素贝叶斯方法、KNN方法、支持向量机方法等。这些方法是基于贝叶斯假设之上,认为关键词之间是相互独立,没有语义关联的,这显然与事实相违背,影响了分类的效果。现实文本中的用词往往都是有语义关联的,如同义关系、近义关系、上下位关系等。为解决这些问题,本文尝试引入本体,利用本体类层次结构及属性约束等特点,将关键词与领域本体概念进行匹配,建立概念向量空间模型进行文本分类。旨在解决文本分类中术语一词多义、一义多词和概念的层次问题,克服基于关键词分类方法的缺陷,提高分类的准确率。同时,本文还研究了文本分类与个性化信息检索的关系,对用户兴趣模型进行分析,提出用户兴趣模型建立与调整算法,使分类的结果更加符合用户意图。本文的研究内容主要包括以下几个方面:1.对文本分类过程的关键技术进行介绍,包括文本分类定义、特征选择、分类方法、性能评价,总结传统文本分类方法的特点。2.文本分类与个性化信息检索的研究。文本分类与信息检索有着极为密切的关系,它借鉴了许多检索的表示方法和技术,推动分类的发展。本文对用户兴趣模型进行分析,从关键词和主题词的角度出发建立用户兴趣模型,并提出用户兴趣模型的调整算法,使分类的结果更加符合用户的意图。3.基于本体获取概念特征,用概念空间代替关键词空间。介绍本体概念、建模原语、构建方法及构建工具,用本体构建工具Protégé建立教育领域本体。分析本体应用到文本分类中的意义,即解决了术语混乱问题。4.提出基于概念向量空间模型的文本分类系统架构。以KNN分类器为例,对基于概念向量空间的分类流程进行详细说明。通过模拟实验表明,基于概念的文本分类能有效提高分类的准确度。最后对论文进行了总结和展望,指出基于本体的文本分类尚需研究和改进的问题。

论文目录

  • 目录
  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景与意义
  • 1.2 文本分类研究现状
  • 1.3 本文研究内容
  • 1.4 本文结构
  • 第2章 文本分类技术
  • 2.1 文本分类的定义
  • 2.2 特征选择
  • 2.2.1 文本频率法(Document Frequency)
  • 2.2.2 信息增量(Information Gain)
  • 2.2.3 互信息(Mutual Information)
  • 2统计(CHI平方统计)'>2.2.4 x2统计(CHI平方统计)
  • 2.2.5 交叉熵(Cross Entropy)
  • 2.2.6 特征选取方法之间的比较
  • 2.3 分类方法
  • 2.3.1 基于统计的方法
  • 2.3.2 人工神经网络
  • 2.3.3 基于规则的方法
  • 2.4 分类性能评估
  • 2.5 本章小结与讨论
  • 第3章 文本分类与个性化信息检索的关系
  • 3.1 引言
  • 3.2 用户兴趣模型分析
  • 3.3 用户兴趣模型的设计
  • 3.3.1 用户兴趣主题表示
  • 3.3.2 用户兴趣树
  • 3.3.3 个性化模型表示
  • 3.3.4 用户兴趣模型建立与调整
  • 3.4 本章小结与讨论
  • 第4章 本体与语义网
  • 4.1 从关键词到概念映射
  • 4.2 本体的界定
  • 4.3 本体的描述语言
  • 4.4 本体的建模原语
  • 4.5 本体构建方法和工具
  • 4.5.1 构建方法
  • 4.5.2 构建工具
  • 4.6 教育领域本体的构建
  • 4.6.1 定义本体的领域范围
  • 4.6.2 重用已有本体
  • 4.6.3 枚举领域本体关键术语
  • 4.6.4 定义类和类层次
  • 4.6.5 定义类属性
  • 4.6.6 定义属性方面
  • 4.6.7 创建实例
  • 第5章 基于概念向量空间的文本分类
  • 5.1 文本分类系统框架
  • 5.2 预处理
  • 5.3 匹配模块
  • 5.4 概念特征提取
  • 5.5 文本概念特征表示
  • 5.6 文本分类器
  • 5.6.1 将待分类文本表示成概念向量空间模型
  • 5.6.2 在训练文本集中选出与新文本最相似的K个文本
  • 5.6.3 在新文档的K个邻居中,依次计算每类的权重
  • 5.7 实验结果与分析
  • 5.7.1 实验所用语料库
  • 5.7.2 领域本体解析
  • 5.7.3 实验结果与讨论
  • 第6章 总结与展望
  • 6.1 工作总结
  • 6.2 后续工作的展望
  • 致谢
  • 参考文献
  • 在读硕士期间公开发表的学术论文
  • 相关论文文献

    • [1].清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J]. 出土文献 2012(00)
    • [2].召唤、整合与摧毁:群体传播时代网络叙述的副文本[J]. 现代传播(中国传媒大学学报) 2019(11)
    • [3].古义、真义与大义:以诠释范式为中心看中国古代思想文本的意义生成[J]. 复旦学报(社会科学版) 2020(01)
    • [4].广义文本情感分析综述[J]. 计算机应用 2019(S2)
    • [5].非连续性文本教学要聚合与实用[J]. 语文建设 2020(03)
    • [6].论文本的物质性[J]. 山东社会科学 2020(01)
    • [7].基于深度学习的学术文本段落结构功能识别研究[J]. 情报科学 2020(03)
    • [8].Word2vec-CNN-Bilstm短文本情感分类[J]. 福建电脑 2020(01)
    • [9].文本的时空呈现——高校写作教学改革思考之二[J]. 写作 2020(01)
    • [10].语体视角下语篇副文本系统的配置及耦合互文路径差异[J]. 当代修辞学 2020(03)
    • [11].重审“作者已死”:论作为“伴随文本”的作者与作品[J]. 西南大学学报(社会科学版) 2020(03)
    • [12].影视作品及数字媒体文本-类文本共生叙事研究[J]. 西南民族大学学报(人文社科版) 2020(06)
    • [13].金融学文本大数据挖掘方法与研究进展[J]. 经济学动态 2020(04)
    • [14].基于深度学习的自然场景文本检测与识别综述[J]. 软件学报 2020(05)
    • [15].多文本融合下的深度翻译研究[J]. 中国科技翻译 2020(02)
    • [16].伊瑟尔“召唤结构”理论下文学文本审美潜能再创造[J]. 湖北第二师范学院学报 2020(04)
    • [17].全文本视角下文艺类图书出版的意义生成[J]. 出版科学 2020(03)
    • [18].《阿Q正传》译入译出文本的风格计量学对比[J]. 外语研究 2020(03)
    • [19].广义叙述学视域下电子游戏的三种文本初探——以《王者荣耀》为例[J]. 科技传播 2020(12)
    • [20].面向文本的结构——内容联合表示学习模型[J]. 计算机应用研究 2020(S1)
    • [21].明清教材“孝”文本的传播逻辑[J]. 出版广角 2020(15)
    • [22].新型主流媒体的文本互动研究[J]. 传播与版权 2020(07)
    • [23].试论伴随文本对特稿收受与解释的影响——基于《人物》对新冠肺炎疫情的相关报道[J]. 新闻研究导刊 2020(18)
    • [24].让语文课堂充满语文的味道[J]. 文学教育(上) 2019(02)
    • [25].教师培养政策的政策文本研究[J]. 现代经济信息 2019(18)
    • [26].浅析手机取证中的文本分类[J]. 科技与创新 2019(22)
    • [27].住建部、工商总局联合修订《建设工程施工合同(示范文本)》[J]. 建筑技术开发 2017(22)
    • [28].2013版建设工程施工合同(示范文本)已废止,10月1日已执行2017版[J]. 建筑设计管理 2017(12)
    • [29].高校官方微信公众号的文本传播解读[J]. 西部广播电视 2018(16)
    • [30].自然场景图像中的文本检测方法研究[J]. 重庆科技学院学报(自然科学版) 2016(06)

    标签:;  ;  ;  ;  ;  

    基于本体的文本分类研究
    下载Doc文档

    猜你喜欢