基于本体的中文文本聚类技术研究

基于本体的中文文本聚类技术研究

论文摘要

近年来,随着Internet技术的发展和信息传播手段的进步,人们可以从互联网上得到的信息越来越丰富,尤其可以获得数目惊人的文本文档。如何对这些文档进行有效的导航、总结、组织,以方便人们有效管理和检索海量的文本资源,已经成为计算机科学和信息科学急需解决的问题之一。随着文本聚类技术研究的深入和广泛的应用,基于关键词的经典文本向量空间的高稀疏性,文本中的同义词、近义词和多义词问题,在很大程度上影响了文本聚类算法的效率和聚类的效果。本体理论的应用成为解决这一问题的很好的途径。起源于哲学的本体论技术是人工智能领域中的一种先进的知识表示技术,它通过概念和概念间的关系,反映事物或现象的抽象本质,并建立抽象模型。近年来受到信息领域的广泛关注,被广泛地用于许多领域如语义网、搜索引擎、电子商务、自然语言处理、知识工程、信息提取、多Agent系统、数据库设计和数字图书馆等等。本文对中文文本聚类技术进行了探讨,提出了一种新的基于HowNet(知网)本体库的中文文本聚类方法。在文中,利用HowNet作为背景知识,对同义词、多义词进行处理,将单纯的词映射到概念,然后采用Chameleon(变色龙)聚类算法,将这些概念进行聚类,最终完成文本聚类。该算法采用了一种不断进行聚类,以达到最终完成文本聚类的思想。用概念代替单个词条表示文本,减少了文本特征之间的依赖关系,有效的降低了文本聚类的时间复杂度。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 文本聚类技术的研究现状
  • 1.2.1 国外文本聚类技术研究现状
  • 1.2.2 国内文本聚类技术研究现状
  • 1.3 本体的发展状况
  • 1.4 本文的研究内容和组织结构
  • 第二章 文本聚类技术
  • 2.1 文本聚类的概念
  • 2.2 文本的表示
  • 2.2.1 预处理
  • 2.2.1.1 分词
  • 2.2.1.2 停用词过滤
  • 2.2.2 文本表示模型
  • 2.2.3 文本相似度计算
  • 2.2.4 文本特征选择
  • 2.3 聚类算法
  • 2.3.1 划分方法
  • 2.3.2 层次方法
  • 2.3.3 基于简单贝叶斯方法
  • 2.3.4 基于K-最近邻参照聚类方法
  • 2.3.5 基于蚁群的聚类方法
  • 2.3.6 基于SOM 神经网络的方法
  • 2.4 本章小结
  • 第三章 本体论
  • 3.1 本体的定义
  • 3.1.1 本体论的哲学意义
  • 3.1.2 本体论的发展
  • 3.1.3 本体的定义
  • 3.2 本体的构成
  • 3.3 本体的研究现状
  • 3.3.1 CYC
  • 3.3.2 WordNet—网上英语在线词典
  • 3.3.3 MindNet
  • 3.3.4 盘古常识库简介
  • 3.3.5 国家知识基础设施(NKI)简介
  • 3.4 本体的分类
  • 3.5 本体的作用
  • 3.6 本体的主要应用领域
  • 3.6.1 电子商务
  • 3.6.2 知识管理
  • 3.7 本章小结
  • 第四章 基于主题概念聚类的中文文本聚类
  • 4.1 问题的提出
  • 4.2 HOWNET 本体库
  • 4.3 基于主题概念聚类的文本聚类
  • 4.3.1 表示文档内容的概念生成
  • 4.3.2 主题概念聚类
  • 4.3.2.1 主题概念的筛选
  • 4.3.2.2 使用Chameleon 算法进行主题概念聚类
  • 4.3.3 基于主题概念聚类的文本聚类
  • 4.4 算法时间复杂度分析
  • 第五章 总结和展望
  • 参考文献
  • 致谢
  • 攻读学位期间所发表的学术论文
  • 相关论文文献

    • [1].自然场景图像中的中文文本提取[J]. 计算机与数字工程 2020(01)
    • [2].基于词或词组长度和频数的短中文文本关键词提取算法[J]. 计算机科学 2016(12)
    • [3].中文文本情感分析方法研究[J]. 电脑知识与技术 2018(02)
    • [4].基于中文文本分析的微博情感地图的制作[J]. 计算机系统应用 2017(02)
    • [5].浅谈对外传播中文文本的写作[J]. 对外传播 2012(10)
    • [6].《纽约公约》通过五十周年之年再论公约中文文本[J]. 仲裁研究 2009(01)
    • [7].基于字符级双通道复合网络的中文文本情感分析[J]. 计算机应用研究 2020(09)
    • [8].用于形式背景提取的中文文本表示[J]. 计算机技术与发展 2010(09)
    • [9].基于混合注意力机制的中文文本蕴含识别方法[J]. 北京信息科技大学学报(自然科学版) 2020(03)
    • [10].面向中文文本倾向性分类的对抗样本生成方法[J]. 软件学报 2019(08)
    • [11].中文文本情感倾向分析研究[J]. 情报资料工作 2013(01)
    • [12].基于事件语义特征的中文文本蕴含识别[J]. 中文信息学报 2013(05)
    • [13].中文文本情感倾向性五元模型研究[J]. 通信技术 2011(07)
    • [14].一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J]. 计算机应用研究 2010(10)
    • [15].面向领域中文文本信息处理的术语识别与抽取研究综述[J]. 图书情报工作 2010(16)
    • [16].基于城市监控的自然场景图像的中文文本提取方法[J]. 计算机研究与发展 2019(07)
    • [17].中文文本信息隐藏研究进展[J]. 通信学报 2019(09)
    • [18].基于规则的中文文本时间表达式识别和规范化方法[J]. 信息工程大学学报 2017(05)
    • [19].基于非负矩阵分解的中文文本主题分类[J]. 计算机工程 2009(13)
    • [20].中文文本分割模式获取及其优化方法[J]. 南昌大学学报(理科版) 2011(06)
    • [21].中文文本倾向性分类技术比较研究[J]. 信息安全与通信保密 2010(04)
    • [22].面向阅读理解的多对一中文文本蕴含问题研究[J]. 中文信息学报 2018(04)
    • [23].基于支持向量机的中文文本蕴涵识别研究[J]. 计算机应用与软件 2014(04)
    • [24].基于流形学习的视频中文文本检测算法[J]. 科技通报 2012(10)
    • [25].中文文本复制检测系统[J]. 山西大同大学学报(自然科学版) 2008(02)
    • [26].基于多层注意力机制的中文文本蕴涵识别方法[J]. 计算机工程与设计 2020(08)
    • [27].自然场景图像中的中文文本检测算法[J]. 计算机工程与设计 2018(03)
    • [28].基于情感字典与连词结合的中文文本情感分类[J]. 四川大学学报(自然科学版) 2015(01)
    • [29].基于深度学习的智能中文文本检校方法[J]. 现代电信科技 2017(04)
    • [30].基于语义和统计特征的中文文本表示方法[J]. 中国管理信息化 2009(15)

    标签:;  ;  ;  ;  ;  

    基于本体的中文文本聚类技术研究
    下载Doc文档

    猜你喜欢