基于维基百科构建语义知识库及其在文本分类领域的应用研究

基于维基百科构建语义知识库及其在文本分类领域的应用研究

论文摘要

随着计算机技术的不断发展和互联网的迅速普及,越来越多的人们开始使用互联网进行信息获取。在如今信息发达的时代,如何从海量的文本信息中获取其丰富的语义知识、如何利用这些语义知识为现有的自然语言处理提供可靠的服务,成为了一个非常重要的研究课题。研究发现目前语义知识的来源大致可以分为两类:一类是人工构造的语义知识库(如Hownet);另一类是大规模的真实文本,包括互联网上的海量文本、各种离线文本集合(如各种规模的语料库),各种百科知识库(如维基百科等)。研究表明:人工构造的语义知识库已经很难满足日益增长的网络信息处理的需求。因此,本文提出了从一定规模的维基百科语料库中自动构建知识库的方法。本文的主要工作包含以下几个方面:1.本文在知识的形式化表示方面采用了以语义标签为指代,语义指纹来刻画语义的方法。该表示方法认为每一个概念(词条)都是有一定的背景信息作为支撑,并且提出了以概率公式来量化语义指纹对语义标签的贡献度。该表示方法借鉴了人工知识库显式表征语义知识的策略,并引入了概率信息,从而更精准的描述语义,并且可以很方便的融入到现有的文本计算模型中去。2.本文利用所提出的语义标签、语义指纹形式化表示知识单元的方法,针对一定规模的维基百科语料库进行了预处理、语义标签选取、相关概念抽取、贡献度值的确定等操作,对维基百科页面之间的丰富链接关系进行挖掘,建立起了一个维基百科语义知识库。3.为了证明该语义知识库的有效性。结合之前对中文文本分类的研究,本文提出了利用该语义知识库对文本词条进行扩充从而提高文本分类精度的方法。并且利用该方法与传统的文本分类方法进行了对比实验证明知识库的有效性。实验结果表明,本文所构造的语义知识库在文本分类领域确实能提高分类精度,证明了语义知识库的有效性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题研究的目的和意义
  • 1.2 国内外研究现状
  • 1.3 课题研究的难点及突出问题
  • 1.4 本文工作及内容安排
  • 第二章 相关技术研究
  • 2.1 维基百科简介
  • 2.2 知识的定义及来源简介
  • 2.3 知识的表示方法研究
  • 2.3.1 谓词逻辑表示方法
  • 2.3.2 基于规则的表示方法
  • 2.3.3 框架表示方法
  • 2.3.4 面向对象表示方法
  • 2.4 知识库的构建方法研究
  • 2.4.1 WordNet知识库构建方法
  • 2.4.2 HowNet知识库构建方法
  • 2.4.3 FrameNet知识库构建方法
  • 2.5 文本分类方法
  • 2.5.1 朴素贝叶斯分类方法
  • 2.5.2 SVM分类方法
  • 2.6 文本分类评价方法
  • 第三章 基于维基百科语义知识库构建方法
  • 3.1 语义知识的表示方法
  • 3.2 语义知识库构建方法流程
  • 3.2.1 语义标签选取方法
  • 3.2.2 相关概念抽取方法
  • 3.2.3 贡献度计算方法
  • 第四章 基于维基百科语义知识库的设计与实现
  • 4.1 维基百科语料的选取
  • 4.2 维基百科语料的预处理
  • 4.2.1 标题筛选
  • 4.2.2 繁简转换
  • 4.2.3 去除冗余链接
  • 4.3 相关信息的抽取
  • 4.4 相关概念的确定
  • 4.5 贡献度的确定
  • 4.6 语义知识库分析
  • 第五章 基于维基百科语义知识库的文本分类
  • 5.1 对传统文本分类模型存在问题的解决方法
  • 5.1.1 词义消歧
  • 5.1.2 同义词识别
  • 5.1.3 潜在的语义信息挖掘
  • 5.2 基于语义知识库进行文本分类的步骤
  • 5.2.1 语义标签抽取
  • 5.2.2 文本信息扩充
  • 5.2.3 相似度计算
  • 5.3 文本分类语料选取
  • 5.4 文本分类实验方案及步骤
  • 5.5 文本分类对比实验结果及分析
  • 第六章 总结与展望
  • 6.1 论文内容总结
  • 6.2 进一步的研究工作
  • 参考文献
  • 在校期间参与课题、发表论文情况
  • 致谢
  • 相关论文文献

    • [1].清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J]. 出土文献 2012(00)
    • [2].召唤、整合与摧毁:群体传播时代网络叙述的副文本[J]. 现代传播(中国传媒大学学报) 2019(11)
    • [3].古义、真义与大义:以诠释范式为中心看中国古代思想文本的意义生成[J]. 复旦学报(社会科学版) 2020(01)
    • [4].广义文本情感分析综述[J]. 计算机应用 2019(S2)
    • [5].非连续性文本教学要聚合与实用[J]. 语文建设 2020(03)
    • [6].论文本的物质性[J]. 山东社会科学 2020(01)
    • [7].基于深度学习的学术文本段落结构功能识别研究[J]. 情报科学 2020(03)
    • [8].Word2vec-CNN-Bilstm短文本情感分类[J]. 福建电脑 2020(01)
    • [9].文本的时空呈现——高校写作教学改革思考之二[J]. 写作 2020(01)
    • [10].语体视角下语篇副文本系统的配置及耦合互文路径差异[J]. 当代修辞学 2020(03)
    • [11].重审“作者已死”:论作为“伴随文本”的作者与作品[J]. 西南大学学报(社会科学版) 2020(03)
    • [12].影视作品及数字媒体文本-类文本共生叙事研究[J]. 西南民族大学学报(人文社科版) 2020(06)
    • [13].金融学文本大数据挖掘方法与研究进展[J]. 经济学动态 2020(04)
    • [14].基于深度学习的自然场景文本检测与识别综述[J]. 软件学报 2020(05)
    • [15].多文本融合下的深度翻译研究[J]. 中国科技翻译 2020(02)
    • [16].伊瑟尔“召唤结构”理论下文学文本审美潜能再创造[J]. 湖北第二师范学院学报 2020(04)
    • [17].全文本视角下文艺类图书出版的意义生成[J]. 出版科学 2020(03)
    • [18].《阿Q正传》译入译出文本的风格计量学对比[J]. 外语研究 2020(03)
    • [19].广义叙述学视域下电子游戏的三种文本初探——以《王者荣耀》为例[J]. 科技传播 2020(12)
    • [20].面向文本的结构——内容联合表示学习模型[J]. 计算机应用研究 2020(S1)
    • [21].明清教材“孝”文本的传播逻辑[J]. 出版广角 2020(15)
    • [22].新型主流媒体的文本互动研究[J]. 传播与版权 2020(07)
    • [23].试论伴随文本对特稿收受与解释的影响——基于《人物》对新冠肺炎疫情的相关报道[J]. 新闻研究导刊 2020(18)
    • [24].塞科“经济正常化”文本四问[J]. 世界知识 2020(20)
    • [25].让语文课堂充满语文的味道[J]. 文学教育(上) 2019(02)
    • [26].教师培养政策的政策文本研究[J]. 现代经济信息 2019(18)
    • [27].浅析手机取证中的文本分类[J]. 科技与创新 2019(22)
    • [28].住建部、工商总局联合修订《建设工程施工合同(示范文本)》[J]. 建筑技术开发 2017(22)
    • [29].2013版建设工程施工合同(示范文本)已废止,10月1日已执行2017版[J]. 建筑设计管理 2017(12)
    • [30].高校官方微信公众号的文本传播解读[J]. 西部广播电视 2018(16)

    标签:;  ;  ;  ;  

    基于维基百科构建语义知识库及其在文本分类领域的应用研究
    下载Doc文档

    猜你喜欢