自然语言叙词表自动构建研究

自然语言叙词表自动构建研究

论文摘要

一个完整的检索系统包含四个子系统,即标引子系统,检索子系统,词表系统和用户-系统接口。其中,词表是检索系统的基础,是影响检索效率的最主要因素。目前网络信息检索效率很低,主要原因是字面不匹配问题。为了改进检索系统的性能,需要引入叙词表等控制机制,使检索从字面匹配层次提升到概念匹配层次,从而实现概念检索。人工编制词表准确率高,但是成本高,建构速度慢,事先选用的词汇可能与检索系统后续新进的文献无关;有学者经实验证明,通用叙词表应用到特定领域的文献检索上,无法提高检索效率;另外,针对每一种文献领域制作叙词表,既耗时又费力,所以,自动快速地构建领域叙词表是提升网络信息检索效率所迫切需要的。针对以上问题,本文提出了一种自然语言领域叙词表自动构建方法,该方法构建的词表能够在标引和检索两端对输入的自然语言进行控制,是一部“内核受控,外壳非控”的自然语言叙词表。自动构建叙词表,是通过模式识别、同现分析、聚类分析等知识挖掘和自然语言处理技术自动识别词间等同、等级和相关关系。本文主要探讨词间等级关系和相关关系的自动识别,首先以Dice测度计算词汇之间的关联度,构建关联概念空间,在此基础上采用等级词聚类算法把表述同一类事物的词汇聚集在一起,然后通过等级识别算法识别出各簇内的词间等级关系;对于相关关系,主要通过关联概念空间提示相关词汇;对于等同关系,采用模式识别方法结合词面相似度算法予以识别。本文以财税领域为试验数据来源,在自动构建一部财税领域叙词表后,将其应用到财税网页文本的自动标引上,把抽取的关键词通过财税词表自动转换为“内核”主题词实现赋词标引。同时,可以采用自然语言查询词表,系统会根据财税词表把自然语言词汇转换为最相关的内核受控词,提示给用户使用,从而减轻用户检索负担。本文也探讨了如何对自动构建的词表进行更新和维护,并借鉴N-gram算法,实现了财税新词的识别功能,及时对自然语言叙词表进行补充和更新。自然语言叙词表自动构建试验系统采用VB.NET程序设计语言和ACCESS数据库软件开发而成。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 研究背景
  • 1.2 本文研究的主要内容及意义
  • 2 叙词表编制技术研究进展
  • 2.1 叙词表编制方式
  • 2.2 国外叙词表编制技术研究概况
  • 2.3 国内叙词表编制技术研究概况
  • 3 自然语言叙词表的自动构建
  • 3.1 “内核受控,外壳非控”词表模式
  • 3.2 自然语言叙词表自动构建难点与可行性分析
  • 3.3 自然语言叙词表自动构建原则
  • 3.4 自然语言叙词表自动构建方案
  • 3.5 自然语言叙词表的更新与维护
  • 3.6 自然语言叙词表性能评价
  • 4 基于词聚类的等级关系识别
  • 4.1 词聚类研究概述
  • 4.2 基于相似度矩阵的词聚类算法
  • 4.3 词素聚类方法
  • 5 自然语言叙词表自动构建系统的设计
  • 5.1 自然语言叙词表自动构建系统总体设计
  • 5.2 自然语言叙词表自动构建系统界面设计与使用
  • 6 自然语言叙词表的使用
  • 6.1 基于自然语言叙词表的自动标引
  • 6.2 标引结果测评
  • 结语
  • 参考文献
  • 附录
  • 致谢
  • 攻读学位期间发表论文情况
  • 相关论文文献

    • [1].叙词表和本体的比较研究[J]. 浙江高校图书情报工作 2012(01)
    • [2].中文叙词表发展概况和性能测评(1980-2009)[J]. 中国索引 2012(02)
    • [3].面向叙词表更新的新术语分布特征研究[J]. 图书情报工作 2019(20)
    • [4].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2018(12)
    • [5].基于生态学视角的叙词表概念稳定性研究[J]. 情报杂志 2019(07)
    • [6].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2019(07)
    • [7].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2018(01)
    • [8].我国叙词表的编制历史与发展模式[J]. 情报理论与实践 2018(06)
    • [9].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2018(10)
    • [10].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2017(02)
    • [11].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2017(03)
    • [12].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2017(04)
    • [13].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2017(05)
    • [14].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2017(08)
    • [15].用于信息检索的叙词表编制标准[J]. 国家图书馆学刊 2016(02)
    • [16].叙词表与其他词表的互操作标准[J]. 国家图书馆学刊 2016(02)
    • [17].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2016(06)
    • [18].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2016(05)
    • [19].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2016(03)
    • [20].《网络环境下叙词表编制与发展》[J]. 数字图书馆论坛 2016(09)
    • [21].多语叙词表构建方法研究与实践[J]. 图书情报工作 2014(19)
    • [22].叙词表概念映射研究[J]. 图书馆论坛 2015(01)
    • [23].《网络环境下叙词表编制与发展》书讯[J]. 图书情报工作 2015(12)
    • [24].从叙词表到知识图谱的构建研究与实践[J]. 农业图书情报 2019(01)
    • [25].叙词表的结构分析[J]. 计算机产品与流通 2019(09)
    • [26].基于生态学视角的叙词表概念多样性研究[J]. 情报杂志 2018(11)
    • [27].40年来中文叙词表修订情况概览[J]. 图书情报工作 2013(02)
    • [28].中文叙词表发展概况和性能测评(1980-2009)[J]. 图书馆论坛 2012(04)
    • [29].叙词表映射研究综述[J]. 图书情报工作 2012(12)
    • [30].加强网络时代叙词表的研究[J]. 图书情报工作 2009(08)

    标签:;  ;  ;  ;  ;  

    自然语言叙词表自动构建研究
    下载Doc文档

    猜你喜欢