论文摘要
本文以万方数据和会议集作为测试语料,重点介绍了基于PAT-Tree关键词的抽取方法和知网在关键词抽取中的应用。首先通过实验验证关键词具有的一些特征并介绍了常用的关键词的过滤方法。接着介绍了能够方便快捷地进行全文串频统计的PAT-Tree数据结构以及互信息。在此基础上提出了基于PAT-Tree关键词的抽取方法,抽取过程基于从原始文本中得到的统计信息,取出符合筛选条件的字符串。总体来说分为四个阶段,分别为:对文本进行预处理;在预处理过的文本上建立PAT-Tree,获取文章词频信息;在PAT-Tree上抽取候选关键词;对关键词过滤以及选取关键词。我们把抽取的重点放在了自动过滤符合统计条件的字符串,进一步精选候选关键词上面。我们在精选过程中采用了新的过滤手段,并借鉴了其它方法的优点,形成了一套综合的过滤手段,有效地提高了精确度,减少了计算量。本文的另外一个特色,考虑到会议集是领域语料,特别使用分治法的思想来处理密集计算,高效地建立PAT-Tree,一方面为抽取领域关键词提供了方便,另一方面也使得关键词抽取能够用分布式计算的方法来实现,提供了进一步扩大处理能力的空间。实验结果表明,采用此方法能够高效地抽取关键词,特别是领域关键词的抽取取得了良好的效果,达到了预期目的。最后,引入知网来计算同义词的相似度,以此来解决关键词集合中同义词同现问题和词语由于同义词问题不能进入关键词集合的问题。
论文目录
相关论文文献
- [1].关键词[J]. 中国医学影像技术 2019(12)
- [2].关键词[J]. 糖尿病新世界 2019(21)
- [3].作者书写关键词须知[J]. 白求恩医学杂志 2019(04)
- [4].2019国人年度感受关键词[J]. 小康 2019(36)
- [5].关键词[J]. 中国卫生产业 2019(35)
- [6].关键词[J]. 糖尿病新世界 2019(23)
- [7].关键词的书写要求[J]. 大连医科大学学报 2019(06)
- [8].创意写作的“关键词”联想方法研究[J]. 写作 2019(06)
- [9].关键词[J]. 中国介入影像与治疗学 2020(02)
- [10].关键词[J]. 中国卫生产业 2020(01)
- [11].关键词的书写要求[J]. 大连医科大学学报 2020(01)
- [12].关键词的写作规范[J]. 医学教育研究与实践 2020(02)
- [13].关键词[J]. 股市动态分析 2020(06)
- [14].养生关键词[J]. 中医健康养生 2020(04)
- [15].关键词[J]. 中国卫生产业 2020(03)
- [16].关键词的写作规范[J]. 医学教育研究与实践 2020(01)
- [17].关键词的写作规范[J]. 医学教育研究与实践 2020(03)
- [18].关键词[J]. 中国卫生产业 2020(10)
- [19].关键词[J]. 中国介入影像与治疗学 2020(06)
- [20].21世纪近10年的艺术界关键词[J]. 世界文化 2020(04)
- [21].网络视域下领域重要关键词提取方法的比较研究[J]. 情报资料工作 2020(03)
- [22].关键词[J]. 中国医学影像技术 2020(06)
- [23].关键词[J]. 中国介入影像与治疗学 2020(07)
- [24].关键词[J]. 股市动态分析 2020(12)
- [25].关键词[J]. 中国医学影像技术 2020(07)
- [26].关键词[J]. 中国介入影像与治疗学 2020(08)
- [27].关键词的写作规范[J]. 医学教育研究与实践 2020(04)
- [28].关键词[J]. 中国卫生产业 2020(15)
- [29].关键词[J]. 中国卫生产业 2020(12)
- [30].差异与共识:治理研究的反思性阐释——基于中、美、韩三国治理研究权威论文的关键词网络分析[J]. 陕西师范大学学报(哲学社会科学版) 2020(04)