论文摘要
随着互联网的飞速发展,术语在各个领域层出不穷。术语自动提取日益受到人们的关注,已经成为自然语言处理的一项重要任务,可以应用到本体构建、专业搜索、文本分类等各个领域。因此,术语抽取研究是信息处理领域的基础性课题。术语是为有效表达领域知识而产生的完整的语言单位,因此需要计算其单元度。本文重点研究了单元度的计算方法。计算词语的单元度有很多种统计模型,我们在分析各种模型优缺点的基础上,综合了几个模型的优点,提出一种新的术语抽取方法,实现优势互补,从而提高了准确率和召回率。本文的研究工作主要包括以下几个方面:第一,详细分析了术语在文本中的使用特点,并对已有的各种术语抽取方法及其各自的优缺点进行了分析和比较。第二,为了能有效抽取低频词汇,选用了似然比方法。但该方法抽取准确率偏低。为了解决这个问题,本文提出将似然比的抽取结果用C-value进行处理。两者相结合,在保证似然比方法高召回率的前提下,也提高了抽取的准确率。实验证明,这两种方法的结合是有效的。第三,在术语提取的特征运用上,既考虑了术语的内部结合紧密特性,又考虑了术语的边界自由特性,提出将改进似然比方法抽取结果与信息熵抽取结果求并集的策略。实验证明,在术语提取中集成多方面信息,可以取得更好的效果。第四,所用的方法完全基于统计,与语言无关,所以理论上可以对各种语言的语料进行抽取。实验语料为中英文混合语料,实验证明,该方法能有效处理中英文混合语料。本文设计并实现的术语自动抽取系统,只需给出领域语料,便可从给定的语料中抽取出尽可能多的专业术语。整个过程无需分词及词性标注,不局限于某一个领域,不需要语料库进行训练,简单实用。我们选取“百度百科”技术标签下大约11M的语料进行抽取,前4000个候选串的准确率约70.8%。
论文目录
相关论文文献
- [1].微博内容自动抽取方法研究[J]. 辽宁工业大学学报(自然科学版) 2017(01)
- [2].基于句内注意力机制的答案自动抽取方法[J]. 智能计算机与应用 2017(05)
- [3].术语自动抽取方法研究综述[J]. 计算机科学 2015(08)
- [4].基于内容分析的网络新闻中社会网络自动抽取[J]. 科研信息化技术与应用 2016(03)
- [5].2001—2008年国内元数据自动抽取研究综述[J]. 科技情报开发与经济 2009(23)
- [6].中文领域术语自动抽取方法进展研究[J]. 电脑知识与技术 2014(28)
- [7].面向科技领域的术语自动抽取模型[J]. 系统工程理论与实践 2013(01)
- [8].维吾尔语短语自动抽取研究进展[J]. 计算机科学与探索 2015(12)
- [9].融入形态特征的英语多词术语自动抽取研究[J]. 外语电化教学 2013(02)
- [10].特定领域概念间关系自动抽取方法[J]. 北京邮电大学学报 2013(05)
- [11].面向情报学课程设置的数据科学技能素养自动抽取及分析研究[J]. 情报理论与实践 2018(12)
- [12].一种混合策略的领域术语自动抽取方法[J]. 电子制作 2015(08)
- [13].文本元数据自动抽取算法的研究[J]. 计算机应用与软件 2011(12)
- [14].基于深度学习的数据科学招聘实体自动抽取及分析研究[J]. 图书情报工作 2018(13)
- [15].一种面向属性的论坛自动抽取方法[J]. 科学技术与工程 2009(24)
- [16].基于深度学习的食品安全事件实体自动抽取模型研究[J]. 信息与电脑(理论版) 2018(23)
- [17].面向源代码软件设计模式自动抽取技术的研究[J]. 电子世界 2013(24)
- [18].基于互信息与词语共现的领域术语自动抽取方法研究[J]. 重庆邮电大学学报(自然科学版) 2013(05)
- [19].语义关系自动抽取方法[J]. 山西大学学报(自然科学版) 2015(04)
- [20].电商网页中商品规格信息自动抽取方法研究[J]. 计算机工程与应用 2017(24)
- [21].改进的中文静态网页新闻正文自动抽取算法[J]. 东莞理工学院学报 2018(05)
- [22].期刊论文元数据自动抽取系统的设计与实现[J]. 计算机光盘软件与应用 2014(21)
- [23].基于本体实例信息的深度网表单属性自动抽取[J]. 小型微型计算机系统 2009(05)
- [24].基于字同现频率的关键词自动抽取[J]. 北京信息科技大学学报(自然科学版) 2011(06)
- [25].术语关系自动抽取方法研究[J]. 计算机科学 2010(02)
- [26].科技文献元数据自动抽取研究述评[J]. 计算机系统应用 2013(03)
- [27].基于特征及规则模式的学位论文元数据信息自动抽取研究[J]. 农业图书情报学刊 2015(02)
- [28].基于统计方法的教育术语特征分析研究[J]. 计算机光盘软件与应用 2014(24)
- [29].基于Web内容的一种数据自动抽取方法[J]. 计算机技术与发展 2012(05)
- [30].一种自动抽取Web信息方法的设计与实现[J]. 计算机与现代化 2009(01)