论文摘要
领域术语是反映领域特征的词语,可以从一定规模的语料中自动抽取。领域术语自动抽取是自然语言处理中的一项重要任务,可以应用到领域本体构建、专业搜索、文本分类、类语言建模等诸多领域。同时,互联网上特定领域的文本资源非常丰富,因此,如何利用互联网上大规模的特定领域语料来构建领域词典就成为一个既有挑战性又有实际价值的课题。本文系统阐述并实现了一套WEB领域词典构建技术。通过对系统功能的分析,我们把系统分成了WEB领域文本收集、语料预处理、领域新词发现和领域特征词抽取四部分。与传统的领域术语抽取不同,我们首先需要收集WEB领域文本。该部分采用广度优先的算法获取特定类型的网页,我们针对其中的关键点快速的主题过滤算法展开了相关研究,设计并实现了一个基于向量空间模型的主题过滤模块。在语料的预处理部分,我们采用了一种基于统计的网页正文抽取方法,首先对网页进行规范化处理表示为一棵DOM树,然后统计各节点的内容信息进行正文抽取,该方法实现简单,通用性好,在准确性和速度上基本都能满足系统的需要。在领域新词发现部分,我们采用了基于统计和规则相结合的方法识别新词,在词频统计的基础上通过添加独立成词概率等层层过滤候选词。目前该模块综合F值可达70%以上。在领域特征词抽取部分,我们使用基于正规化分布熵的领域词汇抽取策略,并且将位置成词概率引入该方法中,取得了不错的效果。总之,通过对实验观察和结果分析,本课题实现了WEB领域文本收集、语料预处理、领域新词发现和领域特征词提取的关键技术,并在研究的基础上提出并实现了一套面向互联网领域词典构建的技术方案。
论文目录
相关论文文献
- [1].中华书局版《北京话词典》读后[J]. 北京史学 2018(01)
- [2].汉语新词语英译词典稿件中的典型问题分析[J]. 传播力研究 2020(09)
- [3].《新时代大俄汉词典》的背后——“中国辞典故事”之三[J]. 博览群书 2020(07)
- [4].牛津词典2017年度热词:“青年震荡”[J]. 世界知识 2018(01)
- [5].任务投入量假说视角下的英汉少儿图解词典对比分析——以词汇任务为例[J]. 广东外语外贸大学学报 2016(05)
- [6].汉语搭配词典存在的问题及应对策略研究[J]. 辞书研究 2017(01)
- [7].文化的传承 语言的记载——评《中华汉英大词典(上)》[J]. 辞书研究 2017(04)
- [8].论沈苇《新疆词典》的地域性与超地域性[J]. 北京教育学院学报 2017(04)
- [9].一部内容丰赡、精益求精的词典——评《实用英汉技术词典》[J]. 教育文化论坛 2015(06)
- [10].词典里的“埋伏”[J]. 现代班组 2016(09)
- [11].试论网络词典对翻译学习的影响[J]. 山西煤炭管理干部学院学报 2015(01)
- [12].论现代词典的内在教育价值[J]. 外语研究 2015(04)
- [13].抗疫词典(组诗)[J]. 诗林 2020(02)
- [14].小词典[J]. 中国诗歌 2018(06)
- [15].音乐小词典[J]. 中小学音乐教育 2009(01)
- [16].《实用汉英中西医词典》编撰体例创新探讨[J]. 疯狂英语(理论版) 2016(03)
- [17].词典例证翻译标准探索[J]. 疯狂英语(理论版) 2017(01)
- [18].《哈尔滨方言词典》补正[J]. 现代语文(语言研究版) 2010(09)
- [19].牛津词典公布2017年度热词:“青年震荡”[J]. 黄金时代(学生族) 2018(01)
- [20].英国互联网上的“众筹词典”[J]. 高中生 2018(22)
- [21].词典的故事[J]. 小学生优秀作文 2018(28)
- [22].嫉妒,还是羡慕[J]. 高中生 2017(27)
- [23].试析几部与“翻译”相关的词典之属性[J]. 环球人文地理 2014(02)
- [24].有尊严地做教育[J]. 湖北教育(综合资讯) 2014(09)
- [25].《明清吴语词典》释义探讨[J]. 中国训诂学报 2013(00)
- [26].校园魔鬼词典新编[J]. 意林(少年版) 2012(04)
- [27].词典例证研究述评[J]. 中国科教创新导刊 2012(13)
- [28].生活词典(外二首)[J]. 青年作家 2013(02)
- [29].浑河的词典[J]. 诗潮 2013(08)
- [30].会议词典[J]. 杂文月刊(选刊版) 2009(02)
标签:术语论文; 术语学论文; 领域术语自动抽取论文; 新词发现论文;