基于Web的领域词典构建技术研究

基于Web的领域词典构建技术研究

论文摘要

领域术语是反映领域特征的词语,可以从一定规模的语料中自动抽取。领域术语自动抽取是自然语言处理中的一项重要任务,可以应用到领域本体构建、专业搜索、文本分类、类语言建模等诸多领域。同时,互联网上特定领域的文本资源非常丰富,因此,如何利用互联网上大规模的特定领域语料来构建领域词典就成为一个既有挑战性又有实际价值的课题。本文系统阐述并实现了一套WEB领域词典构建技术。通过对系统功能的分析,我们把系统分成了WEB领域文本收集、语料预处理、领域新词发现和领域特征词抽取四部分。与传统的领域术语抽取不同,我们首先需要收集WEB领域文本。该部分采用广度优先的算法获取特定类型的网页,我们针对其中的关键点快速的主题过滤算法展开了相关研究,设计并实现了一个基于向量空间模型的主题过滤模块。在语料的预处理部分,我们采用了一种基于统计的网页正文抽取方法,首先对网页进行规范化处理表示为一棵DOM树,然后统计各节点的内容信息进行正文抽取,该方法实现简单,通用性好,在准确性和速度上基本都能满足系统的需要。在领域新词发现部分,我们采用了基于统计和规则相结合的方法识别新词,在词频统计的基础上通过添加独立成词概率等层层过滤候选词。目前该模块综合F值可达70%以上。在领域特征词抽取部分,我们使用基于正规化分布熵的领域词汇抽取策略,并且将位置成词概率引入该方法中,取得了不错的效果。总之,通过对实验观察和结果分析,本课题实现了WEB领域文本收集、语料预处理、领域新词发现和领域特征词提取的关键技术,并在研究的基础上提出并实现了一套面向互联网领域词典构建的技术方案。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的背景及意义
  • 1.2 国内外对领域术语自动获取的研究
  • 1.2.1 国外的研究状况
  • 1.2.2 国内的研究状况
  • 1.3 主要工作与本文组织
  • 第2章 关于术语的相关概念
  • 2.1 术语与术语学
  • 2.2 术语的特征
  • 2.2.1 术语的领域特征
  • 2.2.2 术语的结构特征
  • 2.2.3 术语的单元性(Unithood)与术语性(Termhood)
  • 2.2.4 简单术语与复杂术语
  • 2.2.5 术语的内部特征与外部特征
  • 2.3 本章小结
  • 第3章 基于互联网的领域词典构建的关键技术
  • 3.1 面向领域主题的信息采集相关研究
  • 3.1.1 主题的描述
  • 3.1.2 网页内容与主题相关性的判定
  • 3.1.3 URL与主题的相关性预测
  • 3.2 领域语料内容的预处理相关研究
  • 3.2.1 网页规范化处理
  • 3.2.2 网页形式化表示
  • 3.2.3 网页节点选择
  • 3.3 领域新词发现相关研究
  • 3.3.1 上下文邻接分析
  • 3.3.2 独立成词概率
  • 3.3.3 位置成词概率
  • 3.3.4 双字耦合度
  • 3.4 领域特征词抽取相关研究
  • 3.4.1 领域术语抽取标准
  • 3.4.2 符号定义
  • 3.4.3 信息熵
  • 3.4.4 正规化的类间分布熵
  • 3.4.5 正规化的类内分布熵
  • 3.4.6 词语的排序公式
  • 3.5 本章小结
  • 第4章 Web术语抽取系统的设计与实现
  • 4.1 系统功能
  • 4.2 系统总体架构
  • 4.3 主题信息采集的实现
  • 4.4 网页正文抽取的实现
  • 4.4.1 预处理
  • 4.4.2 噪声过滤
  • 4.4.3 正文抽取
  • 4.5 领域新词发现的实现
  • 4.5.1 训练模块
  • 4.5.2 频度统计
  • 4.5.3 垃圾串过滤
  • 4.6 领域特征词抽取的实现
  • 4.7 本章小结
  • 第5章 系统功能评测
  • 5.1 针对主题过滤模块的评测
  • 5.2 针对正文抽取模块的评测
  • 5.3 针对领域新词发现模块的评测
  • 5.3.1 小规模语料测试
  • 5.3.2 分词实验
  • 5.4 针对领域特征词抽取模块的评测
  • 5.4.1 特征词精度测试
  • 5.4.2 文本分类实验
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].中华书局版《北京话词典》读后[J]. 北京史学 2018(01)
    • [2].汉语新词语英译词典稿件中的典型问题分析[J]. 传播力研究 2020(09)
    • [3].《新时代大俄汉词典》的背后——“中国辞典故事”之三[J]. 博览群书 2020(07)
    • [4].牛津词典2017年度热词:“青年震荡”[J]. 世界知识 2018(01)
    • [5].任务投入量假说视角下的英汉少儿图解词典对比分析——以词汇任务为例[J]. 广东外语外贸大学学报 2016(05)
    • [6].汉语搭配词典存在的问题及应对策略研究[J]. 辞书研究 2017(01)
    • [7].文化的传承 语言的记载——评《中华汉英大词典(上)》[J]. 辞书研究 2017(04)
    • [8].论沈苇《新疆词典》的地域性与超地域性[J]. 北京教育学院学报 2017(04)
    • [9].一部内容丰赡、精益求精的词典——评《实用英汉技术词典》[J]. 教育文化论坛 2015(06)
    • [10].词典里的“埋伏”[J]. 现代班组 2016(09)
    • [11].试论网络词典对翻译学习的影响[J]. 山西煤炭管理干部学院学报 2015(01)
    • [12].论现代词典的内在教育价值[J]. 外语研究 2015(04)
    • [13].抗疫词典(组诗)[J]. 诗林 2020(02)
    • [14].小词典[J]. 中国诗歌 2018(06)
    • [15].音乐小词典[J]. 中小学音乐教育 2009(01)
    • [16].《实用汉英中西医词典》编撰体例创新探讨[J]. 疯狂英语(理论版) 2016(03)
    • [17].词典例证翻译标准探索[J]. 疯狂英语(理论版) 2017(01)
    • [18].《哈尔滨方言词典》补正[J]. 现代语文(语言研究版) 2010(09)
    • [19].牛津词典公布2017年度热词:“青年震荡”[J]. 黄金时代(学生族) 2018(01)
    • [20].英国互联网上的“众筹词典”[J]. 高中生 2018(22)
    • [21].词典的故事[J]. 小学生优秀作文 2018(28)
    • [22].嫉妒,还是羡慕[J]. 高中生 2017(27)
    • [23].试析几部与“翻译”相关的词典之属性[J]. 环球人文地理 2014(02)
    • [24].有尊严地做教育[J]. 湖北教育(综合资讯) 2014(09)
    • [25].《明清吴语词典》释义探讨[J]. 中国训诂学报 2013(00)
    • [26].校园魔鬼词典新编[J]. 意林(少年版) 2012(04)
    • [27].词典例证研究述评[J]. 中国科教创新导刊 2012(13)
    • [28].生活词典(外二首)[J]. 青年作家 2013(02)
    • [29].浑河的词典[J]. 诗潮 2013(08)
    • [30].会议词典[J]. 杂文月刊(选刊版) 2009(02)

    标签:;  ;  ;  ;  

    基于Web的领域词典构建技术研究
    下载Doc文档

    猜你喜欢