基于最大熵模型的汉语词性标注研究

基于最大熵模型的汉语词性标注研究

论文摘要

词性标注是为文本中的每个词语标上正确词性的过程。它作为自然语言处理的一项基础性工作,是后续句法分析、组块分析等任务的必要准备。词性标注中出现的错误会在后续处理中被放大,影响后续处理的效果,正确的词性标注对于自然语言处理有着非常重要的意义。本文的目的是在分词的基础上,研究提高汉语词性标注准确率的方法,为后期词法分析和其它自然语言处理任务服务。最大熵模型是一种使用灵活、精确率高的统计模型。最大熵模型的一般使用方法是利用模型直接获得结果,但是通过实验发现,大约94%的词语的正确标注是最大熵模型给出的最优标注,大约3%的词语的正确标注是最大熵模型给出的次优标注。直接舍弃次优标注,就舍弃了通过最大熵模型获得的一些信息。因此可以通过一些改进手段,把这些信息也加以利用,从而提高标注精度。本文通过结合使用最大熵模型和隐马尔可夫模型、融合多个最大熵模型的标注结果、结合使用最大熵模型和CRFs构建了三个词性标注器。使用的三种词性标注方法的核心就是同时考虑最大熵模型的最优标注和次优标注。实验结果表明,通过同时考虑最大熵模型的最优标注和次优标注来改善中文词词性标注方法是有效的:三种词性标注方法相对于只使用最大熵模型,精确率分别提高0.45%、0.32%、1.53%。其中,最大熵模型结合CRFs的标注效果是最理想的。词性标注是自然语言处理过程中的一个环节,本文的研究成果可以为诸如组块识别、命名实体识别等其它自然语言处理环节服务,也可以作为实现词性标注的具体方法加入实用系统中去。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 词性标注任务简介
  • 1.2 词性标注相关研究
  • 1.2.1 词性标注的方法
  • 1.2.2 词性标注研究现状
  • 1.3 研究的难点
  • 1.3.1 兼类词的词性选择
  • 1.3.2 数据稀疏问题的解决
  • 1.3.3 未登录词的词性判断
  • 1.4 本文的工作
  • 2 统计模型介绍
  • 2.1 最大熵模型
  • 2.1.1 熵的定义
  • 2.1.2 一个简单的例子
  • 2.1.3 最大熵模型的数学表示
  • 2.2 隐马尔可夫模型
  • 2.2.1 隐马尔可夫模型介绍
  • 2.2.2 隐马尔可夫模型在序列标记中的应用
  • 2.3 条件随机域模型
  • 2.3.1 条件随机域的图结构
  • 2.3.2 条件随机域的势函数表示
  • 2.3.3 序列标记任务
  • 2.3.4 参数估计
  • 2.3.5 概率计算
  • 2.3.6 动态规划问题
  • 3 使用最大熵模型的汉语词性标注
  • 3.1 词性标注相关知识
  • 3.1.1 自然语言处理
  • 3.1.2 词性
  • 3.1.3 词性标注集
  • 3.1.4 机器翻译与统计模型
  • 3.2 基于最大熵模型的汉语词性标注
  • 3.2.1 特征及其组成
  • 3.2.2 最大熵特征模板
  • 3.2.3 最大熵模型特征抽取过程
  • 3.2.4 未登录词的标注
  • 4 最大熵模型词性标注的深入研究
  • 4.1 最大熵模型标注的特点分析
  • 4.1.1 实验所用语料
  • 4.1.2 统计模型标注的特点
  • 4.1.3 最大熵模型标注特点的验证
  • 4.2 结合使用最大熵模型与隐马尔可夫模型
  • 4.2.1 方法的原理及优势
  • 4.2.2 实验流程
  • 4.2.3 实验结果及分析
  • 4.3 融合最大熵模型
  • 4.3.1 融合最大熵模型的原理
  • 4.3.2 制定融合规则
  • 4.3.3 融合两个最大熵模型的实验
  • 4.3.4 融合三个最大熵模型的实验
  • 4.4 最大熵模型结合CRFs
  • 4.4.1 最大熵模型结合CRFs的原理
  • 4.4.2 最大熵模型结合CRFs的实验
  • 4.4.3 实验数据分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].基于最大熵模型的观点句主观关系提取[J]. 计算机工程 2010(02)
    • [2].基于最大熵模型和ArcGIS的陕西省单季稻种植分布预测及适宜性[J]. 中国农业大学学报 2016(03)
    • [3].基于最大熵模型的评价搭配识别[J]. 计算机应用研究 2011(10)
    • [4].基于特征缺失补偿最大熵模型的文本分类[J]. 情报杂志 2010(05)
    • [5].基于多层最大熵模型的句子主干分析[J]. 计算机科学 2010(12)
    • [6].优化后最大熵模型在模拟驼鹿适宜栖息地分布中的应用[J]. 东北林业大学学报 2019(10)
    • [7].基于贝叶斯理论和最大熵模型的广东省高速公路诚信体系构建及应用[J]. 中国公共安全(学术版) 2019(01)
    • [8].基于最大熵模型的学术缩写自动识别[J]. 情报工程 2015(02)
    • [9].熵模型简介和比较[J]. 统计与管理 2015(09)
    • [10].基于最大熵模型和地理信息系统地构叶生态适宜性研究[J]. 中国中医药信息杂志 2020(02)
    • [11].一种基于置信最大熵模型的证据推理方法[J]. 控制与决策 2012(06)
    • [12].最大熵模型在物种分布预测中的优化[J]. 应用生态学报 2019(06)
    • [13].应用最大熵模型模拟预测大尺度范围油松毛虫灾害[J]. 林业科学 2016(06)
    • [14].基于最大熵模型的汉语短语间停顿识别[J]. 计算机工程与应用 2008(17)
    • [15].一种基于改进信息增益特征选择的最大熵模型文本分类方法[J]. 西南师范大学学报(自然科学版) 2019(03)
    • [16].语调短语预测中的特征模板自动生成[J]. 计算机工程与应用 2011(16)
    • [17].一种基于最大熵模型的加权归纳迁移学习方法[J]. 计算机研究与发展 2011(09)
    • [18].游客微博主题情感分析方法比较研究[J]. 北京大学学报(自然科学版) 2018(04)
    • [19].二维最大熵模型在图像分类算法中的应用研究[J]. 华中师范大学学报(自然科学版) 2015(04)
    • [20].基于最大熵模型的大连北站客运枢纽换乘客流预测[J]. 大连交通大学学报 2018(01)
    • [21].最大熵模型在公共交通分布预测中的应用[J]. 科学技术与工程 2015(03)
    • [22].最大熵模型在公共交通分布预测中的应用[J]. 公路 2015(04)
    • [23].密集城镇群客流分布双层最大熵模型[J]. 中国公路学报 2014(05)
    • [24].结合最大熵模型和tag特征的混合推荐系统[J]. 计算机系统应用 2011(07)
    • [25].谣言信息识别的最大熵模模型研究[J]. 小型微型计算机系统 2017(07)
    • [26].基于分布式词语表示的中文阅读理解[J]. 太原师范学院学报(自然科学版) 2014(01)
    • [27].基于最大熵模型的蛋白质二级结构的预测[J]. 生物医学工程学杂志 2008(02)
    • [28].基于深度学习的HS Code产品归类方法研究[J]. 现代计算机(专业版) 2019(01)
    • [29].陕西省设施农林用地适宜性潜力预测研究[J]. 土壤 2019(02)
    • [30].利用最大熵模型预测药用植物海南蒟的潜在地理布局[J]. 热带作物学报 2011(08)

    标签:;  ;  ;  

    基于最大熵模型的汉语词性标注研究
    下载Doc文档

    猜你喜欢