中文命名实体识别的研究

中文命名实体识别的研究

论文摘要

中文命名实体识别是自然语言处理的基础任务,是机器翻译、信息检索、问答系统等技术的基础,研究并实现有效的中文命名实体识别方法是本文的主要研究内容。本文主要采用基于机器学习的方法完成命名实体识别任务。首先,通过分析中文人名、地名的特点,以抽取合适的特征;定义科学的特征模板,并建立了一种基于条件随机场(Conditional Random Fields,CRFs)的中文命名实体识别模型。通过对CRFs的识别结果进行分析,发现CRFs模型中给出的错误标记大都拥有较小的边缘概率,用边缘概率定位到CRFs模型中可能的错误标记,并分别引入了概率统计方法和边界模板的方法对这部分标记进行修正,以优化系统的识别效果。实验证明,这两种混合模型的识别效果明显好于单纯的CRFs方法。另外,提出一种基于Max-Margin Markov Networks模型的地名识别方法。Max-MarginMarkov Networks模型将Max-Margin的思想应用于马尔可夫网络。它综合了支持向量机(Support Vector Machine,SVM)模型和无向图模型的优点。通过地名识别的实验证明,在相同的语料、特征和特征模板的条件下,基于Max-Margin Markov Networks模型的识别效果好于CRFs和SVM模型。最后,提出了一种基于概率特征函数的CRFs模型。CRFs模型是目前最优秀的机器学习模型之一,它定义的特征函数全部是0、1二值形式的,导致丢失一些有用的概率信息。本文在定义特征函数时融入了概率信息,以强化模型的学习能力,然后基于概率特征函数构造条件随机场。通过命名实体识别的实验证明,在相同的条件下,基于概率特征函数的CRFs比传统的CRFs具有更好的机器学习能力。本文的研究成果可应用于其它自然语言处理任务中。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景与意义
  • 1.2 中文命名实体识别的特点与难点
  • 1.2.1 中文命名实体识别的特点
  • 1.2.2 中文命名实体识别的难点
  • 1.3 国内外研究现状
  • 1.4 本文的工作
  • 2 条件随机场
  • 2.1 判别无向图模型
  • 2.2 条件随机场(CRFs)模型
  • 2.2.1 条件随机场的无向图结构
  • 2.2.2 条件随机场的势函数表示
  • 2.2.3 条件随机场的参数估计
  • 2.2.4 动态规划方法
  • 3 Max-Margin Markov Networks
  • 3.1 支持向量机
  • 3.1.1 最大间隔分类超平面
  • 3.1.2 支持向量机
  • 3.1.3 核函数
  • 3.1.4 多类支持向量机
  • 3.2 Max-Margin Markov Networks
  • 3.3 序列最小优化(SMO)
  • 4 条件随机场(CRFs)命名实体识别的研究
  • 4.1 BIO分类标记
  • 4.2 命名实体特征的抽取
  • 4.2.1 人名特征的抽取
  • 4.2.2 地名特征的抽取
  • 4.3 基于CRFs的中文命名实体识别
  • 4.4 基于CRFs与边界模板的人名识别
  • 4.4.1 边界模板
  • 4.4.2 基于边界模板的人名识别模型
  • 4.4.3 基于CRFs与边界模板的人名识别方法
  • 4.5 基于CRFs与概率统计的命名实体识别
  • 4.5.1 人名识别的概率统计模型
  • 4.5.2 地名识别的概率统计模型
  • 4.5.3 基于CRFs与概率统计的命名实体识别方法
  • 5 基于Max-Margin Markov Networks的地名识别
  • 5.1 Max-Margin Markov Networks模型的构建
  • 5.2 基于Max-Margin Markov Networks的地名识别方法
  • 6 基于概率特征函数的CRFs模型
  • 6.1 概率特征函数的表示
  • 6.2 概率特征函数的定义
  • 6.3 基于概率特征函数的CRFs的构建
  • 6.4 命名实体识别的实验
  • 7 实验结果与分析
  • 7.1 基于CRFs模型的命名实体识别
  • 7.1.1 单纯采用CRFs模型
  • 7.1.2 基于CRFs与边界模板的人名识别
  • 7.1.3 基于CRFs与概率统计的命名实体识别
  • 7.1.4 几种基于CRFs方法的比较
  • 7.2 基于Max-Margin Markov Networks模型的地名识别
  • 7.3 基于概率特征函数的CRFs的命名实体识别
  • 7.4 与其它文献的比较
  • 7.5 实验结果分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].西中文作品[J]. 中国书法 2011(09)
    • [2].《国际中文教育学报》征稿启事[J]. 世界汉语教学 2020(02)
    • [3].2019年国际中文教育大会闭幕[J]. 孔子学院 2020(01)
    • [4].基于文化产业振兴背景的高职院校中文教育研究[J]. 科学咨询(教育科研) 2020(04)
    • [5].印度的中文教育:综述与评估[J]. 南亚东南亚研究 2020(05)
    • [6].紡織月刊[J]. 纺织服装周刊 2018(21)
    • [7].紡織月刊[J]. 纺织服装周刊 2017(44)
    • [8].中文塑造了我的人生[J]. 孔子学院 2018(02)
    • [9].中文版音乐剧的价值和意义[J]. 上海艺术评论 2018(05)
    • [10].基于中英文可比较语料的中文零指代消解[J]. 北京大学学报(自然科学版) 2017(02)
    • [11].增强中文自信 助推中华文化复兴——周善甫的中文观述评[J]. 云南师范大学学报(对外汉语教学与研究版) 2017(02)
    • [12].在邕高校泰国留学生阅读中文书籍现状调查研究与分析[J]. 才智 2017(28)
    • [13].西中文作品欣赏[J]. 美与时代(中) 2014(12)
    • [14].论在外语院系中加强中文课教育的意义[J]. 戏剧之家 2015(10)
    • [15].全家都来学中文[J]. 廉政瞭望(上半月) 2015(10)
    • [16].《高校应用数学学报》第三十卷A辑(中文版)总目次[J]. 高校应用数学学报A辑 2015(04)
    • [17].“厦大中文百年”征稿启事[J]. 厦大中文学报 2020(00)
    • [18].香港中文大学宾馆[J]. 金山 2019(08)
    • [19].香港中文大學[J]. 英语画刊(高级版) 2019(25)
    • [20].中文、悟性和悟性享受[J]. 基础教育论坛 2013(20)
    • [21].中文教育之痛[J]. 教师博览 2010(04)
    • [22].该死的中文秘书台[J]. 教师博览 2011(02)
    • [23].探析文化产业振兴与高校中文教育改革[J]. 长江丛刊 2018(02)
    • [24].唐中文作品[J]. 文化月刊 2015(35)
    • [25].好惨的中文课[J]. 课外阅读 2016(05)
    • [26].一不留神,我要读中文系的博士了[J]. 大学生 2016(17)
    • [27].重建中文之美[J]. 百花洲 2016(01)
    • [28].学中文的骄傲[J]. 快乐作文 2015(Z3)
    • [29].孙中山(银奖)[J]. 上海集邮 2015(S1)
    • [30].我和中文做朋友[J]. 快乐作文 2014(Z5)

    标签:;  ;  ;  ;  

    中文命名实体识别的研究
    下载Doc文档

    猜你喜欢