基于条件随机场的中文分词研究与应用

基于条件随机场的中文分词研究与应用

论文摘要

自然语言处理不仅是一门社会需求十分巨大的应用技术,而且也是一门具有非常重要科学意义的自然科学。由于汉语自身的特殊性,大多数汉语自然语言处理任务都需建立在汉语分词的基础之上,因而分词的准确程度将直接影响到一系列的后续研究和研究。由于汉语自身的复杂性,分词问题一直是汉语自然语言处理的首要问题。条件随机场理论是近年来提出的,用于标记和切分序列数据的条件概率模型,也是在给定输入节点条件下计算输出节点的条件概率的无向图模型。它不需要以隐马尔可夫模型为代表的生成模型那样的严格独立性假设,并克服了最大熵模型和其他非生成模型所存在的标记偏置问题。该模型可以非常容易地将输入序列中的任意特征加入到模型中,而且也可以将一些其他的信息加入进来,如构词规则等。本文首先介绍了自然语言处理的研究状况,以及分词在自然语言处理中的重要性,继续介绍了当前常见的分词方法和各种分词方法的优点和缺点,分析了汉语自动分词研究面临的问题;本文系统地描述了条件随机场模型的定义、模型结构、参数估计及其语料库选取等,并将条件随机场运用于汉语分词,采用汉字标注的分词方法。本文应用条件随机场进行了大量的实验,实验语料采用长江日报社多年统计的标准语料,并进行了封闭式测试。实验分析了条件随机场模型参数选择和汉字标注集选择对实验结果所产生的影响,并且利用条件随机场模型能够添加任意特征的优点,添加了一些新的特征到模型中,并从字的构词能力角度出发,探索了字位置概率特征。在该语料库上的实验表明:字位置概率特征的引入,使结果准确率、召回率和F1值都到了明显的提高。中文自动分词的有着广阔的应用范围,本文主要中文文本自动方面介绍了分词的应用。中文文本自动校对是自然语言处理领域中有着广阔应用前景的一个研究方向。本文依据条件随机场分词的结果以及常见错误的特点,结合三元字模型的特点,提出了一种有效的文本校对方法,实验表明,该方法具有较高的准确率和召回率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 自然语言处理概述
  • 1.2 国内研究现状
  • 1.3 本文工作
  • 1.4 论文组织结构
  • 第2章 汉语自动分词
  • 2.1 汉语自动分词研究的意义
  • 2.2 汉语自动分词的研究方法
  • 2.2.1 基于规则的分词方法
  • 2.2.2 基于统计的分词方法
  • 2.3 汉语分词面临的问题
  • 2.3.1 汉语词的概念尚待解决
  • 2.3.2 汉语分词的规范问题
  • 2.3.3 不同的服务目的
  • 2.3.4 字段切分歧义问题
  • 2.3.5 未登录词问题
  • 第3章 条件随机场模型
  • 3.1 序列标记
  • 3.2 隐马尔可夫模型
  • 3.2.1 隐马尔可夫模型原理
  • 3.2.1 隐马尔可夫模型原理在序列标记中的应用
  • 3.3 最大熵模型
  • 3.3.1 最大熵原理
  • 3.3.2 最大熵模型在序列标记中的应用
  • 3.4 条件随机场模型
  • 3.4.1 生成模型
  • 3.4.2 判别模型
  • 3.4.3 条件随机场理论
  • 3.4.4 条件随机场模型的优点
  • 3.4.5 条件随机场模型的不足
  • 第4章 基于条件随机场的分词方法
  • 4.1 基于条件随机场的汉字标注分词
  • 4.1.1 标注方法
  • 4.1.2 特征选取
  • 4.2 CRF分词系统
  • 4.2.1 分词系统流程
  • 4.2.2 特征选取
  • 4.3 分词实验
  • 4.3.1 实验语料的选择
  • 4.3.2 实验测评标准
  • 4.3.3 CFR分词系统性能测试实验
  • 4.3.4 CFR分词系统与其它模型的比较
  • 4.4 本章小结
  • 第5章 基于CRF模型中文分词的文本自动校对
  • 5.1 文本自动校对
  • 5.2 应用CRF模型中文分词的文本自动校对
  • 5.2.1 文本常见错误类型
  • 5.2.2 文本自动校对
  • 5.2.3 CRF文本自动校对的对比实验
  • 5.3 中文文本自动校对算法的发展前景
  • 第6章 总结与展望
  • 6.1 本文总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间主要成绩
  • 相关论文文献

    • [1].法律自然语言处理技术的当前发展[J]. 法制博览 2019(36)
    • [2].最大熵方法及其在自然语言处理中的应用研究[J]. 电子测试 2020(04)
    • [3].语料库和面向统计学的自然语言处理技术分析[J]. 科技创新导报 2019(34)
    • [4].美国自然语言处理技术专利情报分析及启示——基于1999—2018年专利数据[J]. 科技管理研究 2020(06)
    • [5].基于自然语言处理的合同智能审查应用设计[J]. 中国信息化 2020(02)
    • [6].自然语言处理中的注意力机制研究综述[J]. 数据分析与知识发现 2020(05)
    • [7].医学自然语言处理技术对产科病历逻辑错误的质量控制效果[J]. 中国生育健康杂志 2020(04)
    • [8].关于自然语言处理技术的分析与研究[J]. 科技创新导报 2020(07)
    • [9].基于人工智能技术的“自然语言处理”课程教学模式改革与探索[J]. 无线互联科技 2020(10)
    • [10].探究人工智能时代背景下自然语言处理技术的发展应用[J]. 科技风 2020(23)
    • [11].自然语言处理工具在语料驱动批评话语分析中的运用——以英语洗钱新闻为例[J]. 解放军外国语学院学报 2020(05)
    • [12].《基于深度学习的自然语言处理》[J]. 中文信息学报 2020(08)
    • [13].自然语言处理发展与应用概述[J]. 中国新通信 2019(02)
    • [14].自然语言处理的发展历史与现状[J]. 中国高新科技 2019(03)
    • [15].自然语言处理技术发展与未来[J]. 科技传播 2019(06)
    • [16].智能客服自然语言处理的方法研究[J]. 计算机产品与流通 2019(05)
    • [17].基于深度学习的自然语言处理技术的发展及其在农业领域的应用[J]. 农业大数据学报 2019(01)
    • [18].自然语言处理发展及应用综述[J]. 信息技术与信息化 2019(07)
    • [19].自然语言处理技术的重要性研究[J]. 信息通信 2019(11)
    • [20].基于自然语言处理的主题模型及其发展分析[J]. 信息与电脑(理论版) 2017(24)
    • [21].护理不良事件非结构上报内容的自然语言处理及效果比较[J]. 护理学报 2018(03)
    • [22].浅析自然语言处理技术的重要性[J]. 数字通信世界 2018(02)
    • [23].第十五届全国自然语言处理青年学者研讨会在南京成功举行[J]. 中文信息学报 2018(05)
    • [24].新技术驱动的自然语言处理进展[J]. 武汉大学学报(工学版) 2018(08)
    • [25].自然语言处理技术简述及在矿冶领域的应用展望[J]. 金属世界 2018(05)
    • [26].自然语言处理关键技术在智能铁路中的应用研究[J]. 铁路计算机应用 2018(10)
    • [27].自然语言处理技术中的中文分词研究[J]. 信息与电脑(理论版) 2016(19)
    • [28].自然语言处理中半监督算法的应用[J]. 电子技术与软件工程 2017(02)
    • [29].基于自然语言处理和图计算的情报分析研究[J]. 电信技术 2017(06)
    • [30].自然语言处理在信息检索中的应用研究[J]. 信息与电脑(理论版) 2017(11)

    标签:;  ;  ;  ;  ;  ;  

    基于条件随机场的中文分词研究与应用
    下载Doc文档

    猜你喜欢