规则与统计相结合的中文分词方法研究

规则与统计相结合的中文分词方法研究

论文摘要

随着信息时代的到来,计算机在人们生产生活的各个方面作用越来越突显。目前,在机器翻译、语音识别、信息检索等许多领域对语料库的使用越来越多,要求也越来越高,对语料库进行分词成为建立汉语语料库资源的首要任务。随着中文信息处理研究的深入,中文文本自动分词问题已经引起相当程度的重视,成为中文信息处理的一个前沿课题。经过几十年的研究,中文文本自动分词技术取得了令人瞩目的成果,出现了一些实用的自动分词系统,这些分词系统在分词的精确度和分词速度方面都具有相当水平,但无论按照人的智力标准,还是同实用的需要相比较,还有一定的差距。在本文中,我们以加工后的训练语料为研究对象,提出了一种规则与统计相结合的中文分词方法。该方法根据中文分词中所遇到的问题,对其进行归类并利用规则与统计相结合的思想对分词结果进行逐步的优化,最终达到一个较理想的结果。主要的研究内容有以下几方面:1.通过对大量训练语料的统计与分析,建立歧义字段资源库,深入分析了歧义字段的内部特征和上下文环境特征,为解决歧义字段问题建立了语言学基础。对训练语料中所出现的歧义字段进行真伪歧义分析,建立相应的真歧义库和伪歧义库。2.统计并分析真歧义与伪歧义各自不同的语言现象和规律,对其进行进一步的分类,为歧义字段的处理策略提供依据,进而为概率模型的建立提供支持。此外,在概率模型的建立过程中,使用了《同义词词林》作为语义资源,对歧义字段的上下文环境进行了语义扩充。3.通过对海量真实语料的分析和统计,提取其中所出现的未登录词,充分考虑未登录词的内部结构,抽取和统计未登录词的内部信息,建立了未登录词资源库,并利用内部信息建立未登录识别的概率模型。4.通过对未登录词的上下文环境信息的分析,提取未登录词识别的实用规则,建立未登录词识别的规则库,进而提高概率模型的识别效果。我们通过对微软亚洲研究院2005年提供的SIGHAN简体中文语料库(MSR)的400万语料进行模型的训练和检测,发现该策略在歧义字段的处理上有较好的效果。为了进一步检验规则与统计相结合的分词方法的有效性,我们参加了SIGHAN第四届国际中文自然语言处理Bakeoff SIGHAN 2008国际分词评测,并参加了NCC分词的开放测试,并在词表词识别率上达到96.9%,进一步证明该模型在解决歧义字段问题是有效的。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 研究背景
  • 1.1.1 问题概述
  • 1.1.2 中文自动分词的重要性
  • 1.2 中文自动分词的困难
  • 1.3 中文分词的研究现状及其分析
  • 1.4 论文的主要工作及论文结构
  • 第二章 资源库的建立
  • 2.1 伪歧义字段资源库
  • 2.2 真歧义字段资源库
  • 2.2.1 真歧义字段的分类
  • 2.2.2 真歧义字段资源库的建立
  • 2.3 未登录词资源库
  • 第三章 歧义字段的处理策略
  • 3.1 伪歧义字段的处理策略
  • 3.2 真歧义字段1的处理策略
  • 3.3 真歧义字段2的处理策略
  • 3.3.1 问题描述
  • 3.3.2 特征的提取
  • 3.3.3 特征模板的筛选
  • 3.3.4 影响因子(特征参数bi)
  • 3.4 举例
  • 第四章 未登录词的识别
  • 4.1 未登录词识别的难点
  • 4.2 未登录词识别的概率模型
  • 4.3 未登录词识别的规则库
  • 4.3.1 姓名的规则库建造
  • 4.3.2 地名识别规则库的建造
  • 4.3.3 机构名称的自动识别技术
  • 4.4 未登录词识别过程
  • 第五章 实验结果与分析
  • 5.1 基本流程
  • 5.2 实验语料
  • 5.3 评价方法
  • 5.4 实验结果
  • 5.4.1 实验结果分析
  • 5.4.2 错误识别举例与分析
  • 结论与展望
  • 参考文献
  • 致谢
  • 发表文章
  • 个人简历
  • 相关论文文献

    • [1].中文分词关键技术研究[J]. 湖北农机化 2017(06)
    • [2].基于粗分和词性标注的中文分词方法[J]. 计算机工程与应用 2015(06)
    • [3].中文分词[J]. 中国文艺家 2019(02)
    • [4].双向循环网络中文分词模型[J]. 小型微型计算机系统 2017(03)
    • [5].IK Analyzer 2012发布中文分词库[J]. 硅谷 2012(06)
    • [6].中文分词在大数据时代医学领域的应用[J]. 电子技术与软件工程 2018(17)
    • [7].基于深度学习算法的中文分词的研究[J]. 计算机产品与流通 2019(05)
    • [8].中文分词相关算法研究[J]. 科技经济导刊 2018(02)
    • [9].基于语义信息的中文分词研究[J]. 电脑知识与技术 2018(22)
    • [10].一种基于词频统计的中文分词方法[J]. 科技展望 2016(10)
    • [11].中文分词中歧义字段处理的研究[J]. 电子世界 2019(12)
    • [12].基于词的关联特征的中文分词方法[J]. 通信技术 2018(10)
    • [13].一种改进的单向扫描中文分词方法[J]. 科学技术创新 2017(33)
    • [14].一种中文分词的动态规划模型[J]. 数学建模及其应用 2015(01)
    • [15].中文分词和词性标注模型[J]. 计算机工程 2010(04)
    • [16].常用中文分词软件在中医文本文献研究领域的适用性研究[J]. 世界科学技术-中医药现代化 2017(03)
    • [17].基于循环神经网络序列标注的中文分词研究[J]. 计算机技术与发展 2017(10)
    • [18].中文分词和词向量[J]. 中国新通信 2018(23)
    • [19].基于异构数据联合训练的中文分词法[J]. 电子科技 2019(04)
    • [20].基于受限领域的中文分词系统[J]. 信息系统工程 2011(11)
    • [21].基于深度神经网络模型的中文分词方案[J]. 哈尔滨工程大学学报 2019(09)
    • [22].基于在线比较评论情感分析的方法探索[J]. 中国市场 2019(25)
    • [23].基于中文分词的电子病历数据挖掘技术[J]. 湖南科技学院学报 2016(10)
    • [24].一种面向中文分词的搜索算法[J]. 计算机应用与软件 2018(10)
    • [25].基于Lucene的中文分词器的设计与实现[J]. 微型机与应用 2011(18)
    • [26].基于隐马尔可夫模型的中文分词[J]. 现代计算机(专业版) 2018(33)
    • [27].基于联合学习的跨领域法律文书中文分词方法[J]. 中文信息学报 2019(09)
    • [28].中英命名实体识别及对齐中的中文分词优化[J]. 电子学报 2015(08)
    • [29].一种基于层叠模型的中文分词系统[J]. 太原师范学院学报(自然科学版) 2013(04)
    • [30].基于膨胀卷积神经网络模型的中文分词方法[J]. 中文信息学报 2019(09)

    标签:;  ;  ;  ;  

    规则与统计相结合的中文分词方法研究
    下载Doc文档

    猜你喜欢