基于统计的中文姓名识别的研究与实现

基于统计的中文姓名识别的研究与实现

论文摘要

本文在对相关工作进行深入分析的基础上,对机械分词算法和基于统计的最大概率算法进行了深入的讨论,着重研究了概率算法,利用刘开瑛提出的“姓氏构成的姓名的阈值”的概念,本文放弃了运用经验值来判别中文姓名,而是将“姓氏的概率估值必需要低于姓氏构成的姓名的阈值”作为准则来判别中文姓名,从而改进了陈小荷给出中文姓名识别的最大概率算法,使之不再局限于处理单姓单字名和单姓双字名,提高了中文姓名识别的精确率和召回率,因而能更好地处理包含大量中文姓名的中文Web 文档,为后续的中文搜索引擎中的索引、排序、查询等奠定了良好的基础。第1 章简单介绍了搜索引擎的发展,叙述了中文自动分词的历史,并描述了本文的结构。第2 章是中文自动分词的概述,重点指出中文自动分词的主要目标和实现的难点。第3 章探讨了中文自动分词的数学理论基础,并介绍了其在计算语言中的应用。第4 章对中文自动分词的基于词典的机械算法和基于统计的概率算法进行了深入探讨,并试图提出了一些改进和新的数据结构的表述与算法实现。第5 章利用刘开瑛提出的“姓氏构成的姓名的阈值”的概念,对陈小荷给出中文姓名识别的最大概率算法进行了改进,提高了中文姓名识别的精确率和召回率,使之能更好地处理包含大量中文姓名的中文Web 文档,为后续的中文搜索引擎中的索引、排序、查询等奠定了良好的基础。第6 章总结了全文,并就未来的进一步的工作进行了展望。

论文目录

  • 第1章 绪论
  • 1.1 搜索引擎简述
  • 1.2 自动分词的发展历史
  • 1.3 本文的主要结构
  • 第2章 自动分词概述
  • 2.1 分词的重要性
  • 2.2 自动分词的主要目标
  • 2.3 自动分词中的主要问题
  • 2.3.1 分词规范中的难点
  • 2.3.2 自动分词算法的困难
  • 第3章 自动分词的数学基础
  • 3.1 概率
  • 3.1.1 概率
  • 3.1.2 条件概率和转移概率
  • 3.1.3 Bayes 公式
  • 3.2 语言统计模型
  • 3.2.1 噪声-信道模型
  • 3.2.2 Markov 过程和N 元语法
  • 3.2.3 隐Markov 模型
  • 3.3 模型参数训练
  • 3.4 互信息
  • 第4章 自动分词算法
  • 4.1 分词规范与词表
  • 4.2 自动分词方法
  • 4.3 最大匹配法
  • 4.4 逆向最大匹配法
  • 4.4.1 交集型歧义切分
  • 4.4.2 组合型歧义切分
  • 4.4.3 逆向扫描
  • 4.5 最少分词法
  • 4.6 最大概率法
  • 4.6.1 自动分词的统计模型
  • 4.6.2 将概率转化为“费用”
  • 4.6.3 示例
  • 4.6.4 求解最佳路径
  • 4.6.5 进一步探讨
  • 第5章 中文姓名识别
  • 5.1 基于规则的识别方法
  • 5.1.1 姓氏用字分类
  • 5.1.2 限制性成分
  • 5.2 基于统计的识别方法
  • 5.3 中文姓名的概率
  • 5.3.1 姓名用字概率的计算
  • 5.3.2 中文姓名识别的阈值
  • 5.3.3 同源对和交错对
  • 5.4 中文姓名识别
  • 5.5 实现
  • 第6章 结论和未来工作
  • 6.1 本文的总结
  • 6.2 进一步的研究工作
  • 参考文献
  • 摘要
  • Abstract
  • 相关论文文献

    • [1].西中文作品[J]. 中国书法 2011(09)
    • [2].《国际中文教育学报》征稿启事[J]. 世界汉语教学 2020(02)
    • [3].2019年国际中文教育大会闭幕[J]. 孔子学院 2020(01)
    • [4].基于文化产业振兴背景的高职院校中文教育研究[J]. 科学咨询(教育科研) 2020(04)
    • [5].紡織月刊[J]. 纺织服装周刊 2018(21)
    • [6].紡織月刊[J]. 纺织服装周刊 2017(44)
    • [7].中文塑造了我的人生[J]. 孔子学院 2018(02)
    • [8].中文版音乐剧的价值和意义[J]. 上海艺术评论 2018(05)
    • [9].基于中英文可比较语料的中文零指代消解[J]. 北京大学学报(自然科学版) 2017(02)
    • [10].增强中文自信 助推中华文化复兴——周善甫的中文观述评[J]. 云南师范大学学报(对外汉语教学与研究版) 2017(02)
    • [11].在邕高校泰国留学生阅读中文书籍现状调查研究与分析[J]. 才智 2017(28)
    • [12].西中文作品欣赏[J]. 美与时代(中) 2014(12)
    • [13].论在外语院系中加强中文课教育的意义[J]. 戏剧之家 2015(10)
    • [14].全家都来学中文[J]. 廉政瞭望(上半月) 2015(10)
    • [15].《高校应用数学学报》第三十卷A辑(中文版)总目次[J]. 高校应用数学学报A辑 2015(04)
    • [16].香港中文大学宾馆[J]. 金山 2019(08)
    • [17].香港中文大學[J]. 英语画刊(高级版) 2019(25)
    • [18].中文、悟性和悟性享受[J]. 基础教育论坛 2013(20)
    • [19].中文教育之痛[J]. 教师博览 2010(04)
    • [20].该死的中文秘书台[J]. 教师博览 2011(02)
    • [21].探析文化产业振兴与高校中文教育改革[J]. 长江丛刊 2018(02)
    • [22].唐中文作品[J]. 文化月刊 2015(35)
    • [23].好惨的中文课[J]. 课外阅读 2016(05)
    • [24].一不留神,我要读中文系的博士了[J]. 大学生 2016(17)
    • [25].重建中文之美[J]. 百花洲 2016(01)
    • [26].学中文的骄傲[J]. 快乐作文 2015(Z3)
    • [27].孙中山(银奖)[J]. 上海集邮 2015(S1)
    • [28].我和中文做朋友[J]. 快乐作文 2014(Z5)
    • [29].推广中文的曲折[J]. 新民周刊 2014(29)
    • [30].香港中文大学深圳开分校或3月招生[J]. 留学 2014(Z1)

    标签:;  ;  ;  

    基于统计的中文姓名识别的研究与实现
    下载Doc文档

    猜你喜欢