中文姓名自动识别系统的设计与实现

中文姓名自动识别系统的设计与实现

论文摘要

中文命名实体或未登录词识别是中文信息处理的基础研究课题,是文本理解、文本校对、文本主题自动抽取、文本聚类、文本挖掘、文本过滤、信息抽取、机器翻译等多种自然语言处理技术的重要基础。因此,研究中文命名实体识别对提高词法分析、句法分析、语义分析乃至中文信息处理的质量有很重要的意义。本文针对现代汉语文本,主要研究人名的自动识别问题,我们在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏按其在真实文本中成为真姓氏的概率对姓氏进行优先级划分,并重点研究了前300个姓氏作普通单字时其上下文用字规律及姓氏的词性规律,将局部二元统计语言模型作为基本框架,设计并实现了一个中文人名自动识别系统。具体地,本文的主要内容如下:本文首先分析了中文人名识别的困难,并对现有的人名识别方法进行了简单介绍和比较;然后建立了人名样本库、姓氏库、人名语料库等在人名识别前所需的语言学资源,并对这些资源进行统计分析的基础上,建立了各种人名用字表、姓氏概率表、分词词典、人名上下文信息表、姓氏用作普通单字时的上下文信息表、姓氏前缀、后缀表等人名识别过程中所需的数据资源。然后对姓氏按优先级进行分类,并通过3σ法则建立优先级阈值库;利用局部二元统计语言模型对人名识别问题进行建模,并给出各个优先级的姓氏的识别规则。最后,我们设计并实现了一个基于局部二元统计模型的中文人名自动识别系统。实验结果表明,本文提出的人名识别模型能够获得较为满意的结果。对98年1月《人民日报》26日~31日的语料进行的开放测试.在调整阈值参数c的情况下,获得了平均召回率和准确率分别为79.06%、81.16%,部分解决了人名的识别问题。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 中文人名识别的困难
  • 1.4 本文的主要工作
  • 1.5 本文结构
  • 2 国内外研究现状
  • 2.1 词语切分方法概述
  • 2.2 人名识别方法概述
  • 2.2.1 基于规则的方法
  • 2.2.2 基于统计的方法
  • 2.2.3 统计与规则相结合的方法
  • 2.2.4 机器学习的方法
  • 2.2.5 其他方法
  • 2.3 各种方法比较
  • 2.3.1 各种方法使用资源小结
  • 2.3.2 各种方法比较
  • 3 建立中文人名识别资源
  • 3.1 人名样本库
  • 3.1.1 单名用字表
  • 3.1.2 双名用字表
  • 3.1.3 双名首字、末字表
  • 3.1.4 名字用字分析
  • 3.2 姓氏库
  • 3.2.1 姓氏表
  • 3.2.2 姓氏用字分析
  • 3.3 人名语料库
  • 3.3.1 分词词典
  • 3.3.2 姓氏词性分析及其词表
  • 3.3.3 姓氏概率表
  • 3.3.4 人名上下文信息表
  • 3.3.5 姓氏作普通单字词的上下文信息表
  • 3.3.6 姓氏前缀、后缀表
  • 3.3.7 “于”前置词表
  • 4 基于局部二元统计的人名识别模型
  • 4.1 相关定义
  • 4.2 姓氏的优先级
  • 4.3 人名识别模型
  • 4.3.1 统计语言模型概述
  • 4.3.2 局部二元统计模型
  • 4.4 人名识别思想描述
  • 4.4.1 人名识别方法
  • 4.4.2 人名识别过程
  • 4.4.3 阈值计算方法
  • 4.4.4 一些有用的规则
  • 5 系统设计与实现
  • 5.1 系统结构
  • 5.2 系统资源定义
  • 5.2.1 人名用字类
  • 5.2.2 人名用字表类
  • 5.2.3 姓氏用字作普通单字词的上下文类
  • 5.2.4 姓氏上下文链表类
  • 5.2.5 姓氏类
  • 5.2.6 姓氏字典类
  • 5.2.7 人名上下文信息类
  • 5.2.8 人名上下文信息表类
  • 5.2.9 单词类
  • 5.2.10 词典类
  • 5.2.11 阈值类
  • 5.2.12 阈值表类
  • 5.2.13 人名识别资源定义
  • 5.3 识别过程描述
  • 5.3.1 文本中的人名识别过程
  • 5.3.2 当前姓氏人名识别过程
  • 5.4 实验及分析
  • 5.4.1 实验语料
  • 5.4.2 评测指标
  • 5.4.3 实验设计
  • 5.4.4 实验结果
  • 5.4.5 结果分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].印第安人名翻译策略探究——以《印第安律师》中的人名翻译为例[J]. 教育现代化 2019(A2)
    • [2].名人名诗[J]. 文史月刊 2020(06)
    • [3].人名之为史料[J]. 中山大学学报(社会科学版) 2020(05)
    • [4].人名发音与脸型的跨模态映射效应[J]. 心理科学 2020(05)
    • [5].泰国大城王朝时期文学作品中女性人名的构成与内涵探析[J]. 文化创新比较研究 2020(23)
    • [6].中外人名文化比较——以中德人名为例[J]. 海外英语 2019(07)
    • [7].敦煌文书中的数字人名研究[J]. 郑州航空工业管理学院学报(社会科学版) 2019(05)
    • [8].试论跨文化视角下老挝人名的汉语翻译问题[J]. 中国民族博览 2018(02)
    • [9].英汉姓氏人名翻译论述[J]. 武警学院学报 2016(11)
    • [10].中日两国人名文化比较研究[J]. 兰州教育学院学报 2017(01)
    • [11].90后人名用字考察——以中国青年政治学院2010、2011级学生为例[J]. 文化创新比较研究 2017(06)
    • [12].构式语法途径下的英汉人名翻译[J]. 北京科技大学学报(社会科学版) 2015(06)
    • [13].日本人名的时代变迁[J]. 名作欣赏 2014(36)
    • [14].关于日本人名用字变迁的研究[J]. 太原师范学院学报(社会科学版) 2015(03)
    • [15].基于混合方法的中文人名识别研究[J]. 计算机工程与应用 2015(08)
    • [16].创造性叛逆视角下英文人名翻译研究[J]. 成都纺织高等专科学校学报 2015(03)
    • [17].《哈萨克斯坦现代史》人名汉译及模型构建[J]. 知识文库 2020(02)
    • [18].從文化語言學看《世説新語》的人名稱謂[J]. 古籍研究 2019(02)
    • [19].“大本钟”来源于人名[J]. 百科知识 2020(20)
    • [20].漢簡《蒼頡篇》人名校正二則[J]. 出土文献与古文字研究 2019(00)
    • [21].先秦人名识别初探[J]. 文教资料 2009(18)
    • [22].“80后”与“00后”人名对比分析[J]. 语文学刊 2010(02)
    • [23].英汉人名习语的文化内涵刍议[J]. 文教资料 2010(06)
    • [24].音译西语人名姓氏用字谈[J]. 现代语文(语言研究版) 2015(05)
    • [25].针对留学生人名国俗词语对外汉语教学的建议[J]. 语文学刊 2011(05)
    • [26].汉族人名的叠音艺术[J]. 现代语文(语言研究版) 2012(12)
    • [27].文化差异下的英汉人名比较及翻译分析[J]. 明日风尚 2018(08)
    • [28].近出戰國西漢竹書所見人名補論[J]. 出土文献研究 2017(00)
    • [29].生僻人名难住人[J]. 时事(时事报告初中生版) 2017(02)
    • [30].人名的故事[J]. 中学生英语(初中版) 2013(36)

    标签:;  ;  ;  ;  

    中文姓名自动识别系统的设计与实现
    下载Doc文档

    猜你喜欢