基于CRF的中文地名识别研究

基于CRF的中文地名识别研究

论文摘要

命名实体识别是机器翻译、信息检索、问答系统等的技术基础。中文地名识别是中文命名实体识别的一个难点。本文主要对中文地名识别进行研究,实现了条件随机域(Conditional Random Fields, CRF)与支持向量机(Support Vector Machine, SVM)相结合中文地名识别系统,并重点对条件随机域与规则相结合的中文地名识别进行了研究。在目前常用的机器学习模型中,CRF模型结合了隐马尔科夫模型和最大熵模型优点,是比较优秀的机器学习模型之一,它可以利用上下文特征获得全局最优的标注结果,适合中文地名识别任务。本文在前人命名实体识别研究的基础上,结合分析中文地名的特点选取了合适的特征,采用递增式学习的策略选择特征模板,优化了机器模型的性能,提高了条件随机场模型的地名识别效果。对CRF的识别结果的边缘概率进行分析后发现,CRF模型中给出的错误标记与较小的边缘概率有一定的对应关系,用边缘概率可以定位到CRF模型识别结果中的部分错误标记。SVM的识别结果与CRF识别结果有一定的互补性,将SVM识别结果对CRF较小的边缘概·率的标记进行修正,以提高系统的召回率。实验证明,这种混合模型的识别效果优于单纯的CRF。CRF的错误标注结果中有许多标注与语法规则和语义规则明显不符,这是由于机器模型不能表达语言确定性造成的。规则的方法正好可以弥补机器模型的这一不足。本文通过分析词法和语义结构,对CRF的错误识别结果进行归类,人工添加规则修正CRF识别结果,取得较好的识别结果。实验证明,本文采用的方法是有效的,对BAKEOFF-3 NER任务的MSRA语料进行开放测试,条件随机域与支持向量机相结合的地名识别系统的召回率、精确率和F-值分别为92.39%、91.33%、91.86%,条件随机域与规则相结合的中文地名识别系统的召回率、精确率和F-值分别为94.67%、92.35%和93.50%。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究的背景及意义
  • 1.2 中文地名识别
  • 1.2.1 中文地名识别的作用
  • 1.2.2 中文地名识别的特点
  • 1.3 系统评测和技术水平
  • 1.4 命名实体识别的方法
  • 1.4.1 基于规则的方法
  • 1.4.2 基于统计的方法
  • 1.4.3 规则和统计相结合的方法
  • 1.4.4 存在的问题
  • 1.5 本文的工作
  • 2 统计机器学习模型
  • 2.1 隐马尔可夫模型(HMM)
  • 2.2 最大熵模型(ME)
  • 2.3 条件随机场模型(CRF)
  • 2.4 支持向量机模型(SVM)
  • 3 基于CRF的地名识别
  • 3.1 BIO分类标记
  • 3.2 地名特征
  • 3.3 建立训练集和测试集
  • 3.4 特征模板
  • 3.4.1 特征模板的类型
  • 3.4.2 特征模板项的类型
  • 3.4.3 特征模板的选取
  • 3.5 基于CRF的中文地名识别
  • 3.5.1 基于CRF模型对训练集进行训练
  • 3.5.2 使用模型进行测试
  • 4 基于CRF与SVM的地名识别
  • 4.1 基于SVM的地名识别
  • 4.2 CRF与SVM相结合的地名识别
  • 5 CRF与规则相结合的地名识别
  • 5.1 建立规则资源库
  • 5.1.1 地名的外部规则资源
  • 5.1.2 地名内部规则资源
  • 5.2 规则库的建立
  • 5.2.1 获取前后词搭配规则
  • 5.2.2 修正规则
  • 5.3 CRF与规则相结合的地名识别
  • 6 实验结果
  • 6.1 特征模板的选择
  • 6.1.1 构建候选特征模板项集
  • 6.1.2 筛选特征模板项
  • 6.2 CRF与SVM相结合的地名识别
  • 6.3 CRF与规则相结合的地名识别
  • 6.4 几种地名识别方法比较
  • 6.5 与其它文献比较
  • 6.5.1 单纯CRF的地名识别结果比较
  • 6.5.2 基于规则修正后的结果比较
  • 6.6 结果分析
  • 6.6.1 正确识别结果分析
  • 6.6.2 错误识别结果分析
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].地名问题[J]. 中国行政管理 2019(11)
    • [2].杭州市:加快“智慧地名”建设 助力移动办事之城[J]. 中国地名 2019(11)
    • [3].用法律终结改地名乱象[J]. 中国地名 2019(11)
    • [4].《液压与气动》特殊地名规范用法[J]. 液压与气动 2020(03)
    • [5].基于空间聚类的石城县客家地名景观分布特征研究[J]. 西北师范大学学报(自然科学版) 2020(01)
    • [6].地名读音“名从主人”的思考[J]. 中国地名 2020(01)
    • [7].广东古越语濒危地名的调查研究[J]. 中国地名 2020(01)
    • [8].依法而为 让地名变更不再“任性”[J]. 中国地名 2020(01)
    • [9].从解读地名热看坚定文化自信[J]. 中国地名 2020(01)
    • [10].海外粤侨人名地名与“一带一路”建设[J]. 广州社会主义学院学报 2020(01)
    • [11].多样性城市事件视域下的城市老地名与城市记忆的保护——以长沙老地名为例[J]. 湖南理工学院学报(自然科学版) 2020(01)
    • [12].基于业务联动的地名地址数据协同更新方法[J]. 城市勘测 2020(01)
    • [13].社会语言学视角下内蒙古五原县地名研究[J]. 中国地名 2020(04)
    • [14].故事里的地名[J]. 当代兵团 2020(08)
    • [15].广西第二次全国地名普查档案收集整理存在的问题及原因[J]. 办公室业务 2020(11)
    • [16].基于照片的地名地址采集与更新方法[J]. 城市勘测 2020(03)
    • [17].谈谈“不以外国人名、地名命名我国地名”——兼及地名的命名和管理[J]. 中国民政 2020(10)
    • [18].“十方世”是佛教语,不是地名[J]. 文史杂志 2020(04)
    • [19].浙江海岛地名文化溯源[J]. 今日科技 2020(08)
    • [20].关于地名普查地理信息采集与数据质量控制的研究[J]. 中国住宅设施 2020(08)
    • [21].地名的天文学记趣[J]. 中国地名 2020(08)
    • [22].俄汉方位地名之比较[J]. 河北北方学院学报(社会科学版) 2020(03)
    • [23].先秦“异地同名”现象与地名流动的初步考察[J]. 史学月刊 2020(10)
    • [24].地名何以成为“话题王”[J]. 中国地名 2020(09)
    • [25].地貌视角的诸暨乡村地名空间分布研究[J]. 测绘科学 2020(11)
    • [26].南京含有“马”字的地名[J]. 中国地名 2019(05)
    • [27].六部门联合整治不规范地名[J]. 中国地名 2019(06)
    • [28].洋地名、怪地名该咋“整”[J]. 中国地名 2019(07)
    • [29].地名治理也要防止权力任性[J]. 领导决策信息 2019(24)
    • [30].论地名的方与圆[J]. 长沙民政职业技术学院学报 2019(03)

    标签:;  ;  ;  ;  

    基于CRF的中文地名识别研究
    下载Doc文档

    猜你喜欢