基于大规模语料的中文新词识别技术研究

基于大规模语料的中文新词识别技术研究

论文摘要

中文新词识别是指从未标注文本语料中抽取新词并识别其属性的过程,是中文信息处理领域的一项基础任务,其识别结果直接影响着分词、句法分析的处理性能,同时亦在信息抽取及机器翻译等领域有着广泛应用,具有重要的理论意义和实用价值。汉语具有极强的构词能力,加之词语间没有特定的分隔标记,导致任何两个以上相邻字符都有成词的可能性,这给新词自动识别带来了极大困难;同时海量数据应用需求激增又给新词识别研究带来了新的挑战。为改善新词识别性能,提高实用性,本文以大规模语料为研究对象,应用规则和统计相结合的策略,对新词识别及相关技术进行了研究,主要工作和特点如下:首先,本文设计并初步实现了一个领域无关的新词识别框架FNWI。该框架对新词识别系统的灵活性、可扩展性和可维护性进行了统一规划,FNWI不仅是本文研究展开的总体设计方案,还将为后继工作提供一个良定义的基础结构。为有效处理大规模语料,本文提出一种基于逐层剪枝的重复模式提取算法。该算法通过低频字符剪枝和层次剪枝来减少重复模式提取过程中垃圾字符串的产生,有效地降低I/O读写次数。具有能快速处理规模远大于内存容量的语料、语料读写次数与规模接近线性关系;及使用灵活、可提取特定频率/特定长度的重复模式的特点。为提高候选重复模式的归并速度,本文还提出了一种改进的字符串排序算法,其时间复杂度为O(dn)。在新词检测阶段,为提高检测速度,提出一种高效的左(右)熵计算方法,有效减少了计算时无关字符的影响,显著地提高熵的计算效率;为分析重复模式提取策略(基于字符和基于预先分词)对检测效果的影响,提出一种应用实验数据对比和量化模型分析相结合的评测方法,并给出了一个实用的候选新词遗漏量化分析模型,用以指导新词检测的实施。最后,对新词词性分类,本文提出一种新词词性猜测的形式化模型,并应用条件随机域实现模型求解。通过对模型分析,确定了特征选取的原则和思路。该方法最大特点是以词性内部特征为主,不使用上下文词性,具有更强的实用性。

论文目录

  • 摘要
  • Abstract
  • 图目录
  • 表目录
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 研究意义
  • 1.3 中文新词识别研究现状
  • 1.4 研究目标和研究内容
  • 1.5 论文组织安排
  • 第2章 新词识别技术
  • 2.1 引言
  • 2.2 候选新词的提取和过滤
  • 2.3 新词的词性猜测
  • 2.4 新词识别技术研究状态
  • 2.5 本文设计思想
  • 2.6 论文总体设计
  • 2.7 本章小结
  • 第3章 基于大规模语料的新词识别框架FNWI
  • 3.1 引言
  • 3.2 FNWI 的设计目标
  • 3.3 新词识别框架的具体描述
  • 3.3.1 统一建模语言UML
  • 3.3.2 领域无关的新词识别框架结构
  • 3.3.3 FNWI 框架中组件的重用
  • 3.3.4 FNWI 框架的扩展
  • 3.4 相关研究比较
  • 3.5 本章小结
  • 第4章 基于逐层剪枝的重复模式快速提取方法
  • 4.1 引言
  • 4.2 常用重复模式提取算法
  • 4.2.1 重复模式提取的形式化描述
  • 4.2.2 基于递增N-gram 模型的重复模式提取算法
  • 4.2.3 基于Sequitur 算法的重复模式提取方法
  • 4.2.4 基于后缀索引的重复模式提取算法
  • 4.3 大规模语料分割算法
  • 4.4 一种基于逐层剪枝的重复模式提取方法
  • 4.4.1 基于低频剪枝字符的低频模式过滤算法
  • 4.4.2 基于级联剪枝的低频模式过滤算法
  • 4.4.3 语料划分和重复模式归并
  • 4.4.4 算法描述
  • 4.4.5 复杂度分析
  • 4.5 一种改进的字符串快速排序算法
  • 4.5.1 基数排序算法描述
  • 4.5.2 改进的中文字符串排序算法
  • 4.5.3 改进排序算法性能评价
  • 4.6 实验及分析
  • 4.7 相关研究比较
  • 4.8 本章小结
  • 第5章 基于条件随机域的新词检测方法
  • 5.1 引言
  • 5.2 常用新词检测方法
  • 5.2.1 基于规则方法
  • 5.2.2 基于统计学习方法
  • 5.2.3 小结
  • 5.3 基于统计学习模型的新词检测框架
  • 5.3.1 条件随机域模型
  • 5.3.2 条件随机域模型的训练和解码
  • 5.3.3 条件随机域模型特点
  • 5.4 新词检测特征选取
  • 5.4.1 新词的语言知识特征
  • 5.4.2 新词的统计特征
  • 5.4.3 一种高效的外部统计特征计算方法
  • 5.5 重复模式提取策略
  • 5.5.1 对比实验数据
  • 5.5.2 一种实用的候选新词遗漏量化模型
  • 5.5.3 策略使用原则
  • 5.6 实验和分析
  • 5.6.1 实验条件
  • 5.6.2 实验数据分析
  • 5.7 相关研究比较
  • 5.8 本章小结
  • 第6章 基于组合特征的新词分类方法
  • 6.1 引言
  • 6.2 新词词性分类技术
  • 6.2.1 词语词性标注方法
  • 6.2.2 新词词性猜测的困难和当前研究的不足
  • 6.3 新词词性猜测的形式化模型
  • 6.3.1 新词词性猜测的形式化描述
  • 6.3.2 词性猜测问题统计模型的选择
  • 6.3.3 新词词性猜测的特征选取
  • 6.4 汉字偏旁作为词性猜测内部特征
  • 6.4.1 汉字及其偏旁的表意功能
  • 6.4.2 偏旁作为词性猜测内部特征
  • 6.5 实验和分析
  • 6.5.1 实验条件
  • 6.5.2 实验数据分析
  • 6.5.3 分析结论
  • 6.6 相关研究比较
  • 6.7 本章小结
  • 第7章 结论
  • 7.1 全文总结
  • 7.2 后续研究工作
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文与取得的其他研究成果
  • 相关论文文献

    • [1].对“以”字两种意同词性不同情况的分析[J]. 教书育人 2020(11)
    • [2].中西方“围城”中“侥幸”类副词性关联词语比较[J]. 现代语文(语言研究版) 2017(07)
    • [3].“词性对从宽”之我见[J]. 对联(民间对联故事)(下半月) 2009(02)
    • [4].类型学视域下的“特提”类副词性关联词语比较研究[J]. 江苏科技大学学报(社会科学版) 2017(03)
    • [5].英语教学中词性的学习掌握[J]. 新课程导学 2011(04)
    • [6].辨析文言副词、连词词性的方法[J]. 考试周刊 2008(33)
    • [7].“无须”与“无需”用法有何区别?[J]. 编辑学报 2011(03)
    • [8].“无须”与“无需”用法有何区别?[J]. 无锡职业技术学院学报 2011(04)
    • [9].英汉副词性关联词语的自主/依存联结探究[J]. 外语与外语教学 2020(03)
    • [10].浅析“自己”两种词性的判别——以“老王试图自己解决问题”为例[J]. 安徽文学(下半月) 2014(10)
    • [11].“一起”的词性研究[J]. 和田师范专科学校学报 2015(03)
    • [12].论副词性独立成分及其语篇功能[J]. 外语与翻译 2015(02)
    • [13].模型词性论[J]. 山西大学学报(哲学社会科学版) 2013(02)
    • [14].词性对中英文文本聚类的影响研究[J]. 中文信息学报 2013(02)
    • [15].浅谈“莫”字词性[J]. 汉字文化 2018(09)
    • [16].情感分类中基于词性嵌入的特征权重计算方法[J]. 计算机工程与应用 2017(22)
    • [17].重视词性教学,帮助学生提高英语学习能力[J]. 英语画刊(高级版) 2019(19)
    • [18].浅析中学英语教学中的词性教学[J]. 校园英语 2015(01)
    • [19].谈德语名词词性的学习方法[J]. 考试周刊 2009(37)
    • [20].对联中的词性对仗[J]. 人才资源开发 2011(09)
    • [21].浅谈“不料”的词性[J]. 广西大学学报(哲学社会科学版) 2008(S2)
    • [22].体词性成分充任分句之指称的陈述化研究[J]. 牡丹江教育学院学报 2019(03)
    • [23].论「何より」中「より」的词性[J]. 教育教学论坛 2015(31)
    • [24].广西崇左新和镇蔗园话中“住”的词性、意义和用法[J]. 现代语文(语言研究版) 2009(08)
    • [25].北京话中起辨义作用的儿化词语的词性变化[J]. 汉字文化 2013(03)
    • [26].从语法化角度看汉语词性论争问题——以“是”为例[J]. 语文建设 2013(17)
    • [27].词性误译及其新价值探究[J]. 黑龙江科技信息 2012(23)
    • [28].代词性间接回指的认知阐释[J]. 绵阳师范学院学报 2012(10)
    • [29].从词性看“何”和“何だ”的用法及汉译的不同[J]. 日语知识 2008(05)
    • [30].英汉量词性隐喻对比初探[J]. 安徽文学(下半月) 2008(05)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于大规模语料的中文新词识别技术研究
    下载Doc文档

    猜你喜欢