论文摘要
中文新词识别是指从未标注文本语料中抽取新词并识别其属性的过程,是中文信息处理领域的一项基础任务,其识别结果直接影响着分词、句法分析的处理性能,同时亦在信息抽取及机器翻译等领域有着广泛应用,具有重要的理论意义和实用价值。汉语具有极强的构词能力,加之词语间没有特定的分隔标记,导致任何两个以上相邻字符都有成词的可能性,这给新词自动识别带来了极大困难;同时海量数据应用需求激增又给新词识别研究带来了新的挑战。为改善新词识别性能,提高实用性,本文以大规模语料为研究对象,应用规则和统计相结合的策略,对新词识别及相关技术进行了研究,主要工作和特点如下:首先,本文设计并初步实现了一个领域无关的新词识别框架FNWI。该框架对新词识别系统的灵活性、可扩展性和可维护性进行了统一规划,FNWI不仅是本文研究展开的总体设计方案,还将为后继工作提供一个良定义的基础结构。为有效处理大规模语料,本文提出一种基于逐层剪枝的重复模式提取算法。该算法通过低频字符剪枝和层次剪枝来减少重复模式提取过程中垃圾字符串的产生,有效地降低I/O读写次数。具有能快速处理规模远大于内存容量的语料、语料读写次数与规模接近线性关系;及使用灵活、可提取特定频率/特定长度的重复模式的特点。为提高候选重复模式的归并速度,本文还提出了一种改进的字符串排序算法,其时间复杂度为O(dn)。在新词检测阶段,为提高检测速度,提出一种高效的左(右)熵计算方法,有效减少了计算时无关字符的影响,显著地提高熵的计算效率;为分析重复模式提取策略(基于字符和基于预先分词)对检测效果的影响,提出一种应用实验数据对比和量化模型分析相结合的评测方法,并给出了一个实用的候选新词遗漏量化分析模型,用以指导新词检测的实施。最后,对新词词性分类,本文提出一种新词词性猜测的形式化模型,并应用条件随机域实现模型求解。通过对模型分析,确定了特征选取的原则和思路。该方法最大特点是以词性内部特征为主,不使用上下文词性,具有更强的实用性。
论文目录
相关论文文献
- [1].对“以”字两种意同词性不同情况的分析[J]. 教书育人 2020(11)
- [2].中西方“围城”中“侥幸”类副词性关联词语比较[J]. 现代语文(语言研究版) 2017(07)
- [3].“词性对从宽”之我见[J]. 对联(民间对联故事)(下半月) 2009(02)
- [4].类型学视域下的“特提”类副词性关联词语比较研究[J]. 江苏科技大学学报(社会科学版) 2017(03)
- [5].英语教学中词性的学习掌握[J]. 新课程导学 2011(04)
- [6].辨析文言副词、连词词性的方法[J]. 考试周刊 2008(33)
- [7].“无须”与“无需”用法有何区别?[J]. 编辑学报 2011(03)
- [8].“无须”与“无需”用法有何区别?[J]. 无锡职业技术学院学报 2011(04)
- [9].英汉副词性关联词语的自主/依存联结探究[J]. 外语与外语教学 2020(03)
- [10].浅析“自己”两种词性的判别——以“老王试图自己解决问题”为例[J]. 安徽文学(下半月) 2014(10)
- [11].“一起”的词性研究[J]. 和田师范专科学校学报 2015(03)
- [12].论副词性独立成分及其语篇功能[J]. 外语与翻译 2015(02)
- [13].模型词性论[J]. 山西大学学报(哲学社会科学版) 2013(02)
- [14].词性对中英文文本聚类的影响研究[J]. 中文信息学报 2013(02)
- [15].浅谈“莫”字词性[J]. 汉字文化 2018(09)
- [16].情感分类中基于词性嵌入的特征权重计算方法[J]. 计算机工程与应用 2017(22)
- [17].重视词性教学,帮助学生提高英语学习能力[J]. 英语画刊(高级版) 2019(19)
- [18].浅析中学英语教学中的词性教学[J]. 校园英语 2015(01)
- [19].谈德语名词词性的学习方法[J]. 考试周刊 2009(37)
- [20].对联中的词性对仗[J]. 人才资源开发 2011(09)
- [21].浅谈“不料”的词性[J]. 广西大学学报(哲学社会科学版) 2008(S2)
- [22].体词性成分充任分句之指称的陈述化研究[J]. 牡丹江教育学院学报 2019(03)
- [23].论「何より」中「より」的词性[J]. 教育教学论坛 2015(31)
- [24].广西崇左新和镇蔗园话中“住”的词性、意义和用法[J]. 现代语文(语言研究版) 2009(08)
- [25].北京话中起辨义作用的儿化词语的词性变化[J]. 汉字文化 2013(03)
- [26].从语法化角度看汉语词性论争问题——以“是”为例[J]. 语文建设 2013(17)
- [27].词性误译及其新价值探究[J]. 黑龙江科技信息 2012(23)
- [28].代词性间接回指的认知阐释[J]. 绵阳师范学院学报 2012(10)
- [29].从词性看“何”和“何だ”的用法及汉译的不同[J]. 日语知识 2008(05)
- [30].英汉量词性隐喻对比初探[J]. 安徽文学(下半月) 2008(05)
标签:中文新词识别论文; 重复模式论文; 逐层剪枝论文; 字符串排序论文; 新词检测论文; 条件随机域论文; 上下文特征论文; 词性猜测论文;