现代汉语末登录派生词分析及识别研究

现代汉语末登录派生词分析及识别研究

论文摘要

在中文信息处理领域,对于汉语分析最基本的一项任务就是自动分词,在自动分词阶段主要面临两方面的问题:未登录词的识别,歧义字段的切分。其中,未登录词识别是影响分词正确性的重要因素之一,是自动分词的一大难题。近年来,国内许多学者对未登录词识别中命名实体的识别研究的较多,而且已经取得了较好的成果,但是对派生词的识别缺乏广泛的研究,常是以个案研究居多,一定范围内的穷尽式研究较少,而且没有对派生构词模式做系统的分析,忽略了词语本身的内部结构特点。鉴于实验文本的有限性和研究对象的特点,本课题所研究的派生构词模式是指词干和词缀组合而成的词,并且以未登录词和派生词的定义为基础,从信息处理角度出发,将未登录派生词界定为词干部分出现在词表中,词缀出现在词缀表中,但是词干加词缀组合而成的词没有出现在词表中的派生词。本文在原有的对词缀界定的理论研究的基础上,加入计算语言学研究中的重要手段——基于语料库的量化分析研究方法,给出了面向中文信息处理的词缀界定标准,制定了信息处理用词缀表。以词缀的界定标准为依据,对信息处理词缀表中每个词缀进行分类研究,考察各种派生构词模式中的语法和语义特点,量化分析语料库中已登录派生词的构词模式。在进行未登录派生构词模式研究的时候,根据词缀语法意义的不同将词缀进行分类,依据语料库中未登录派生词的分布特点,重点分析“们”式未登录派生词和“者”式未登录派生词的构词模式及其特点,并且穷尽式的列举了语料库中其他未登录派生词的构词模式。在研究语料库中未登录派生词识别问题时,根据词缀派生构词能力的不同进行了两组平行实验,分别设计特征模板,借助条件随机场模型进行识别实验,通过实验结果验证实验方案的可行性。最后,对本文的工作进行总结和展望,概述论文工作的主要内容,并提出下一步工作的设想。

论文目录

  • 中文摘要
  • Abstract
  • 目录
  • 图标清单
  • 第一章 绪论
  • 1.1 课题的提出
  • 1.2 本课题的研究意义
  • 1.2.1 理论意义
  • 1.2.2 应用价值
  • 1.3 派生词本体研究和识别研究综述
  • 1.3.1 构词法和派生词的语言学本体研究概况
  • 1.3.2 派生词识别研究综述
  • 1.4 本课题的研究内容
  • 1.5 研究方法及研究手段
  • 1.5.1 基于语料库的量化分析研究
  • 1.5.2 统计和规则相结合的研究方法
  • 第二章 语料库中词缀派生构词模式分析
  • 2.1 语料库建设工作
  • 2.2 面向中文信息处理的词缀界定
  • 2.2.1 词缀界定标准
  • 2.2.2 中文信息处理词缀表
  • 2.3 语料库中前缀派生构词模式分析
  • 2.3.1 阿
  • 2.3.2 超
  • 2.3.3 老
  • 2.3.4 小
  • 2.3.5 准
  • 2.4 语料库中后缀派生构词模式分析
  • 2.4.1 儿
  • 2.4.2 化
  • 2.4.3 家
  • 2.4.4 界
  • 2.4.5 们
  • 2.4.6 然
  • 2.4.7 手
  • 2.4.8 头
  • 2.4.9 性
  • 2.4.10 长
  • 2.4.11 者
  • 2.4.12 子
  • 2.5 本章总结
  • 第三章 语料库中未登录派生构词模式分析
  • 3.1 词缀的语法意义分类
  • 3.2 未登录派生词构词模式分析
  • 3.2.1 表征词性为名词,词义类化表示某一类人
  • 3.2.2 表征词性为名词,词义一般与原词干意义相同
  • 3.2.3 表征词性为名词或动词,词义类化表示与某种性质相关
  • 3.2.4 在一定程度上表征词性,词义具有部分类化的现象
  • 3.3 本章总结
  • 第四章 语料库中未登录派生词识别实验
  • 4.1 未登录派生词识别方式分类
  • 4.2 未登录派生词识别实验流程
  • 4.3 条件随机场模型
  • 4.3.1 条件随机场模型概述
  • 4.3.2 特征选择和模板构造
  • 4.4 实验预处理
  • 4.4.1 实验一预处理
  • 4.4.2 实验二预处理
  • 4.5 实验结果评测项目及指标
  • 4.6 基于条件随机场模型的未登录派生词识别
  • 4.6.1 第一类未登录派生词识别实验结果及分析
  • 4.6.2 第二类未登录派生词识别实验结果及分析
  • 4.7 本章总结
  • 第五章 总结与展望
  • 5.1 全文总结
  • 5.2 未来工作
  • 附录A “前接成分”和“后接成份”分布统计表
  • 附录B 语料库中“们”式未登录派生词及词频统计
  • 附录B.1 词干长度为1 的“们”式未登录派生词及词频统计
  • 附录B.2 词干长度为2 的“们”式未登录派生词及词频统计
  • 附录B.3 词干长度为3 的“们”式未登录派生词及词频统计
  • 附录B.4 词干长度为4 的“们”式未登录派生词及词频统计
  • 附录B.5 词干长度为5 -7的“们”式未登录派生词及词频统计
  • 附录C 语料库中“者”式未登录派生词及词频统计
  • 附录C.1 词干长度为1 的“者”式未登录派生词及词频统计
  • 附录C.2 词干长度为2 的“者”式未登录派生词及词频统计
  • 附录C.3 词干长度为3 的“者”式未登录派生词及词频统计
  • 附录C.4 词干长度为4 的“者”式未登录派生词及词频统计
  • 附录C.5 词干长度为5 的“者”式未登录派生词及词频统计
  • 附录C.6 词干长度为6 的“者”式未登录派生词及词频统计
  • 附录C.7 词干长度大于6的“者”式未登录派生词及词频统计
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].现代俄语构词机制变异解析[J]. 牡丹江教育学院学报 2009(01)
    • [2].浅谈一种构词模式[J]. 吉林教育 2010(16)
    • [3].用具复合词的构词模式[J]. 语言学论丛 2017(02)
    • [4].当代俄语中的英俄复合词构词模式及俄化方式浅析[J]. 中国俄语教学 2012(02)
    • [5].“炊束”“扫树”“笤帚[·fu]”后字考[J]. 励耘语言学刊 2018(02)
    • [6].俄语构词模式浅析[J]. 世纪桥 2008(06)
    • [7].现代汉语新词的特点及构词方式研究[J]. 辽宁广播电视大学学报 2015(02)
    • [8].新词语“X客”[J]. 现代语文(语言研究版) 2008(03)
    • [9].哈尔滨地区的中俄混合语及其构词模式[J]. 语文学刊 2011(09)
    • [10].“暴”、“曬”以及“晒”的流行语义[J]. 修辞学习 2009(01)
    • [11].汉德派生法的对比[J]. 语文学刊(外语教育教学) 2015(09)
    • [12].现代俄语构词新趋势[J]. 黑龙江科学 2014(12)
    • [13].现代汉语新词特征探析[J]. 现代语文(语言研究版) 2009(07)
    • [14].一种特殊结构的动物复合名词[J]. 河北大学学报(哲学社会科学版) 2012(03)
    • [15].基于构词模式的未登录描述词自动识别的研究[J]. 计算机光盘软件与应用 2014(01)
    • [16].英汉词义的精确性对比及其原因分析[J]. 金华职业技术学院学报 2012(05)
    • [17].中俄网络俚语构词共性分析[J]. 青年文学家 2019(33)
    • [18].修辞的转类与语法的转类[J]. 当代修辞学 2011(01)
    • [19].俄源汉语外来词的构词模式和特点——以《汉语外来词词典》405个俄源汉语外来词为例[J]. 沧州师范学院学报 2018(04)
    • [20].谈“洗具”构词及网络语发展[J]. 科教导刊(中旬刊) 2011(05)
    • [21].针对特定领域的新词发现和新技术发现[J]. 现代图书情报技术 2008(02)
    • [22].“晒X”词族探析[J]. 楚雄师范学院学报 2010(06)
    • [23].当代新词“晒X”词族再认识[J]. 玉溪师范学院学报 2010(05)
    • [24].浅析现代汉语发展过程中的新词现象[J]. 太原大学教育学院学报 2015(01)

    标签:;  ;  ;  ;  

    现代汉语末登录派生词分析及识别研究
    下载Doc文档

    猜你喜欢