汉语复句书读前后语言片段的非分句识别

汉语复句书读前后语言片段的非分句识别

论文摘要

为了满足中文信息处理事业的需要,在字处理和词处理阶段取得了初步成效后。句处理工作已经提上了重要的“议事日程”,因为自然语言理解归根结底还是对语言中一个一个句子的理解。汉语的句子包括单句和复句,其中复句的机器理解又是重难点所在;除了因为复句的机器理解必然要建立在单句理解的基础之上,还有一个重要的原因是复句的机器理解牵涉到分句之间层次和逻辑语义关系的划分。同时,随着计算机软硬件技术的提高,作为对基于规则的理性主义方法的一种补充,基于统计或实例的语料库方法日益得到了计算语言学家们的亲睐。正是在这种背景下,我们尝试建立一个“精加工”的现代汉语复句语料库,以期为复句的计算机理解提供相关语言知识和统计数据。本文只是这项语料库建设工作的一部分,主要目标是在进行语料库中复句语料的分句层次和关系划分以前,首先排除掉那些不参加复句层次和关系划分的书读前后语言片段,即对非分句语言片段进行识别和标注。主要内容如下:第一章首先回顾了前人对单复句纠结问题的研究,分析了单复句纠结的复杂现象,并尝试从认知语言学的“原型”角度看待这一客观事实,用“小句中枢”理论界定非分句(分句)的性质和范围;接着以标点符号为标记让计算机对分句进行了初步识别,排除了其中的一些非分句;最后对计算机不能以标点符号为标记识别的非分句进行了细致的分类描述,有汉语断句的随意性造成的非分句。有由于分句的某个组成成分比较复杂而促成的非分句,还有句子的某些特殊成分单独充当一个语言片段而形成的非分句。第二章首先介绍了词性和非分句的标注说明:接着根据“小句核心词”和“动词中心说”理论,利用标注的词性信息对一部分不包含动词的非分句进行了自动识别,并制定了一系列规则对这部分非分句实现类型的自动标注;最后,本章把一些由形式相对固定的短语充当的语言片段单独放入短语库中,通过制定一系列的短语库规则对它们进行自动识别。第三章利用句法信息实现了一部分非分句的自动识别和标注。首先简单描述了计算机处理自然语言的工作模式;接着讨论了两种类型的“形式标记”及其对识别和标注非分句的作用:一类是显性形式标记,如介词充当的开头标记,时间词、方位词等充当的结尾标记,另一类是结构助词“的”和表判断义的动词“是”;并在此基础上制定了计算机自动识别和标注非分句的另外一系列规则,添加到规则库中。第四章是基于前两章所编规则的实验及其结果分析。首先建立一个access数据库,把规则中出现的开头标记和结尾标记逐一录入到这个库中。在判断某个语言片段是否为非分句时采用简单的字符串匹配法,把每个语言片段的开头部分或结尾部分跟数据库里录入的开头标记或结尾标记进行匹配。匹配成功的就是非分句。接着通过人工方式逐条检验了规则的识别或标注正确率,并简要分析了产生错误的原因及今后的改进策略。要特别说明的是,第二章和第三章的规则都是在训练集中制定的,因此我们还要在训练集中统计这些规则的贡献率,然后把这些规则推广应用到整个复句语料库看正确率如何,同时不断改进和完善规则。第五章尝试综合利用句法、语义和搭配知识来识别一部分非分句,这方面的工作目前尚处于试验阶段。本章首先论述了语义知识在自然语言计算机理解中的重要性,接着介绍了国内外面向计算机研究语义的概况,并给出了本文所运用的语义理论。然后针对本项研究的具体情况阐述了工作前提,包括研究语料的选取和限定、解决问题的思路等。接下来就围绕语义角色、语义类别和语义特征等三要素,试着为108个动词的127个义项建立起动宾语义搭配框架,并提出了判断动词后面两个名词之间有无偏正关系的十八条形式标准,还运用所建立的搭配框架分析了几个子语料库2中的实例,提出了建立“动宾搭配频率表”的设想。末尾对全章内容有个小结。第六章根据邢福义先生的有关论著从理论上制定了一系列识别名词充当核心词的分句即名词谓语句的规则,尽管训练语料库中的实际用例甚少。这部分规则并没有来得及在程序上实现,也未曾针对实际语料进行过人工检验。

论文目录

  • 内容提要
  • Abstract
  • 绪论
  • 0.1 研究背景
  • 0.2 选题的意义
  • 0.3 本文的理论背景
  • 0.4 运用的研究方法
  • 0.5 论文的组织结构
  • 第一章 非分句的性质和范围
  • 1.1 单复句的纠结和非分句的界定
  • 1.1.1 前人对单复句划界问题的研究
  • 1.1.2 单复句的纠结
  • 1.1.3 用“小句中枢”理论界定非分句的范围
  • 1.2 以标点符号为分句识别标记
  • 1.2.1 标点符号的作用
  • 1.2.2 逗号设下的“陷阱”
  • 1.2.3 初始程序的修改
  • 1.3 非分句分类分析
  • 1.4 小结
  • 第二章 基于词性信息的自动识别和标注
  • 2.1 标注说明
  • 2.1.1 词性标注说明
  • 2.1.2 短语标注说明
  • 2.2 不含动词语言片段的识别和标注
  • 2.3 利用短语库进行识别和标注
  • 2.4 小结
  • 第三章 基于句法信息的自动识别和标注
  • 3.1 计算机语言处理的工作模式
  • 3.2 句法信息的作用
  • 3.3 利用“形式标记”进行非分句识别
  • 3.3.1 显性句法标记
  • 3.3.2 识别和标注规则
  • 3.3.3 结构助词“的”
  • 3.3.4 关于“是”
  • 3.4 小结
  • 第四章 实验及结果
  • 4.1 程序的设计
  • 4.2 实验结果分析
  • 第五章 基于语义和搭配知识的自动识别
  • 5.1 语义知识对自然语言计算机理解的重要性
  • 5.2 国内外面向计算机的语义研究概况
  • 5.3 本章研究运用的语义理论
  • 5.4 阐述工作前提
  • 5.4.1 研究语料的选取和限定
  • 5.4.2 解决问题的思路
  • 5.5 动宾语义搭配框架
  • 5.5.1 框架描述要素
  • 5.5.2 动宾语义搭配框架描述
  • 1(的)N2”考察'>5.5.3 “N1(的)N2”考察
  • 5.5.4 实例分析
  • 5.5.5 建立“动宾搭配频率表”的思路
  • 5.6 小结
  • 第六章 名词充当核心词的分句
  • 6.1 “数量名”结构形成的分句
  • 6.2 “指代形(的)名”结构充当分句
  • 6.3 “形名,形名”或“数量名,数量名”结构充当分句
  • 6.4 “程度形(的)名”结构充当分句
  • 6.5 “(好)数量形(的)名”结构充当分句
  • 6.6 “NP了”分句
  • 6.7 小结
  • 结语
  • 7.1 总结本文的工作
  • 7.1.1 我们的成绩
  • 7.1.2 困难与不足
  • 7.2 今后的研究计划
  • 附录一:词性代码表
  • 附录二:规则集
  • 附录三:子语料库1中的部分语料
  • 附录四:子语料库2中的部分语料
  • 参考文献
  • 后记
  • 相关论文文献

    • [1].面向多片段答案的抽取式阅读理解模型[J]. 计算机学报 2020(05)
    • [2].夏日片段[J]. 金融博览 2020(07)
    • [3].片段教学对教师教学能力提升的价值及其实施策略[J]. 教育现代化 2020(48)
    • [4].《相关的一些片段》[J]. 世界美术 2018(04)
    • [5].新课程背景下片段教学要注意的几个问题[J]. 思想政治课教学 2012(10)
    • [6].音乐剧经典表演剧目片段在教学与创作中的运用研究[J]. 艺术科技 2017(09)
    • [7].《迷失的城市片段》[J]. 装饰 2016(03)
    • [8].《墨·片段系列》[J]. 美苑 2015(S1)
    • [9].记忆片段[J]. 艺术评论 2015(11)
    • [10].论据可以变得如此美丽——中考佳作十大议论片段[J]. 现代中学生(初中版) 2019(08)
    • [11].好消息[J]. 学苑创造(3-6年级阅读) 2020(Z1)
    • [12].关于“片段教学”的思考——以《秋声赋》(必修四)为例[J]. 语文教学与研究 2018(23)
    • [13].工厂片段[J]. 中国诗歌 2018(06)
    • [14].用插画“入侵”世界[J]. 意林(少年版) 2019(14)
    • [15].论教研新形式——片段教学[J]. 福建基础教育研究 2012(08)
    • [16].精彩新授课引入片段赏析[J]. 物理教学 2008(01)
    • [17].小学数学“片段教学”的探究与思考[J]. 辽宁教育 2011(12)
    • [18].对片段教学的探究与思考[J]. 教书育人 2011(35)
    • [19].“片段教学”的认识及感悟[J]. 福建基础教育研究 2012(06)
    • [20].片段教学之我见[J]. 课程教育研究 2013(14)
    • [21].片段教学作为研训载体的研究和实践[J]. 中国教师 2013(S2)
    • [22].教育应当谱写动人的诗篇[J]. 少年儿童研究 2012(05)
    • [23].好消息[J]. 学苑创造(3-6年级阅读) 2018(Z2)
    • [24]."生活漫忆"征文启事[J]. 老同志之友 2017(17)
    • [25].一个新的开始[J]. 中文自修 2015(Z2)
    • [26].精彩片段[J]. 快乐语文 2016(17)
    • [27].三招教你写好表现人物特点的片段[J]. 小星星(作文100分) 2014(12)
    • [28].片段[J]. 诗潮 2015(08)
    • [29].征稿启事[J]. 新作文(小学1-2-3年级版) 2014(09)
    • [30].变奏:片段[J]. 诗潮 2014(11)

    标签:;  ;  ;  ;  ;  ;  ;  

    汉语复句书读前后语言片段的非分句识别
    下载Doc文档

    猜你喜欢