论文题目: 基于动态流通语料库(DCC)的汉语熟语单位研究
论文类型: 博士论文
论文专业: 语言学及应用语言学
作者: 杨建国
导师: 张普
关键词: 熟语单位,动态流通语料库,熟语,流通度,固定短语
文献来源: 北京语言大学
发表年度: 2005
论文摘要: 本文基于汉语词典学界和中文信息处理界重“词”轻“语”的现象,对词组研究、熟语研究进行了反思,提出“熟语单位”(Idiom Unit,IU)的概念。所谓“熟语单位”,就是“结合紧密,使用稳定”,功能相当于熟语的结构单位,是符合人的认知规律并被人们经常当作一个词来使用的定型化了的固定短语或凝固表达式。我们判别IU的三条原则为:是否“结合紧密,使用稳定”;是否符合人们的认知规律(IU的长度一般为7±2);流通度要达到一定的阈值。IU理论上包括一切具有熟语性的词语组合单位。本文讨论的IU范围包括三字格中的惯用语和“差不多、靠不住、来不及”这样介于词和短语之间的结构串;四字格中的成语和新固定短语;简称略语、插入语和字母词语等。 本研究选用的是《人民日报》2001—2003三年的文本,约8000万字。文章以动态语言知识更新理论为指导,以流通度理论为基础,以年平均流通度阈值(0.5)作为主要筛选依据,运用规则和统计相结合的方法对“熟语单位”(IU)进行了初步的提取研究;并对部分提取结果的噪声环境做了定量与定性分析。 对于IU的提取,我们采取的策略和基本步骤是: 1、利用点号和“的、是、在、和、了、有”等高频词(字)将文本化短;自动提取时牺牲包含切分点的字符串,该部分字符串另行补救。 2、数据格式转换。将切分得到的形式上“完整”的2—8字串转为数据库格式。 3、统计3—5字串的频度、散布度和流通度。 4、用字符串全年的平均流通度阈值进行筛选。 5、对5音节(含)以上字串进行分词并词性标注,对其中的3字串、4字串和符合“N+N”、“N+V”、“V+N”、“V+V”等语法组合规则的相邻字符串(二元组)进行抽取;再对抽取的字符串重复上面的第3和第4步。 6、对筛选得到的字符串进行噪声剔除,全部进行重新切分并词性标注,然后运用静态规则模板(共30条规则)再次过滤。 7、借助辅助手段对熟语单位进行直接抽取。 8、得到3—5字格熟语单位表(约13,500条)。 本文还对提取出来的2001年的5,500个三字格、2002年的6,500个四字格做了简单的分类和例示性的分析说明。重点考察了具有熟语性的短语。三字格中我们重点探讨了音节为“1+2”式、结构为“V+N/NP”式和音节为“2+1”式、结构为“V/VP+N”式两类,验证了冯胜利有关三音节组合的论断:音节为“1+2”式的是短语,音节为“2+1”式的是韵律词。 四字格中我们重点探讨了“N+V”式和“V+N”式。N和V之间存在复杂的语法、语义以及音节制约关系。关于“N+V”式,通过考察,我们发现:定中关系的“N+V”式四字格熟语性最强,数量也最多:状中关系次之,主谓关系的四字格熟语性最弱,且N与V之间存在离散性。关于“V+N”式,我们发现:第一,“V+N”式四字格如果表示通名,它往往是或者容易成为一个NP习惯性搭配。第二,“V+N”式四字格中的N如果是比较抽象的双音节名词,则这类四字格构成的NP其熟语性相对较强。第三,“V+N”式四字格中的V如果是双音节述宾式动词,那么这种“双音节述宾式动词+宾语”形成的NP熟语性很强。 本文还从应用的角度对流行语、字母词语和插入语进行了考察研究。对流行语的科学评定和字母词语的规范发表了意见。
论文目录:
摘要
Abstract
第一章 引论
1.1 本研究提出的背景
1.1.1 词组(短语)研究的历史和现状
1.1.2 熟语研究的历史和现状
1.1.3 熟语单位的界定
1.1.4 “熟语单位”的范围
1.2 本研究的目标
1.3 本研究的意义
1.4 本研究的创新点和难点
1.4.1 本研究的创新点
1.4.2 本研究的难点
1.5 小结
第二章 基于2001—2003年《人民日报》的熟语单位提取研究
2.1 语料的选取
2.2 语料库及语料库语言学
2.3 词语自动提取研究的历史和现状
2.4 我们对中文信息处理及汉语的认识
2.5 提取熟语单位的方法和技术路线
2.6 辅助提取手段分析
2.7 部分结果验证及相关分析
2.8 小结
第三章 三字格、四字格熟语单位研究
3.0 已有的研究
3.1 三字格概况
3.11 三字格里的词
3.12 三字格里的语
3.2 音节为“1+2”式、结构为“V+N/NP”式的三字格
3.3 音节为“2+1”式、结构为“V/VP+N”式的三字格
3.4 四字格概况
3.41 四字格里的词
3.42 四字格里的语
3.5 “N+V”式的四字格
3.6 “V+N”/“V+V”式的四字格
3.7 小结
3.8 附论5字格
第四章 流行语、字母词语和插入语研究
4.1 流行语研究
4.11 “流行”的界定
4.12 关于流行语的语言学研究
4.13 流行语的科学认定
4.14 余论
4.2 字母词语研究
4.21 引言
4.22 基于词典的字母词语的分类及相关分析
4.23 基于报纸语料库的字母词语的使用情况举隅
4.24 关于字母词语规范的两点思考
4.3 插入语研究
4.31 已有的研究
4.32 插入语对中文信息处理的作用
4.33 报纸语料中部分插入语的频次考察
第五章 简称考察研究
5.1 引言
5.2 简称的界定
5.21 定义
5.22 简称的性质
5.3 简称的分类
5.4 固定简称
5.41 固定简称的构成方式
5.42 固定简称的形成规律
5.43 固定简称的使用特点
5.5 临时简称
5.6 通过形式标记提取的简称例示
5.7 小结
第六章 结语
6.1 本文的研究方法
6.2 熟语单位的应用价值
6.21 熟语单位与对外汉语教学
6.22 熟语单位与辞书编纂
6.3 存在的问题和下一步工作
6.31 存在的问题
6.31 熟语的确定
6.31 熟语单位的自动提取
6.31 熟语的标注规范
6.32 下一步工作
6.32 熟语单位的外部功能及其语义研究
6.32 建立实用的分类、分级语表
参考文献
附录1 两本新词语词典所收的部分新词语比较
附录2 基于大学生的词语语感测量
附录3 从2001—2003年《人民日报》中切出的部分2字串
附录4 从2001—2003年《人民日报》中切出的部分3字串
附录5 从2001—2003年《人民日报》中切出的部分4字串
附录6 从2001—2003年《人民日报》中切出的部分5字串
附录7 从2001—2003年《人民日报》中切出的部分6字串
附录8 从2001—2003年《人民日报》中切出的部分7字串
附录9 从2001—2003年《人民日报》中切出的部分8字串
附录10 2001—2003年《人民日报》的部分3字格熟语单位
附录11 2001—2003年《人民日报》的部分4字格熟语单位
附录12 2001—2003年《人民日报》的部分5字格熟语单位
附录13 2001—2003年《人民日报》中相同的部分熟语单位
附录14 2001年的部分引号抽取串
附录15 2002年的部分引号抽取串
附录16 2003年的部分引号抽取串
附录17 2001—2003年《人民日报》中相同的部分引号抽取串
附录18 部分“V+V”实例
附录19 《现代汉语词典》(2002年增补本)收录的简称词条
附录20 2002年《人民日报》中的部分简称
附录21 本文所使用的标记集
攻读博士学位期间参加的学术活动和发表的学术论文
致谢
发布时间: 2005-07-11
参考文献
- [1].基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D]. 郑泽芝.北京语言大学2005
- [2].基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D]. 谢学敏.北京语言大学2006
- [3].基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D]. 王强军.北京语言文化大学2003
- [4].基于DCC动态流通语料库的中文组织名考察与研究[D]. 陈慧.北京语言大学2008
相关论文
- [1].基于语料库的中国英语外语学习者口语交际能力研究:COLSEC中的预构成语块、图式、语用特征及策略[D]. 甄凤超.上海交通大学2006