一、本刊读者评出:2000年中国家电业十件大事(论文文献综述)
杨建国[1](2005)在《基于动态流通语料库(DCC)的汉语熟语单位研究》文中认为本文基于汉语词典学界和中文信息处理界重“词”轻“语”的现象,对词组研究、熟语研究进行了反思,提出“熟语单位”(Idiom Unit,IU)的概念。所谓“熟语单位”,就是“结合紧密,使用稳定”,功能相当于熟语的结构单位,是符合人的认知规律并被人们经常当作一个词来使用的定型化了的固定短语或凝固表达式。我们判别IU的三条原则为:是否“结合紧密,使用稳定”;是否符合人们的认知规律(IU的长度一般为7±2);流通度要达到一定的阈值。IU理论上包括一切具有熟语性的词语组合单位。本文讨论的IU范围包括三字格中的惯用语和“差不多、靠不住、来不及”这样介于词和短语之间的结构串;四字格中的成语和新固定短语;简称略语、插入语和字母词语等。 本研究选用的是《人民日报》2001—2003三年的文本,约8000万字。文章以动态语言知识更新理论为指导,以流通度理论为基础,以年平均流通度阈值(0.5)作为主要筛选依据,运用规则和统计相结合的方法对“熟语单位”(IU)进行了初步的提取研究;并对部分提取结果的噪声环境做了定量与定性分析。 对于IU的提取,我们采取的策略和基本步骤是: 1、利用点号和“的、是、在、和、了、有”等高频词(字)将文本化短;自动提取时牺牲包含切分点的字符串,该部分字符串另行补救。 2、数据格式转换。将切分得到的形式上“完整”的2—8字串转为数据库格式。 3、统计3—5字串的频度、散布度和流通度。 4、用字符串全年的平均流通度阈值进行筛选。 5、对5音节(含)以上字串进行分词并词性标注,对其中的3字串、4字串和符合“N+N”、“N+V”、“V+N”、“V+V”等语法组合规则的相邻字符串(二元组)进行抽取;再对抽取的字符串重复上面的第3和第4步。 6、对筛选得到的字符串进行噪声剔除,全部进行重新切分并词性标注,然后运用静态规则模板(共30条规则)再次过滤。 7、借助辅助手段对熟语单位进行直接抽取。 8、得到3—5字格熟语单位表(约13,500条)。 本文还对提取出来的2001年的5,500个三字格、2002年的6,500个四字格做了简单的分类和例示性的分析说明。重点考察了具有熟语性的短语。三字格中我们重点探讨了音节为“1+2”式、结构为“V+N/NP”式和音节为“2+1”式、结构为“V/VP+N”式两类,验证了冯胜利有关三音节组合的论断:音节为“1+2”式的是短语,音节为“2+1”式的是韵律词。 四字格中我们重点探讨了“N+V”式和“V+N”式。N和V之间存在复杂的语法、语义以及音节制约关系。关于“N+V”式,通过考察,我们发现:定中关系的“N+V”式四字格熟语性最强,数量也最多:状中关系次之,主谓关系的四字格熟语性最弱,且N与V之间存在离散性。关于“V+N”式,我们发现:第一,“V+N”式四字格如果表示通名,它往往是或者容易成为一个NP习惯性搭配。第二,“V+N”式四字格中的N如果是比较抽象的双音节名词,则这类四字格构成的NP其熟语性相对较强。第三,“V+N”式四字格中的V如果是双音节述宾式动词,那么这种“双音节述宾式动词+宾语”形成的NP熟语性很强。 本文还从应用的角度对流行语、字母词语和插入语进行了考察研究。对流行语的科学评定和字母词语的规范发表了意见。
二、本刊读者评出:2000年中国家电业十件大事(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、本刊读者评出:2000年中国家电业十件大事(论文提纲范文)
(1)基于动态流通语料库(DCC)的汉语熟语单位研究(论文提纲范文)
摘要 |
Abstract |
第一章 引论 |
1.1 本研究提出的背景 |
1.1.1 词组(短语)研究的历史和现状 |
1.1.2 熟语研究的历史和现状 |
1.1.3 熟语单位的界定 |
1.1.4 “熟语单位”的范围 |
1.2 本研究的目标 |
1.3 本研究的意义 |
1.4 本研究的创新点和难点 |
1.4.1 本研究的创新点 |
1.4.2 本研究的难点 |
1.5 小结 |
第二章 基于2001—2003年《人民日报》的熟语单位提取研究 |
2.1 语料的选取 |
2.2 语料库及语料库语言学 |
2.3 词语自动提取研究的历史和现状 |
2.4 我们对中文信息处理及汉语的认识 |
2.5 提取熟语单位的方法和技术路线 |
2.6 辅助提取手段分析 |
2.7 部分结果验证及相关分析 |
2.8 小结 |
第三章 三字格、四字格熟语单位研究 |
3.0 已有的研究 |
3.1 三字格概况 |
3.11 三字格里的词 |
3.12 三字格里的语 |
3.2 音节为“1+2”式、结构为“V+N/NP”式的三字格 |
3.3 音节为“2+1”式、结构为“V/VP+N”式的三字格 |
3.4 四字格概况 |
3.41 四字格里的词 |
3.42 四字格里的语 |
3.5 “N+V”式的四字格 |
3.6 “V+N”/“V+V”式的四字格 |
3.7 小结 |
3.8 附论5字格 |
第四章 流行语、字母词语和插入语研究 |
4.1 流行语研究 |
4.11 “流行”的界定 |
4.12 关于流行语的语言学研究 |
4.13 流行语的科学认定 |
4.14 余论 |
4.2 字母词语研究 |
4.21 引言 |
4.22 基于词典的字母词语的分类及相关分析 |
4.23 基于报纸语料库的字母词语的使用情况举隅 |
4.24 关于字母词语规范的两点思考 |
4.3 插入语研究 |
4.31 已有的研究 |
4.32 插入语对中文信息处理的作用 |
4.33 报纸语料中部分插入语的频次考察 |
第五章 简称考察研究 |
5.1 引言 |
5.2 简称的界定 |
5.21 定义 |
5.22 简称的性质 |
5.3 简称的分类 |
5.4 固定简称 |
5.41 固定简称的构成方式 |
5.42 固定简称的形成规律 |
5.43 固定简称的使用特点 |
5.5 临时简称 |
5.6 通过形式标记提取的简称例示 |
5.7 小结 |
第六章 结语 |
6.1 本文的研究方法 |
6.2 熟语单位的应用价值 |
6.21 熟语单位与对外汉语教学 |
6.22 熟语单位与辞书编纂 |
6.3 存在的问题和下一步工作 |
6.31 存在的问题 |
6.31 熟语的确定 |
6.31 熟语单位的自动提取 |
6.31 熟语的标注规范 |
6.32 下一步工作 |
6.32 熟语单位的外部功能及其语义研究 |
6.32 建立实用的分类、分级语表 |
参考文献 |
附录1 两本新词语词典所收的部分新词语比较 |
附录2 基于大学生的词语语感测量 |
附录3 从2001—2003年《人民日报》中切出的部分2字串 |
附录4 从2001—2003年《人民日报》中切出的部分3字串 |
附录5 从2001—2003年《人民日报》中切出的部分4字串 |
附录6 从2001—2003年《人民日报》中切出的部分5字串 |
附录7 从2001—2003年《人民日报》中切出的部分6字串 |
附录8 从2001—2003年《人民日报》中切出的部分7字串 |
附录9 从2001—2003年《人民日报》中切出的部分8字串 |
附录10 2001—2003年《人民日报》的部分3字格熟语单位 |
附录11 2001—2003年《人民日报》的部分4字格熟语单位 |
附录12 2001—2003年《人民日报》的部分5字格熟语单位 |
附录13 2001—2003年《人民日报》中相同的部分熟语单位 |
附录14 2001年的部分引号抽取串 |
附录15 2002年的部分引号抽取串 |
附录16 2003年的部分引号抽取串 |
附录17 2001—2003年《人民日报》中相同的部分引号抽取串 |
附录18 部分“V+V”实例 |
附录19 《现代汉语词典》(2002年增补本)收录的简称词条 |
附录20 2002年《人民日报》中的部分简称 |
附录21 本文所使用的标记集 |
攻读博士学位期间参加的学术活动和发表的学术论文 |
致谢 |
四、本刊读者评出:2000年中国家电业十件大事(论文参考文献)
- [1]基于动态流通语料库(DCC)的汉语熟语单位研究[D]. 杨建国. 北京语言大学, 2005(04)