基于动态流通语料库(DCC)的流行语释义信息自动提取研究

基于动态流通语料库(DCC)的流行语释义信息自动提取研究

论文摘要

流行语是“在某一时期,某一地域或者某一人群中迅速传播、盛行的词汇”,而流行语释义就是对流行语的含义进行注释或解释。本文主要研究在大规模真实文本中提取流行语的释义信息的方法,并尝试对提取出来的相关释义信息按一定的重要度进行排序。 我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择了2004年全年和2005年全年的15种主流报纸的网络版文本,共841,547,069字(即约8亿4千万字),其中2004年语料总量为415,756,703字,2005年语料总量为425,790,366字。在此基础上,我们经人工标注,建立了流行语释义信息提取的训练语料库,并分别对2004年及2005年的流行语释义信息进行自动提取的封闭测试和开放测试。 本文的研究特色主要体现在以下几个方面: 一、首次对流行语释义信息进行了考察 1、界定了“流行语释义信息”的概念。流行语释义信息指的是一些与流行语释义相关的但没有经过提炼与整合的信息。 2、厘清了“流行语释义信息”的类别。从形式的角度考虑,主要把流行语释义信息分为两类: 一类为带标记的流行语释义信息。 这里所谓的标记,专指“是”、“即”、“就是”、“称为”、“叫做”、“包括/包含”、“所谓……是指……”、“由……构成/组成”等常用于一般词语释义中的特定的词或固定结构,带有这些标记的流行语释义信息就称之为带标记的流行语释义信息。 另一类为不带标记的流行语释义信息。 这类释义信息不带有上述的标志词,但是可以发现另外一些专门的词语,例如:时间、地点、事件等命名实体,这些词语在提取时可以作为特征项,但其提取效果是无法跟上述标记相比的。这类释义信息主要可以分为人物简历类释义信息和事件类释义信息。 二、实现了对流行语释义信息的自动提取 我们选择2004年15种主流报纸全年的语料(共415,756,703字)作为我们的训练语料,含流行语的句子数为62,335条,经过人工标记、校对,共得到流行语释义信息1750条。

论文目录

  • 第一章 绪论
  • 1.1 流行语释义的界定及特点
  • 1.2 流行语释义信息及其分类
  • 1.3 研究目的
  • 1.4 研究意义
  • 1.5 研究现状综述
  • 1.5.1 张津、黄昌宁的研究工作
  • 1.5.2 张艳等人的研究工作
  • 1.5.3 许勇、荀恩东等人的研究工作
  • 1.5.4 陆勇的研究工作
  • 1.5.5 小结
  • 1.6 相关研究方法综述
  • 1.6.1 信息抽取技术
  • 1.6.2 ACE相关综述
  • 1.6.3 话题跟踪与话题识别
  • 1.6.4 小结
  • 1.7 相关算法介绍
  • 1.7.1 字符串匹配算法
  • 1.7.2 上下文矢量算法
  • 1.7.3 主题导向之非结构化文本撷取技术
  • 1.8 研究内容
  • 1.9 研究难点
  • 1.10 论文结构安排
  • 第二章 动态流通语料库及流行语
  • 2.1 引言
  • 2.2 动态流通语料库
  • 2.2.1 何谓动态流通语料库
  • 2.2.2 动态流通语料库的理论基础
  • 2.2.3 动态流通语料库的构成
  • 2.2.4 动态流通语料库的特点
  • 2.2.5 动态流通语料库的分类
  • 2.2.6 语料的选择标准
  • 2.2.7 语料库的存储模式
  • 2.2.8 基于动态流通语料库的研究所取得的成果
  • 2.3 流行语
  • 2.3.1 流行语的界定
  • 2.3.2 流行语的特点
  • 2.3.3 流行语出现的原因
  • 2.3.4 流行语的属性
  • 2.3.5 流行语发布工作
  • 2.3.6 流行语提取流程介绍
  • 2.3.7 国内外流行语研究及发布情况
  • 2.4 本章小结
  • 第三章 带标记的流行语释义信息的提取
  • 3.1 引言
  • 3.2 相关概念
  • 3.2.1 文本定义
  • 3.2.2 模板处理
  • 3.3 带标记的流行语释义信息的特征
  • 3.4 相关研究方法综述
  • 3.4.1 中文文本数据库的信息抽取机制
  • 3.4.2 术语定义的提取
  • 3.4.3 字母词语释义的提取
  • 3.5 带标记的流行语释义信息的提取方法及相关分析
  • 3.5.1 提取方法
  • 3.5.2 提取模式分析
  • 3.6 本章拟采用的算法
  • 3.6.1 正则表达式
  • 3.7 实验及结果分析
  • 3.7.1 实验步骤
  • 3.7.2 实验结果统计
  • 3.7.3 统计结果分析
  • 3.8 本章小结
  • 第四章 不带标记的流行语释义信息的提取
  • 4.1 引言
  • 4.2 不带标记的流行语释义信息的特点及分类
  • 4.2.1 不带标记的流行语释义信息的特点
  • 4.2.2 不带标记的流行语释义信息的分类
  • 4.3 提取方法
  • 4.3.1 事件类流行语释义信息的提取
  • 4.3.2 人物简历类流行语释义信息的提取方法
  • 4.4 本章小结
  • 第五章 系统设计及实现
  • 5.1 系统流程图
  • 5.2 系统设计原则
  • 5.3 系统设计步骤
  • 5.4 技术路线
  • 5.4.1 规则获取
  • 5.4.2 确定提取方案
  • 5.5 程序开发
  • 5.6 小结
  • 结语
  • 参考文献
  • 附录
  • 攻读博士学位期间科研情况
  • 致谢
  • 相关论文文献

    • [1].突发公共卫生事件网络语料库系统构建[J]. 情报学报 2013(09)
    • [2].华裔美国作家哈金作品《落地》建构的中国形象——基于语料库的考察[J]. 乐山师范学院学报 2019(11)
    • [3].近十年国际语料库翻译研究文献计量分析(2008-2018)[J]. 外语与外语教学 2019(06)
    • [4].科技大数据背景下的中英双语语料库的构建及其特点研究[J]. 中国科技资源导刊 2019(06)
    • [5].浅析信息技术背景下口译语料库的研究现状及进展[J]. 教育现代化 2019(99)
    • [6].语料库在俄语教学中的应用探究[J]. 科技风 2020(08)
    • [7].文学作品的语料库检索分析——以小说《呼啸山庄》为例[J]. 现代交际 2020(04)
    • [8].音乐口述史语料库分析方法的理论原理与操作步骤[J]. 中国音乐 2020(01)
    • [9].基于语料库“刚刚”“刚才”的维译对比研究[J]. 汉字文化 2019(23)
    • [10].语料库技术辅助汉译英教学模式探索[J]. 科技视界 2020(03)
    • [11].基于语料库的对话口译模糊限制语性别研究[J]. 甘肃广播电视大学学报 2020(01)
    • [12].《基于语料库的语法研究》评介[J]. 南昌师范学院学报 2019(05)
    • [13].国内基于语料库的翻译研究二十年综述(1999—2018)[J]. 成都理工大学学报(社会科学版) 2020(01)
    • [14].语料库翻译学:在名与实之间[J]. 外语学刊 2020(01)
    • [15].《诗经》汉英平行历时语料库研制与应用[J]. 沈阳大学学报(社会科学版) 2020(02)
    • [16].言者顺应:基于语料库驱动视角[J]. 广东石油化工学院学报 2020(02)
    • [17].基于语料库的习近平国际峰会主旨演讲高频词研究[J]. 法制与社会 2020(11)
    • [18].浅谈中日农业术语对译语料库的建设[J]. 农家参谋 2020(16)
    • [19].基于历时语料库的“先生”称谓语用嬗变研究[J]. 教育教学论坛 2020(18)
    • [20].基于历时语料库的“度”字义项演变探微[J]. 汉字文化 2020(09)
    • [21].俄汉可比语料库翻译等价物抽取的方法设计及应用展望[J]. 欧亚人文研究 2019(01)
    • [22].国内基于语料库的翻译显化和隐化研究综述[J]. 牡丹江大学学报 2020(06)
    • [23].国内语料库翻译研究现状及未来走向探讨[J]. 英语广场 2020(16)
    • [24].基于语料库汉语人体部位词“脸”的认知研究[J]. 汉字文化 2020(10)
    • [25].基于历时语料库的在线词典编纂系统设计[J]. 中文信息学报 2020(05)
    • [26].基于语料库及其技术的思政课优质教学资源建设与共享研究[J]. 思想政治课研究 2020(03)
    • [27].海外社交平台的广州城市形象呈现——基于推特十年涉穗话语语料库分析[J]. 国际传播 2020(03)
    • [28].语料库翻译学视阈下的意识形态显化——《语料库批评翻译学概论》述评[J]. 山东外语教学 2020(04)
    • [29].自建语料库在商务英语翻译教学中的应用[J]. 宁波广播电视大学学报 2020(03)
    • [30].基于语料库的多维翻译文体评估——以《骆驼祥子》的葛浩文译本为例[J]. 海外英语 2020(16)

    标签:;  ;  ;  ;  ;  

    基于动态流通语料库(DCC)的流行语释义信息自动提取研究
    下载Doc文档

    猜你喜欢