新词语识别论文-张晨

新词语识别论文-张晨

导读:本文包含了新词语识别论文开题报告文献综述及选题提纲参考文献,主要关键词:中文信息处理,语义角色标注,句法成分标注,义类识别

新词语识别论文文献综述

张晨[1](2016)在《基于语义角色和句法标注的新词语语义类识别研究》一文中研究指出对语义的理解能帮助我们更好地理解某个词语、整句话乃至整个篇章或整个对话的含义,而找出语义识别则就是帮助计算机"理解"词语、句子和篇章含义的前提性工作。其中,词语的语义识别是基础。新词语的增长早已是一个不可忽视的趋势,中文信息处理作为应用语言学的一大触手,面对这样的形势当然也要迈出自己的步伐。本文以语料的句法成分和语义角色的标注为基础,研究满足某句法成分和语义角色条件的词语的义类倾向,以期能够将研究成果用于中文信息处理中新词语义类的推测研究,来帮助推进中文信息处理早日实现"智能化"。(本文来源于《安徽文学(下半月)》期刊2016年03期)

朱波[2](2012)在《基于特征过滤对比的新词语识别》一文中研究指出新词语的自动识别是语言监测工作中的重要环节,更是新词语研究的重要手段。这一技术的深入发展可以有效地促进汉语信息处理、词典编纂等工作的开展。对于新词语的自动识别,其本质在于新、旧字符串的对比。这些字符串就需要从前景语料和背景语料中分别获取。不论是采用基于规则的方法还是基于统计的方法,在字符串获取的过程中都会产生大量的垃圾串,尤其是从前景语料获取的字符串,这些垃圾串的大量存在都会严重地影响新词语的识别效果。因此,通过分析新词语的不同特征,提出基于特征过滤的字符串获取方法,这一方法是在字符串获取之前,将一些构词能力差的语言成分删除,这样可以有效地减少字符串的产生,以便进行下一步处理。在垃圾串过滤阶段,根据新词语的构成特点,提出基于二元结构的过滤方法,该方法可以有效过滤由叁个或叁个以上分词碎片构成的垃圾串。在过滤的基础上,对候选串进行多方面统计特征值的考查:从成词概率、构词模式概率及平均互信息的计算结果判断该候选串的有效性。在不使用统计模型的情况下,召回率与准确率分别为86.22%和0.15%;在使用统计模式之后,召回率与准确率分别达到43.86%和49.92%。(本文来源于《渤海大学》期刊2012-06-01)

傅朝阳[3](2008)在《报刊编辑亟需识别和掌握新词语》一文中研究指出词语是社会发展的直观而迅速的反映,新词语产生的高峰时期一般都是社会高速发展的时期。改革开放以来,伴随着中国经济、社会的快速发展,新词语不断涌现,(本文来源于《编辑之友》期刊2008年04期)

施水才,俞鸿魁,吕学强,李渝勤[4](2006)在《基于大规模语料的新词语识别方法》一文中研究指出根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的系统,可以抽取不限长度不限领域的新词语.(本文来源于《山东大学学报(理学版)》期刊2006年03期)

亢世勇,徐艳华[5](2004)在《基于语料库的新词语识别规则研究》一文中研究指出本文在新词语构词规则数据库的基础上,总结了双音节、叁音节新词语的构词规则,并将这些规则放在实际文本中识别新词语以说明其可行性。(本文来源于《烟台师范学院学报(哲学社会科学版)》期刊2004年04期)

骆彬[6](2003)在《汉语新词语辅助识别系统的研制》一文中研究指出文章叙述了“汉语新词语辅助识别系统”的开发过程。该系统的主要任务是结合使用规则方法和统计方法,利用计算机自动从大规模电子文本中提取候选新词语,帮助现代汉语语文词典编纂者发现新词语。同时,本系统也可以用于处理中文信息处理中的未登录词识别问题。 语言学家多从意合的角度解释构词的规律,属于定性的方法,得到的结论难以形式化,在计算机上实现起来比较困难。迄今为止还没有一个关于“词”的完整、准确、令所有人认同的定义,语言学家在判断“词”时常常要依靠“语感”。目前也没有一套切实可行的标准和操作程序让计算机来判断一个字串是否是词。因此,本文力求从定量的角度描述某些构词规则,使它具有可操作性。 统计学方法试图以大量词语的统计特征反映构词的规律。但由于统计方法本身的局限性,无法全面正确地揭示这一规律。而且统计规律受统计资料的影响非常明显,对不同类别的语料统计所得到的结论往往不尽相同,甚至互相冲突。同时统计资料的规模也会影响统计结果。因此单用统计方法也不能很好地解决新词语识别和未登录词的问题。 本系统的一个特点是结合使用了以上两种方法。统计规则方法的可计算性强,易于在计算机上实现。但它也存在着自身不可克服的弱点,例如统计上的小概率事件在实际应用中变成了不可能事件,因为机器在识别时总是会倾向于选择概率较大的结论。这时就需要由语言规则来进行校正。语言规则越完善,可操作性越强,得到的结果也越准确。所以在这次实验中尽可能合理地使用语言规则,让尽量多的构词规律具有可操作性。 本系统开发的另一个特点是利用了大规模的语料进行训练。本系统使用《人民日报》电子版作为实验语料,经程序处理过的语料近七千万字。《人民日报》的特点是发行量大,流通度广,实时性强,使用语言规范。使用大规模语料的目的是为了保证实验的可靠性。在实验过程中,反复对大量语料的处理结果进行分析,不断调整使用各种规则和统计方法的时机,校正处理过程中的失误和偏差,得到了比较满意的实验结果。 另外,本系统在开放式规则识别方面作了一些尝试。在系统中的规则部分,把具体规则放入程序之外的文本文件,程序执行过程中,从不同文件中读取相应的规则进行处理。如果需要对规则进行改动,可以按照规则的格式,对文本文件进行编辑,加入、删除规则,而不需要改动程序本身。(本文来源于《中国社会科学院研究生院》期刊2003-05-01)

郑家恒,李文花[7](2001)在《新词语自动识别方法研究》一文中研究指出本文在对加工过的网上文本语料统计的基础上,首先用N元递增分步算法,获取含新词语的汉字串:经过初筛选,建立新词语候选词库:最后以构词法为依据,对剩余词条进行新词语的识别.封闭测试:召回率为97%,准确率为85%以上.(本文来源于《自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集》期刊2001-08-01)

新词语识别论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

新词语的自动识别是语言监测工作中的重要环节,更是新词语研究的重要手段。这一技术的深入发展可以有效地促进汉语信息处理、词典编纂等工作的开展。对于新词语的自动识别,其本质在于新、旧字符串的对比。这些字符串就需要从前景语料和背景语料中分别获取。不论是采用基于规则的方法还是基于统计的方法,在字符串获取的过程中都会产生大量的垃圾串,尤其是从前景语料获取的字符串,这些垃圾串的大量存在都会严重地影响新词语的识别效果。因此,通过分析新词语的不同特征,提出基于特征过滤的字符串获取方法,这一方法是在字符串获取之前,将一些构词能力差的语言成分删除,这样可以有效地减少字符串的产生,以便进行下一步处理。在垃圾串过滤阶段,根据新词语的构成特点,提出基于二元结构的过滤方法,该方法可以有效过滤由叁个或叁个以上分词碎片构成的垃圾串。在过滤的基础上,对候选串进行多方面统计特征值的考查:从成词概率、构词模式概率及平均互信息的计算结果判断该候选串的有效性。在不使用统计模型的情况下,召回率与准确率分别为86.22%和0.15%;在使用统计模式之后,召回率与准确率分别达到43.86%和49.92%。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

新词语识别论文参考文献

[1].张晨.基于语义角色和句法标注的新词语语义类识别研究[J].安徽文学(下半月).2016

[2].朱波.基于特征过滤对比的新词语识别[D].渤海大学.2012

[3].傅朝阳.报刊编辑亟需识别和掌握新词语[J].编辑之友.2008

[4].施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报(理学版).2006

[5].亢世勇,徐艳华.基于语料库的新词语识别规则研究[J].烟台师范学院学报(哲学社会科学版).2004

[6].骆彬.汉语新词语辅助识别系统的研制[D].中国社会科学院研究生院.2003

[7].郑家恒,李文花.新词语自动识别方法研究[C].自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集.2001

标签:;  ;  ;  ;  

新词语识别论文-张晨
下载Doc文档

猜你喜欢