比较句与比较关系识别研究及其应用

比较句与比较关系识别研究及其应用

论文摘要

众所周知,比较是人类认识世界的一种重要手段和有说服力的表达方式,是世界各种语言的最重要的组成部分。随着Web2.0的深入发展,Internet技术更加注重与普通用户的交互,用户不仅是网站内容的读者,也是网站内容的作者。尤其最近几年,微博、播客、日志、维基、论坛等新型网络元素异军突起,使得网络信息更加个性化和多元化。这些信息中不乏是对各种新事物、新理论、新技术、新产品、新观点、新艺术的评论比较的文本信息。利用自然语言处理技术,高效地从这些信息中识别比较句和比较关系已成为近年来一个新颖的研究课题。论文在已有研究的基础上,对比较句与比较关系的自动识别做了系统深入的研究。主要包括以下几个方面的工作:①提出熵值平衡算法(EBA)用来对语料的类别偏斜问题进行平衡处理。该算法基于熵是度量一个系统有序程度的原理,通过计算每个词汇的熵值,选择满足阈值的词汇构造平衡关键字集合,再用这个集合过滤每个类别的语料文本数据,使得大类的样本规模与小类的样本规模接近于1:1。该算法在对语料库中比较句与非比较句比例为796:8010的平衡结果为701:1226,达到了平衡的预期目标。②提出基于信息熵的比较句识别方法。该方法提取类间分布不均匀而类内分布均匀的词汇作为比较句的统计特征;利用Apriori算法挖掘满足最小支持度minsup和最小置信度minconf的词性序列模式作为比较句的序列特征。然后使用信息增益(IG)对得到的特征进行特征选择。最后使用SVM和NB分类器对语料的特征向量进行分类。实验表明该方法的F1值为81%,能有效地识别比较句。③提出基于语义角色句法分析树的比较关系识别方法。该方法将句法分析树和语义角色标注相融合,构造一种新的语义角色分析树,并设计了子树间的匹配相似度计算函数,计算最大可能的抽取结果,旨在提取比较关系中比较主体,比较客体,比较内容和比较结果。实验结果显示,对只含有一个关系的比较关系抽取效果较好,对含有多个关系的比较关系抽取,效果有待进一步提高。④实现了产品评论挖掘中比较句与比较关系识别的应用。在论文提出的比较句与比较关系识别理论框架内,提出了产品评论挖掘的框架和流程,实现了在产品评论挖掘中的比较句与比较关系识别的应用,从而验证了论文所提出的识别方案的可行性和正确性。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 选题的研究意义与背景
  • 1.2 国内外研究现状
  • 1.2.1 比较句与比较关系识别的国内外研究现状
  • 1.2.2 存在的主要问题
  • 1.3 比较句与比较关系识别的应用
  • 1.4 论文的主要研究内容与章节安排
  • 2 比较句与比较关系识别的理论基础
  • 2.1 比较句与比较关系识别概述
  • 2.1.1 比较句识别概述
  • 2.1.2 比较关系识别概述
  • 2.1.3 已有的自动识别研究和应用
  • 2.2 机器学习方法与数据挖掘方法
  • 2.2.1 支持向量机SVM 分类方法概述
  • 2.2.2 朴素贝叶斯NB 分类方法概述
  • 2.2.3 信息增益理论概述
  • 2.2.4 最大熵模型
  • 2.2.5 隐马尔科夫模型
  • 2.2.6 语义角色标注概述
  • 2.2.7 句法分析树概述
  • 2.2.8 Apriori 算法
  • 2.3 比较句识别的主流技术
  • 2.3.1 基于类别序列规则的比较句识别
  • 2.3.2 基于比较模式库的比较句识别
  • 2.4 比较关系识别的主流技术
  • 2.4.1 有监督的实体关系抽取方法
  • 2.4.2 半监督的实体关系抽取方法
  • 2.5 小结
  • 3 比较句识别研究
  • 3.1 比较句识别的概述
  • 3.2 训练语料文本句子的类型
  • 3.3 语料类别偏斜对识别结果的影响
  • 3.4 熵值平衡算法
  • 3.4.1 信息熵平衡的理论依据
  • 3.4.2 熵值平衡算法的步骤
  • 3.5 特征提取
  • 3.5.1 统计特征提取
  • 3.5.2 序列特征提取
  • 3.6 特征选择
  • 3.7 实验及结果分析
  • 3.7.1 参数设置
  • 3.7.2 比较句识别结果
  • 3.7.3 结果分析
  • 3.8 小结
  • 4 比较关系抽取方法研究
  • 4.1 比较关系识别问题描述
  • 4.2 实体识别相关工作
  • 4.3 基于语义角色句法分析树的比较关系抽取
  • 4.3.1 语义角色句法树
  • 4.3.2 比较关系抽取方法
  • 4.4 实验及结果分析
  • 4.4.1 比较关系的成分统计实验
  • 4.4.2 比较关系抽取结果及分析
  • 4.5 小结
  • 5 产品评论挖掘中的应用
  • 5.1 语料数据预处理
  • 5.2 应用实验的主要流程
  • 5.3 应用的结果分析
  • 5.4 小结
  • 6 结论与展望
  • 6.1 论文的主要研究结论
  • 6.2 下一步研究工作的展望
  • 致谢
  • 参考文献
  • 附录
  • A. 作者在攻读硕士学位期间发表的论文目录
  • B. 作者在攻读硕士学位期间参加的科研项目目录
  • 相关论文文献

    • [1].莲花方言的比较句[J]. 语言研究 2017(01)
    • [2].从“比较”到“建议”——论上古议论语篇中否定比较句的功能扩展[J]. 语文学刊 2017(04)
    • [3].比较句的特点及教学建议[J]. 长江丛刊 2020(09)
    • [4].韩国高年级留学生比较句中比较标记的偏误研究[J]. 现代语文(语言研究版) 2011(07)
    • [5].比较句的理解与翻译[J]. 校园英语 2018(13)
    • [6].英语写作应避免的一致性错误[J]. 高中生 2017(18)
    • [7].山东兖州方言的否定比较句[J]. 语言研究集刊 2014(02)
    • [8].汉语递及比较句“越……越”的时间性特征[J]. 山西大同大学学报(社会科学版) 2017(02)
    • [9].维吾尔语比较句识别研究[J]. 中文信息学报 2016(01)
    • [10].中文比较句的自动识别[J]. 智能计算机与应用 2015(05)
    • [11].先秦“于”字比较句考察[J]. 宁夏大学学报(人文社会科学版) 2010(02)
    • [12].“更”和“还”在肯定与否定比较句中的差异[J]. 世界汉语教学 2008(01)
    • [13].浅析英语比较句式的翻译技巧[J]. 企业导报 2015(10)
    • [14].“差”义结果比较句“和/比”可选性探析[J]. 汉字文化 2012(02)
    • [15].古汉语“于”字比较句功能补正[J]. 西南民族大学学报(人文社科版) 2009(03)
    • [16].法汉比较句对比分析[J]. 汉字文化 2018(22)
    • [17].近三十年来的汉语比较句研究[J]. 现代语文 2019(02)
    • [18].基于语义分类的比较句识别与比较要素抽取研究[J]. 中文信息学报 2014(03)
    • [19].比较句和比拟句试析[J]. 语言教学与研究 2008(01)
    • [20].说汉语儿童早期比较句发展个案研究[J]. 信阳农林学院学报 2019(01)
    • [21].汉语“比”字比较句的句法和语义问题[J]. 现代外语 2017(03)
    • [22].基于比较句的网络用户评论情感分析[J]. 现代图书情报技术 2015(12)
    • [23].文言比较句研究[J]. 民办教育研究 2009(05)
    • [24].表示比较功能和比况功能的汉俄语比较句研究[J]. 沈阳建筑大学学报(社会科学版) 2015(06)
    • [25].论日语非对等比较句中的程度副词[J]. 北方工业大学学报 2010(02)
    • [26].灵丘方言几种特殊的极量比较句[J]. 语言研究 2015(02)
    • [27].汉语比较句识别研究[J]. 中文信息学报 2008(05)
    • [28].《论语》中的比较句考察[J]. 晋中学院学报 2008(05)
    • [29].“不比”型比较句的语用功能[J]. 语文学刊 2008(10)
    • [30].汉语比较句的英译法[J]. 中国电力教育 2012(25)

    标签:;  ;  ;  ;  ;  

    比较句与比较关系识别研究及其应用
    下载Doc文档

    猜你喜欢