基于WordNet的中英文跨语言文本相似度研究

基于WordNet的中英文跨语言文本相似度研究

论文摘要

文本相似度一直以来都是自然语言处理领域中的一个重要课题,在信息检索,文本挖掘,以及抄袭检测中都有着广泛的应用。文本相似度就是要量化两个不同文本之间的相似程度。目前大多数的研究都仅针对单语言的文本相似度,即相同语言的文本之间的相似度。然而,随着互联网的发展,世界各地各种语言的信息都实时地呈现在网络上,人们已不再满足于获取单一语言的信息,于是跨语言相似搜索,跨语言抄袭检测等日益受到研究机构的重视。通过跨语言相似搜索,可以用一种语言的文本去检索与它相似的其它语言的文本。通过跨语言抄袭检测,可以判定一篇文章是否有抄袭、翻译不同语言的另一篇文章的嫌疑。而他们背后的核心都是跨语言文本相似性度量。本文研究了跨语言文本相似度算法,即不同语言的文本间的相似性量化方法。现有的算法大多不能兼顾准确性、效率、通用性、可扩展性等方面。本文提出了一种新颖的跨语言文本相似度算法。论文的创新主要有以下三个方面:1)提出了一种独立于语言的语义中间层,并在这个中间层上实现了一种名词语义哈希编码。这种语义哈希很好地保持了词与词的相对语义距离,即语义距离与语义哈希值的差正相关。通过将不同语言映射到统一的中间层,得以将经过预处理、消歧的不同语言文本转化为中间层上的语义哈希特征序列,最终在中间层上实现跨语言的文本相似度计算。2)有针对性地提出了一种以概念相关性为主要依据的名词消歧算法,应用于从文本到语义哈希特征序列的转化过程中。与现有算法不同的是,该算法在WordNet上对两个语义之间的语义距离进行了拓展,定义了一组语义之间的语义密度,从而量化了一组语义之间的相关性。将相关性转化为语义密度后再进行消歧。此外,借助本文所定义的语义哈希,语义密度的计算复杂度以及整个消歧算法的计算复杂度都得以大幅度降低。3)提出了一种基于语义频率的特征过滤算法。并将语义频率近似地转化为WordNet上的语义深度,结合本文提出的语义哈希,最终通过语义哈希上的位操作高效地实现了特征过滤,剔除了区分能力较弱的高频语义特征。最后,以中文和英文为例对文中提出的算法进行了实验。本文所提出的跨语言文本相似度算法在设计上保证了较好的通用性和可扩展性,因此,尽管在实验中只尝试了中文和英文,若要将算法拓展到其它有WordNet的语言上也是十分容易的。在SemCor语义标注语料库上测试了本文所提出的消歧算法,结果显示该消歧算法与同类非统计算法相比具有更高的准确率。本文还对所提出的跨语言文本相似度算法在一个自建的小型中英文平行语料库上进行了实验,结果显示本文所提出的算法具有较高的准确性,跨语言相似搜索的前10项准确率达到71.7%。此外,还通过实验验证了本文所提出的特征过滤算法的有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 跨语言文本相性度量的挑战
  • 1.3 本文的创新工作
  • 1.4 本文的组织结构
  • 第二章 文本相似性度量基础
  • 2.1 问题空间及其形式化描述
  • 2.2 单语言文本相似性度量
  • 2.2.1 向量空间模型
  • 2.2.2 Shingling 算法
  • 2.2.3 simhash 指纹算法
  • 2.3 跨语言文本相似性度量
  • 2.3.1 基于全文机器翻译的算法
  • 2.3.2 基于统计翻译模型的算法
  • 2.3.2.1 翻译模型
  • 2.3.2.2 长度模型
  • 2.3.3 CL-ESA 算法
  • 2.4 本章小结
  • 第三章 基于WORDNET 的跨语言文本相似度算法
  • 3.1 算法设计
  • 3.2 WordNet 及语义中间层的建立
  • 3.2.1 WordNet 的结构
  • 3.2.2 基于WordNet 的名词语义哈希
  • 3.3 基于WordNet 的名词消歧算法
  • 3.3.1 WordNet 上的语义距离
  • 3.3.2 WordNet 上的语义密度
  • 3.3.3 基于语义密度的名词消歧
  • 3.4 跨语言文本相似度计算
  • 3.4.1 文本特征提取
  • 3.4.2 基于语义频率的特征过滤
  • 3.4.3 相似度计算
  • 3.5 算法应用
  • 3.6 本章小结
  • 第四章 实验结果与分析
  • 4.1 实验环境
  • 4.1.1 中英文WordNet
  • 4.1.2 实验测试数据的获取和预处理
  • 4.2 基于语义密度的名词消歧实验
  • 4.2.1 消歧评价方法
  • 4.2.2 实验结果分析
  • 4.3 跨语言文本相似性度量实验
  • 4.3.1 跨语言文本相似度评价方法
  • 4.3.2 基于语义频率的特征过滤效果
  • 4.3.3 实验结果分析
  • 4.4 本章小结
  • 第五章 结论与展望
  • 5.1 本文工作小结
  • 5.2 后续工作展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 攻读硕士学位期间参与的科研项目
  • 相关论文文献

    • [1].重视语言文本 探寻文字魅力[J]. 课程教材教学研究(教育研究版) 2008(02)
    • [2].预训练模型下融合注意力机制的多语言文本情感分析方法[J]. 小型微型计算机系统 2020(02)
    • [3].基于生成对抗网络的跨语言文本情感分析[J]. 情报理论与实践 2019(11)
    • [4].中国广播电视有声语言文本的文化价值[J]. 艺术百家 2012(04)
    • [5].多语言文本表示研究综述[J]. 现代图书情报技术 2010(06)
    • [6].语文语言文本向教学文本转化之探究[J]. 教学月刊(中学版) 2010(12)
    • [7].论文学语言文本的三重语境[J]. 陕西师范大学学报(哲学社会科学版) 2008(05)
    • [8].基于跨语言文本分类的多语资源组织方法研究[J]. 情报理论与实践 2011(10)
    • [9].面向跨语言文本分类与标签推荐的带标签双语主题模型的研究[J]. 计算机应用研究 2019(10)
    • [10].基于文本加权词共现的跨语言文本相似度分析[J]. 软件导刊 2020(02)
    • [11].基于R语言的自然语言文本预处理和统计学分析流程分析[J]. 西部皮革 2020(12)
    • [12].一种从自然语言文本到本体模型的转换方法[J]. 电大理工 2011(02)
    • [13].自然语言文本语义接受度的在线系统评价研究[J]. 计算机工程与应用 2008(26)
    • [14].电商语言文本数据处理方法研究[J]. 科技视界 2019(22)
    • [15].议图文接受的差异性[J]. 宿州学院学报 2014(05)
    • [16].自然语言文本中否定性信息智能抽取仿真[J]. 计算机仿真 2018(12)
    • [17].基于统计词典和特征加强的多语言文本分类[J]. 西南师范大学学报(自然科学版) 2018(09)
    • [18].多语言文本聚类研究综述[J]. 现代图书情报技术 2009(06)
    • [19].对抗长短时记忆网络的跨语言文本情感分类方法[J]. 华侨大学学报(自然科学版) 2019(02)
    • [20].多语言文本情绪分析模型MF-CSEL[J]. 小型微型计算机系统 2019(05)
    • [21].中学生英语口语表达能力提高之策略[J]. 考试周刊 2008(24)
    • [22].“交互模式”在大学英语文化教学中的应用[J]. 教育探索 2009(11)
    • [23].短制:走向幽微的语言可能性[J]. 草地 2020(01)
    • [24].复杂产品协同设计流程的多视图自然语言文本生成[J]. 计算机集成制造系统 2018(07)
    • [25].以语言文本 追求高效课堂[J]. 学苑教育 2012(18)
    • [26].有声语言文本的文化价值分析及阐释[J]. 科技传播 2018(24)
    • [27].海子文本中的“明亮”元素[J]. 新诗 2013(04)
    • [28].基于双语LDA的跨语言文本相似度计算方法研究[J]. 计算机工程与科学 2017(05)
    • [29].基于WordNet的中泰文跨语言文本相似度计算[J]. 中文信息学报 2016(04)
    • [30].论中国古代的“图像批评”[J]. 中国文学研究 2012(01)

    标签:;  ;  ;  ;  

    基于WordNet的中英文跨语言文本相似度研究
    下载Doc文档

    猜你喜欢