面向主题的中文文本观点检索研究

面向主题的中文文本观点检索研究

论文摘要

随着互联网的迅速发展和广泛普及,在很大程度上改变了人们的生活方式,人们不仅被动接受信息,还能与外界进行交互。互联网逐渐成为一种交互式媒体,更多的人通过博客B、BS等网络媒介记录自己的心情,发表对各种事物的评论。如何从互联网的海量数据中高效快捷地识别并抽取到针对某一实体的评论性信息至关重要。观点检索,是指利用信息检索与情感分析等技术,寻找针对主题的观点评论等信息。是主题检索与倾向型分析相结合的工作。观点检索的研究已经成为国际上研究的一大热点。中文文本观点检索的目标是互联网用户发表的带有情感倾向的评论信息,这些信息不论对于普通的网络用户,还是对于产品生产商以及其他组织机构等都有很重要的价值。如政府需要了解网络舆情;商家不仅需要了解对于自己产品的评价,也需要掌握有关竞争对手产品性能的反馈;而潜在购买者则希望从已经存在的评价中得到参考和建议。因此,观点检索具有很高的研究价值和应用价值。本文在研究了信息检索理论与文本倾向性分析技术等的基础上,结合国内外关于观点检索的相关研究,提出了基于关联度的文本观点检索算法,该算法综合考虑了观点检索过程中查询扩展,文本相关度计算,文本倾向性分析等过程对观点检索最后结果的影响,从理论上解决了观点检索中不同因素之间相互影响的问题。此外,本文讨论了目前常用于英文文本观点检索的一些方法,将其应用于中文中,并讨论了不同参数,不同资源下上述算法的效果。在阐述上述算法的过程中,本文研究了查询扩展算法,情感词词典构造方法等。此外,本文分别使用文本分类和基于情感词词汇的细颗粒度的方法对观点检索返回的文本进行倾向性分析。最后,本文对上述各种方法一一进行实验,通过实验,验证了上述各方法的效果,实验所得结果证明,本文提出的基于关联度的观点检索算法可以取得较好的效果,从而证明了该方法具有可行性和有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 本文主要研究内容及创新点
  • 1.3 文章结构
  • 第二章 相关研究工作
  • 2.1 观点检索
  • 2.2 倾向性分析
  • 2.3 相关评测
  • 2.3.1 TREC博客倾向性检索
  • 2.3.2 中文文本倾向性分析评测
  • 2.4 本章小结
  • 第三章 主题检索
  • 3.1 主题检索算法与模型
  • 3.1.1 布尔模型
  • 3.1.2 向量空间模型
  • 3.1.3 概率检索模型
  • 3.1.4 语言模型
  • 3.2 查询扩展
  • 3.2.1 查询扩展的意义
  • 3.2.2 基于伪反馈与外部资源像结合的查询扩展
  • 3.3 实验与结果分析
  • 3.4 本章小结
  • 第四章 基于线性拟合模型的观点检索
  • 4.1 主题检索
  • 4.2 情感分析
  • 4.3 实验
  • 4.4 本章小结
  • 第五章 基于生成模型的观点检索
  • 5.1 原理与模型介绍
  • 5.2 算法实现
  • 5.2.1 主题相关检索
  • 5.2.2 文本情感计算
  • 5.2.3 基于生成模型的观点检索的排序函数
  • 5.3 实验
  • 5.3.1 不同情感词词典下的检索效果
  • 5.3.2 不同主题检索公式下的效果
  • 5.3.3 不同窗口大小的检索效果
  • 5.3.4 不同拟合模型的比较
  • 5.4 本章小结
  • 第六章 基于关联度的观点检索
  • 6.1 基于关联度的观点检索算法
  • 6.2 算法的实现
  • 6.2.1 查询主题与扩展主题关联度的计算
  • 6.2.2 每个查询词与文本关联度的计算
  • 6.2.3 文本情感词情感的计算
  • 6.2.4 情感与主题的关联度的计算
  • 6.3 实验
  • 6.3.1 不同情感词词典的检索效果
  • 6.3.2 不同文本检索算法的检索效果5
  • 6.3.3 不同观点检索方法的比较
  • 6.4 本章小结
  • 第七章 文本倾向性分析
  • 7.1 基于支持向量机的文本倾向性分类
  • 7.1.1 支持向量机介绍
  • 7.1.2 基于SVM的文本倾向性分类
  • 7.2 基于细颗粒度的倾向性判别
  • 7.2.2 极性词词典的构造
  • 7.2.2.1 知网介绍
  • 7.2.2.2 利用义原构造词典
  • 7.2.3 基于细颗粒度的文本倾向性分析算法
  • 7.2.3.1 工具选用
  • 7.2.3.2 基于词汇的倾向性分析
  • 7.3 实验与分析
  • 7.4 本章小结
  • 第八章 总结与展望
  • 8.1 本文的工作总结
  • 8.2 未来的工作展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文
  • 相关论文文献

    • [1].自然场景图像中的中文文本提取[J]. 计算机与数字工程 2020(01)
    • [2].基于词或词组长度和频数的短中文文本关键词提取算法[J]. 计算机科学 2016(12)
    • [3].中文文本情感分析方法研究[J]. 电脑知识与技术 2018(02)
    • [4].基于中文文本分析的微博情感地图的制作[J]. 计算机系统应用 2017(02)
    • [5].浅谈对外传播中文文本的写作[J]. 对外传播 2012(10)
    • [6].《纽约公约》通过五十周年之年再论公约中文文本[J]. 仲裁研究 2009(01)
    • [7].基于字符级双通道复合网络的中文文本情感分析[J]. 计算机应用研究 2020(09)
    • [8].用于形式背景提取的中文文本表示[J]. 计算机技术与发展 2010(09)
    • [9].基于混合注意力机制的中文文本蕴含识别方法[J]. 北京信息科技大学学报(自然科学版) 2020(03)
    • [10].面向中文文本倾向性分类的对抗样本生成方法[J]. 软件学报 2019(08)
    • [11].中文文本情感倾向分析研究[J]. 情报资料工作 2013(01)
    • [12].基于事件语义特征的中文文本蕴含识别[J]. 中文信息学报 2013(05)
    • [13].中文文本情感倾向性五元模型研究[J]. 通信技术 2011(07)
    • [14].一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J]. 计算机应用研究 2010(10)
    • [15].面向领域中文文本信息处理的术语识别与抽取研究综述[J]. 图书情报工作 2010(16)
    • [16].基于城市监控的自然场景图像的中文文本提取方法[J]. 计算机研究与发展 2019(07)
    • [17].中文文本信息隐藏研究进展[J]. 通信学报 2019(09)
    • [18].基于规则的中文文本时间表达式识别和规范化方法[J]. 信息工程大学学报 2017(05)
    • [19].基于非负矩阵分解的中文文本主题分类[J]. 计算机工程 2009(13)
    • [20].中文文本分割模式获取及其优化方法[J]. 南昌大学学报(理科版) 2011(06)
    • [21].中文文本倾向性分类技术比较研究[J]. 信息安全与通信保密 2010(04)
    • [22].面向阅读理解的多对一中文文本蕴含问题研究[J]. 中文信息学报 2018(04)
    • [23].基于支持向量机的中文文本蕴涵识别研究[J]. 计算机应用与软件 2014(04)
    • [24].基于流形学习的视频中文文本检测算法[J]. 科技通报 2012(10)
    • [25].中文文本复制检测系统[J]. 山西大同大学学报(自然科学版) 2008(02)
    • [26].基于多层注意力机制的中文文本蕴涵识别方法[J]. 计算机工程与设计 2020(08)
    • [27].自然场景图像中的中文文本检测算法[J]. 计算机工程与设计 2018(03)
    • [28].基于情感字典与连词结合的中文文本情感分类[J]. 四川大学学报(自然科学版) 2015(01)
    • [29].基于深度学习的智能中文文本检校方法[J]. 现代电信科技 2017(04)
    • [30].基于语义和统计特征的中文文本表示方法[J]. 中国管理信息化 2009(15)

    标签:;  ;  ;  ;  

    面向主题的中文文本观点检索研究
    下载Doc文档

    猜你喜欢