Web观点挖掘系统的关键技术研究

Web观点挖掘系统的关键技术研究

论文摘要

随着互联网的迅速发展和普及,互联网已成为人们获取信息的重要渠道;同时,它也成为人们表达自己观点、看法、情感的平台。因此,在各大电子商务网站、电子公告板以及门户网站上出现了大量的有关各种商品的评论信息。商家和厂家的决策者需要了解顾客使用他们商品情况的反馈意见,潜在的购买者也需要根据别人的使用体验来作出是否购买该商品的决定。对于商品生产厂家和潜在的商品购买者而言,面对网络上如此大量、复杂的评论信息,如何迅速有效地获取自己感兴趣的商品评论的总体观点极性倾向(正面的还是负面的)就成为了一个新的问题。观点挖掘技术的出现,正是为了解决这个问题。它融合了信息检索、信息抽取、文本分类、机器学习、自然语言处理、本体论等众多技术,具有一定的文本理解能力,更具有一定的智能性。近年来观点挖掘技术的研究十分活跃,由于观点挖掘涉及到大量的理论技术,本文只对观点挖掘系统中的几个关键方面进行了深入的研究,并尝试构建了一个观点挖掘系统(OMS)框架,主要的研究工作如下:1)根据PageRank算法的思想,结合基于文本内容的启发式方法和基于Web超链分析的方法二者之间的优点,提出一种新的爬行方法,为我们的观点搜索系统专门设计了分布式的、改进的聚焦网络爬虫算法,并实现了这个高效的分布式的聚焦爬虫子系统。2)基于最大熵和支持向量机的方法进行评论的高质量与低质量分类研究,过滤掉大量低质量的商品评论,从而保证观点搜索系统能够给出高质量的查询结果。3)利用《知网》构造具有主观性词的种子列表,然后,根据从《知网》中获得的主观词种子列表以及《知网》中词与词之间相似或相反的关系提出了一个观点词的极性倾向判别算法,从而构建一个带有标注词语情感极性倾向的主观词词典。4)使用了本论文的成果以及其它研究者的成果设计了一个基于Web的观点评论挖掘系统框架。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 选题背景
  • 1.2 选题意义
  • 1.3 国内外研究现状简介
  • 1.3.1 国外研究现状
  • 1.3.2 国内研究现状
  • 1.4 论文主要工作及组织结构
  • 1.4.1 论文主要工作
  • 1.4.2 论文组织结构
  • 2 相关概念和基础理论
  • 2.1 传统的基于主题的搜索引擎
  • 2.2 Web2.0的概念及特点
  • 2.3 Web2.0下的观点搜索系统
  • 2.4 文本挖掘的相关技术
  • 2.4.1 传统数据模型介绍
  • 2.4.2 特征选择
  • 2.4.3 文本分类方法
  • 2.4.4 评价标准
  • 2.5 本章小结
  • 3 WEB网页采集技术
  • 3.1 问题描述
  • 3.2 理论基础
  • 3.2.1 聚焦爬虫技术
  • 3.2.2 聚焦爬虫原理
  • 3.2.3 聚焦爬虫采集策略
  • 3.2.4 聚焦爬虫系统平台的搭建
  • 3.3 实验设计
  • 3.4 评价标准和实验结果分析
  • 3.5 本章小结
  • 4 低质量中文商品评论的过滤
  • 4.1 问题描述
  • 4.2 相关研究工作
  • 4.3 数据集及预处理
  • 4.4 基于最大熵和SVM的中文低质量商品评论的检测
  • 4.4.1 基于最大熵的主客观分类
  • 4.4.2 商品与商品评论的相关性的SVM分类
  • 4.5 实验及相关分析
  • 4.6 本章小结
  • 5 主观性评论文本情感倾向分类的研究
  • 5.1 观点挖掘的定义及研究颗粒度
  • 5.2 特征选取
  • 5.3 主观观点词典构造
  • 5.3.1 《知网》简介
  • 5.3.2 主观观点种子的获取造
  • 5.4 主观观点词词典的构建
  • 5.5 本章小结
  • 6 观点搜索系统框架
  • 6.1 现有的观点挖掘系统
  • 6.2 典型Pulse观点挖掘系统简介
  • 6.3 OMS系统的设计
  • 6.4 本章小结
  • 7 总结与展望
  • 7.1 本文总结
  • 7.2 未来展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的学术论文目录
  • 相关论文文献

    • [1].重点目标活动规律挖掘系统设计与实现[J]. 空军预警学院学报 2019(06)
    • [2].面向知识服务的图书馆知识挖掘系统构建探析[J]. 中国中医药图书情报杂志 2020(03)
    • [3].追古溯今:挖掘系统原理在产品设计中的愈加综合性[J]. 设计艺术(山东工艺美术学院学报) 2017(02)
    • [4].采收船振动挖掘系统的结构设计研究[J]. 河北农机 2016(02)
    • [5].连续小波变换高光谱数据降维挖掘系统设计[J]. 激光杂志 2020(07)
    • [6].基于α-算法的流程挖掘系统设计与实现[J]. 软件导刊 2008(07)
    • [7].微博信息挖掘系统的相关算法模型[J]. 警察技术 2013(06)
    • [8].序规则挖掘系统的设计与实现[J]. 江西师范大学学报(自然科学版) 2008(02)
    • [9].网络舆情热点挖掘系统设计与实现[J]. 软件导刊 2015(07)
    • [10].面向数字城管的数据分析与挖掘系统的设计与开发[J]. 计算机时代 2013(08)
    • [11].生化企业生产数据知识挖掘系统[J]. 计算机系统应用 2011(09)
    • [12].可拓分类知识挖掘系统的设计与实现[J]. 计算机应用与软件 2017(01)
    • [13].基于聚类优化的大型网络数据库挖掘系统设计[J]. 现代电子技术 2020(06)
    • [14].基于云计算的三层架构网络用户访问路长数据智能挖掘系统设计[J]. 现代电子技术 2019(11)
    • [15].基于SNS的网络挖掘系统研究[J]. 现代计算机(专业版) 2012(19)
    • [16].针对医学数据案例挖掘系统的算法设计[J]. 中国医疗设备 2011(11)
    • [17].基于大数据技术的生产调度规则提取与挖掘系统设计[J]. 制造业自动化 2020(10)
    • [18].基于学术期刊网的一稿多发信息挖掘系统[J]. 福建电脑 2008(03)
    • [19].网络告警关联规则挖掘系统的研究与设计[J]. 计算机应用与软件 2008(03)
    • [20].基于微博的人物关系网络挖掘系统[J]. 信息网络安全 2013(02)
    • [21].基于数据资源的认知图挖掘系统研究[J]. 重庆邮电大学学报(自然科学版) 2011(03)
    • [22].财经新闻挖掘系统中特征选择算法研究[J]. 数字技术与应用 2011(12)
    • [23].面向目标的关联规则挖掘系统的应用[J]. 山西建筑 2009(33)
    • [24].一种基于星型拓扑的分布式挖掘系统的设计与实现[J]. 计算机系统应用 2008(09)
    • [25].基于Hadoop微博热点话题挖掘系统的设计与实现[J]. 数据通信 2016(02)
    • [26].基于爬虫技术的网络负面情绪挖掘系统设计与实现[J]. 计算机应用与软件 2016(10)
    • [27].Sem Rep处理结果统计挖掘系统的开发[J]. 医学信息学杂志 2013(04)
    • [28].基于web的股评观点挖掘系统[J]. 计算机系统应用 2012(12)
    • [29].基于Hadoop的微博热点话题挖掘系统研究与设计[J]. 电子商务 2014(09)
    • [30].浅析入侵模式挖掘系统结构算法[J]. 大学教育 2013(15)

    标签:;  ;  ;  ;  

    Web观点挖掘系统的关键技术研究
    下载Doc文档

    猜你喜欢