面向信息分析与预测的网络搜索关键词集中度和相关度研究

面向信息分析与预测的网络搜索关键词集中度和相关度研究

论文摘要

基于网络搜索的信息分析与预测是依据用户的网络搜索行为来解释事物内在规律,并对事物未知变化趋势进行估计的一种信息分析与预测活动。它的起源和发展离不开互联网的普及和发展,尤其是网络搜索引擎的出现,为信息分析与预测提供了庞大的用户样本和海量的数据。国外研究人员在本世纪初就开始了该领域的实证研究, Ginsberg等人针对流感流行趋势的研究成为该领域研究的重要代表成果,也推动了基于网络搜索的信息分析与预测研究成为国内外学者广泛关注的研究内容。本文以基于网络搜索的信息分析与预测活动中的重要环节——关键词选择作为研究对象,详细介绍了基于网络搜索的信息分析与预测活动的相关理论,阐述了面向信息分析与预测的网络搜索关键词选择的基本过程,详细介绍了关键词选择的两种方法,即关键词集中度和相关度,尝试使用这两种方法对观测关键词的选择进行实验效果分析。全文共分六章,主要内容如下:(1)基于网络搜索的信息分析与预测的相关理论本章系统阐述了基于网络搜索的信息分析与预测的概念、起源和发展、作用、特点,以及基于网络搜索的信息分析与预测的研究视角、内在机制及影响因素,并利用Ginsberg的45个流感关键词分析了基于网络搜索的信息分析与预测的局限性,最后提出了基于网络搜索的信息分析与预测的基本流程。(2)面向信息分析与预测的网络搜索关键词选择的基本过程本章重点介绍了分析预测过程的重要环节——关键词选择的过程。关键词、数据集以及分析预测模型是基于网络搜索的信息分析与预测的三个主要因素。基于网络搜索的信息分析与预测活动包括前期分析、关键词选择、相关分析及预测模型建立、效果验证、实施预测、动态修正等六个主要环节。关键词的选择过程包括任务准备、选择关键词数据来源、选择初始关键词、收集候选关键词以及确定观测关键词、确定关键词的分析与预测组合以及反馈修改等七个主要过程。关键词选择过程是从初始关键词、候选关键词到观测关键词的一个过程。对于最终用于分析与预测的观测关键词则具有典型的马太效应、长尾效应等现象,其离散分布则呈现出一种Zipf分布特征。(3)关键词集中度分析本章引入了关键词集中度、关键词移动平均集中度、关键词集中度变化率以及关键词移动平均集中度变化率等概念。以Ginsberg的45个流感关键词作为研究对象,发现在区分关键词“稳定—突变”特征的效果上,关键词集中度变化率要优于关键词集中度。(4)关键词相关度分析本章主要介绍了简单相关性分析和时序相关分析方法,包括pearson、spearman、时差相关、峰谷对应等相关分析方法。在与万科股票相关的关键词选择实例分析中,发现pearson、spearman可以有效地判断同步条件下的关键词相关性强弱特征,而时差相关分析方法则可以有效地识别关键词“领先—滞后”特征。(5)H7N9禽流感关键词选择实验研究本章主要结合2013年上半年爆发的H7N9禽流感疫情,运用关键词集中度和相关度分析方法,对与H7N9禽流感爆发有关的关键词进行比较分析,并得出了可用于不同研究领域的三组观测关键词表。(6)对论文的整体进行总结和展望本章对全文的研究工作进行总结,并对基于网络搜索的信息分析与预测研究的未来发展方向进行了展望,提出了三个有价值的研究问题。

论文目录

  • 论文创新点
  • 中文摘要
  • Abstract
  • 目录
  • 图目录
  • 表目录
  • 0 引言
  • 0.1 选题背景和研究意义
  • 0.1.1 选题背景
  • 0.1.2 研究意义
  • 0.2 国内外研究现状分析
  • 0.2.1 国外研究现状
  • 0.2.2 国内研究状况
  • 0.2.3 国内外研究比较
  • 0.2.4 国内外研究中存在的不足
  • 0.3 研究目标、内容和研究方法
  • 0.3.1 研究目标
  • 0.3.2 研究内容
  • 0.3.3 研究工具
  • 0.3.4 研究方法
  • 0.3.5 创新点
  • 1 相关理论
  • 1.1 基于网络搜索的信息分析与预测概念
  • 1.1.1 基于网络搜索的信息分析与预测概念
  • 1.1.2 相关概念
  • 1.1.2.1 网络搜索
  • 1.1.2.2 关键词、搜索量
  • 1.1.2.3 关键词选择、关键词集中度、关键词相关度
  • 1.2 基于网络搜索的信息分析与预测的起源与发展
  • 1.2.1 起源与发展
  • 1.2.2 未来趋势
  • 1.3 基于网络搜索的信息分析与预测的作用和特点
  • 1.3.1 基于网络搜索的信息分析与预测的作用
  • 1.3.2 基于网络搜索的信息分析与预测的特点
  • 1.4 基于网络搜索的信息分析与预测的内在机制
  • 1.4.1 网络搜索是一个重要信息获取工具是存在相关性的主要原因
  • 1.4.2 信息需求的有效满足是基于网络搜索的信息分析与预测有效性的基础
  • 1.5 基于网络搜索的信息分析与预测的影响因素及局限性
  • 1.5.1 基于网络搜索的信息分析与预测的影响因素
  • 1.5.2 基于网络搜索的信息分析与预测局限性——以Ginsberg关键词为例
  • 1.5.2.1 Ginsberg流感关键词噪声分析
  • 1.5.2.2 基于网络搜索的信息分析与预测的局限性
  • 1.6 基本流程
  • 1.6.1 基于交叉验证模式的分析预测流程
  • 1.6.2 基于关键词指数合成的分析预测流程
  • 1.6.3 基于相关性分析的流程
  • 1.6.4 基于网络搜索的信息分析与预测的基本流程
  • 1.7 本章小结
  • 2 关键词选择的重要性及基本过程
  • 2.1 关键词选择的重要性
  • 2.2 关键词选择的基本过程
  • 2.3 任务准备
  • 2.4 确定关键词数据来源
  • 2.4.1 关键词数据来源网站介绍
  • 2.4.1.1 谷歌趋势
  • 2.4.1.2 百度指数
  • 2.4.1.3 雅虎Buzz指数网站
  • 2.4.1.4 淘宝指数
  • 2.4.1.5 搜狐视频指数网站
  • 2.4.1.6 排行榜类型网站
  • 2.4.2 关键词数据来源网站的比较分析
  • 2.4.2.1 指数类网站和排行榜类网站的比较
  • 2.4.2.2 四个指数类网站的比较
  • 2.4.3 关键词数据来源网站的选择
  • 2.4.3.1 指数类网站的选择
  • 2.4.3.2 排行榜类网站的选择
  • 2.5 选择初始关键词
  • 2.5.1 初始关键词的特点
  • 2.5.2 初始关键词的来源
  • 2.6 收集候选关键词
  • 2.6.1 收集候选关键词原则
  • 2.6.2 关键词工具
  • 2.6.3 网站相关关键词功能
  • 2.6.4 其他关键词挖掘方法
  • 2.7 确定观测关键词
  • 2.7.1 观测关键词选择标准
  • 2.7.2 观测关键词的形式
  • 2.7.3 观测关键词的分布特征
  • 2.8 确定关键词的分析与预测组合
  • 2.9 反馈修正
  • 2.10 本章小结
  • 3 关键词集中度分析
  • 3.1 关键词集中度的定义
  • 3.2 关键词移动平均集中度的定义
  • 3.3 关键词集中度变化率的定义
  • 3.4 基于GINSBERG流感搜索数据的关键词集中度实例分析
  • 3.4.1 数据准备和处理
  • 3.4.2 Ginsberg的流感关键词集中度分析
  • 3.4.3 Ginsberg的流感关键词集中度变化率分析
  • 3.4.4 比较分析
  • 3.4.5 结论
  • 3.5 本章小结
  • 4 关键词相关度分析
  • 4.1 简单相关分析方法—识别关键词相关度强弱
  • 4.1.1 pearson相关系数
  • 4.1.2 Spearman相关系数
  • 4.1.3 与万科股票相关的关键词相关度分析实例
  • 4.2 时序相关分析法——识别关键词“领先—滞后”特征
  • 4.2.1 时差相关分析法
  • 4.2.2 峰谷对应方法
  • 4.2.3 与万科股票相关的关键词时差相关分析实例
  • 4.3 本章小结
  • 5 H7N9禽流感关键词选择实验
  • 5.1 实验缘由、目的和意义
  • 5.2 H7N9禽流感关键词选择实验过程
  • 5.2.1 确定数据采集来源及数据处理
  • 5.2.2 初始关键词选择
  • 5.2.3 候选关键词挖掘
  • 5.2.4 观测关键词的确定
  • 5.2.4.1 关键词集中度分析
  • 5.2.4.2 关键词相关度分析
  • 5.2.5 确定分析与预测关键词组合
  • 5.3 实验结论
  • 5.4 不足之处
  • 6 结论与展望
  • 6.1 本文结论
  • 6.2 未来研究工作的展望
  • 参考文献
  • 后记
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    面向信息分析与预测的网络搜索关键词集中度和相关度研究
    下载Doc文档

    猜你喜欢