论文摘要
基于网络搜索的信息分析与预测是依据用户的网络搜索行为来解释事物内在规律,并对事物未知变化趋势进行估计的一种信息分析与预测活动。它的起源和发展离不开互联网的普及和发展,尤其是网络搜索引擎的出现,为信息分析与预测提供了庞大的用户样本和海量的数据。国外研究人员在本世纪初就开始了该领域的实证研究, Ginsberg等人针对流感流行趋势的研究成为该领域研究的重要代表成果,也推动了基于网络搜索的信息分析与预测研究成为国内外学者广泛关注的研究内容。本文以基于网络搜索的信息分析与预测活动中的重要环节——关键词选择作为研究对象,详细介绍了基于网络搜索的信息分析与预测活动的相关理论,阐述了面向信息分析与预测的网络搜索关键词选择的基本过程,详细介绍了关键词选择的两种方法,即关键词集中度和相关度,尝试使用这两种方法对观测关键词的选择进行实验效果分析。全文共分六章,主要内容如下:(1)基于网络搜索的信息分析与预测的相关理论本章系统阐述了基于网络搜索的信息分析与预测的概念、起源和发展、作用、特点,以及基于网络搜索的信息分析与预测的研究视角、内在机制及影响因素,并利用Ginsberg的45个流感关键词分析了基于网络搜索的信息分析与预测的局限性,最后提出了基于网络搜索的信息分析与预测的基本流程。(2)面向信息分析与预测的网络搜索关键词选择的基本过程本章重点介绍了分析预测过程的重要环节——关键词选择的过程。关键词、数据集以及分析预测模型是基于网络搜索的信息分析与预测的三个主要因素。基于网络搜索的信息分析与预测活动包括前期分析、关键词选择、相关分析及预测模型建立、效果验证、实施预测、动态修正等六个主要环节。关键词的选择过程包括任务准备、选择关键词数据来源、选择初始关键词、收集候选关键词以及确定观测关键词、确定关键词的分析与预测组合以及反馈修改等七个主要过程。关键词选择过程是从初始关键词、候选关键词到观测关键词的一个过程。对于最终用于分析与预测的观测关键词则具有典型的马太效应、长尾效应等现象,其离散分布则呈现出一种Zipf分布特征。(3)关键词集中度分析本章引入了关键词集中度、关键词移动平均集中度、关键词集中度变化率以及关键词移动平均集中度变化率等概念。以Ginsberg的45个流感关键词作为研究对象,发现在区分关键词“稳定—突变”特征的效果上,关键词集中度变化率要优于关键词集中度。(4)关键词相关度分析本章主要介绍了简单相关性分析和时序相关分析方法,包括pearson、spearman、时差相关、峰谷对应等相关分析方法。在与万科股票相关的关键词选择实例分析中,发现pearson、spearman可以有效地判断同步条件下的关键词相关性强弱特征,而时差相关分析方法则可以有效地识别关键词“领先—滞后”特征。(5)H7N9禽流感关键词选择实验研究本章主要结合2013年上半年爆发的H7N9禽流感疫情,运用关键词集中度和相关度分析方法,对与H7N9禽流感爆发有关的关键词进行比较分析,并得出了可用于不同研究领域的三组观测关键词表。(6)对论文的整体进行总结和展望本章对全文的研究工作进行总结,并对基于网络搜索的信息分析与预测研究的未来发展方向进行了展望,提出了三个有价值的研究问题。
论文目录
论文创新点中文摘要Abstract目录图目录表目录0 引言0.1 选题背景和研究意义0.1.1 选题背景0.1.2 研究意义0.2 国内外研究现状分析0.2.1 国外研究现状0.2.2 国内研究状况0.2.3 国内外研究比较0.2.4 国内外研究中存在的不足0.3 研究目标、内容和研究方法0.3.1 研究目标0.3.2 研究内容0.3.3 研究工具0.3.4 研究方法0.3.5 创新点1 相关理论1.1 基于网络搜索的信息分析与预测概念1.1.1 基于网络搜索的信息分析与预测概念1.1.2 相关概念1.1.2.1 网络搜索1.1.2.2 关键词、搜索量1.1.2.3 关键词选择、关键词集中度、关键词相关度1.2 基于网络搜索的信息分析与预测的起源与发展1.2.1 起源与发展1.2.2 未来趋势1.3 基于网络搜索的信息分析与预测的作用和特点1.3.1 基于网络搜索的信息分析与预测的作用1.3.2 基于网络搜索的信息分析与预测的特点1.4 基于网络搜索的信息分析与预测的内在机制1.4.1 网络搜索是一个重要信息获取工具是存在相关性的主要原因1.4.2 信息需求的有效满足是基于网络搜索的信息分析与预测有效性的基础1.5 基于网络搜索的信息分析与预测的影响因素及局限性1.5.1 基于网络搜索的信息分析与预测的影响因素1.5.2 基于网络搜索的信息分析与预测局限性——以Ginsberg关键词为例1.5.2.1 Ginsberg流感关键词噪声分析1.5.2.2 基于网络搜索的信息分析与预测的局限性1.6 基本流程1.6.1 基于交叉验证模式的分析预测流程1.6.2 基于关键词指数合成的分析预测流程1.6.3 基于相关性分析的流程1.6.4 基于网络搜索的信息分析与预测的基本流程1.7 本章小结2 关键词选择的重要性及基本过程2.1 关键词选择的重要性2.2 关键词选择的基本过程2.3 任务准备2.4 确定关键词数据来源2.4.1 关键词数据来源网站介绍2.4.1.1 谷歌趋势2.4.1.2 百度指数2.4.1.3 雅虎Buzz指数网站2.4.1.4 淘宝指数2.4.1.5 搜狐视频指数网站2.4.1.6 排行榜类型网站2.4.2 关键词数据来源网站的比较分析2.4.2.1 指数类网站和排行榜类网站的比较2.4.2.2 四个指数类网站的比较2.4.3 关键词数据来源网站的选择2.4.3.1 指数类网站的选择2.4.3.2 排行榜类网站的选择2.5 选择初始关键词2.5.1 初始关键词的特点2.5.2 初始关键词的来源2.6 收集候选关键词2.6.1 收集候选关键词原则2.6.2 关键词工具2.6.3 网站相关关键词功能2.6.4 其他关键词挖掘方法2.7 确定观测关键词2.7.1 观测关键词选择标准2.7.2 观测关键词的形式2.7.3 观测关键词的分布特征2.8 确定关键词的分析与预测组合2.9 反馈修正2.10 本章小结3 关键词集中度分析3.1 关键词集中度的定义3.2 关键词移动平均集中度的定义3.3 关键词集中度变化率的定义3.4 基于GINSBERG流感搜索数据的关键词集中度实例分析3.4.1 数据准备和处理3.4.2 Ginsberg的流感关键词集中度分析3.4.3 Ginsberg的流感关键词集中度变化率分析3.4.4 比较分析3.4.5 结论3.5 本章小结4 关键词相关度分析4.1 简单相关分析方法—识别关键词相关度强弱4.1.1 pearson相关系数4.1.2 Spearman相关系数4.1.3 与万科股票相关的关键词相关度分析实例4.2 时序相关分析法——识别关键词“领先—滞后”特征4.2.1 时差相关分析法4.2.2 峰谷对应方法4.2.3 与万科股票相关的关键词时差相关分析实例4.3 本章小结5 H7N9禽流感关键词选择实验5.1 实验缘由、目的和意义5.2 H7N9禽流感关键词选择实验过程5.2.1 确定数据采集来源及数据处理5.2.2 初始关键词选择5.2.3 候选关键词挖掘5.2.4 观测关键词的确定5.2.4.1 关键词集中度分析5.2.4.2 关键词相关度分析5.2.5 确定分析与预测关键词组合5.3 实验结论5.4 不足之处6 结论与展望6.1 本文结论6.2 未来研究工作的展望参考文献后记
相关论文文献
标签:网络搜索论文; 信息分析与预测论文; 关键词选择论文; 关键词集中度论文; 关键词相关度论文;
面向信息分析与预测的网络搜索关键词集中度和相关度研究
下载Doc文档