Web中的行情数据抽取与预测研究

Web中的行情数据抽取与预测研究

论文摘要

随着Web技术的飞速发展,万维网已经成为世界上最大的资源库,面向Web数据的挖掘与应用成为数据挖掘领域的研究热点。其中,针对Web中大量动态表格形式的行情数据的有效获取和预测,具有理论价值和实际意义。本文主要针对这一课题开展研究,内容如下:(1)提出了Web行情数据抽取算法和Web页特征抽取算法。两个算法都充分利用了HTML的语法规则和Web页设计规律。Web行情数据抽取算法主要基于“Web行情数据通常在网页中表现为区域最大的数据表格”等规律,首先自动识别出最大的数据表格,然后转换为DOM树结构,最后抽取DOM树的结点值。与传统算法不同,算法无需用户定义抽取数据区域,实现了自动抽取。为了描述被抽取的页面,提出了Web页的元数据描述模型及元数据提取算法。元数据抽取算法充分利用Web页规律,通过正则表达式实现了有效抽取。实验表明,Web行情数据抽取算法和元数据提取算法均具有较好的性能。(2)开展了Web行情数据的预测研究。行情数据预测需求一般分为长期预测(一年以上)和短期预测(一年之内)。利用Web行情数据抽取算法获取某农产品报价数据后,针对长期和短期预测需求,分别运用多个时间序列预测模型、使用不同的样本数据,比较预测模型和样本数据对预测性能的影响。实验表明,长期预测采用线性季节模型和长期样本数据的性能较好;短期预测采用Holter-Winter季节模型和短期样本数据的性能较好。(3)设计并实现了一个农产品价格预测原型系统。该系统针对某个农产品,自动从特定网站获取每日价格行情数据,以图式显示指定样本区间的价格数据,并根据用户输入的预测区间选择模型进行价格预测。

论文目录

  • 摘要
  • ABSTRACT
  • 致谢
  • 第一章 绪论
  • 1.1 问题的提出
  • 1.2 本文的研究内容
  • 1.3 论文的组织
  • 1.4 本章小结
  • 第二章 WEB文本挖掘概述
  • 2.1 Web挖掘概述
  • 2.1.1 Web挖掘的定义
  • 2.1.2 Web挖掘的分类
  • 2.1.3 Web挖掘的步骤
  • 2.1.4 Web挖掘的应用
  • 2.1.5 相关概念比较
  • 2.2 Web技术的发展
  • 2.2.1 从静态网页到动态网页
  • 2.2.2 从 HTML、XML到语义 Web
  • 2.2.3 Web服务
  • 2.2.4 Web标准
  • 2.3 Web文本挖掘
  • 2.3.1 Web文本挖掘的定义
  • 2.3.2 Web文本挖掘的步骤
  • 2.3.3 Web文本挖掘的策略
  • 2.4 Web文本挖掘的研究与应用
  • 2.4.1 Web文本挖掘的研究内容与研究进展
  • 2.4.2 Web文本挖掘的原型系统与商业应用
  • 2.4.3 Web文本挖掘面临的挑战
  • 2.5 本章小结
  • 第三章 WEB行情数据抽取和 WEB页特征表示
  • 3.1 引言
  • 3.2 Web页的结构分析
  • 3.2.1 Web文本的有关概念
  • 3.2.2 Web页的结构
  • 3.2.3 Web页的结构规律
  • 3.3 基于结构分析的 Web行情数据抽取
  • 3.3.1 Web行情数据抽取的研究现状
  • 3.3.2 行情数据数据的抽取算法
  • 3.3.3 分析与实验
  • 3.4 Web页的特征表示和特征数据获取
  • 3.4.1 Web页特征表示的研究现状
  • 3.4.2 Web页的特征表示
  • 3.4.3 Web页特征提取算法
  • 3.4.4 实验与分析
  • 3.5 本章小结
  • 第四章 WEB行情数据的预测
  • 4.1 时间序列概述
  • 4.1.1 时间序列的分类及预测步骤
  • 4.1.2 时间序列的有关概念
  • 4.1.3 基于统计的时间序列预测方法
  • 4.1.4 时间序列的其他预测方法
  • 4.1.5 时间序列预测的评价
  • 4.2 Web行情数据准备与分析
  • 4.2.1 数据准备
  • 4.2.2 数据分析
  • 4.2.3 实验目的和方法
  • 4.3 长期月度均价预测
  • 4.3.1 预测模型分析
  • 4.3.2 预测实验
  • 4.3.3 预测性能比较
  • 4.4 短期每日价格预测
  • 4.4.1 预测模型分析
  • 4.4.2 预测实验
  • 4.4.3 预测性能比较
  • 4.5 Web农产品价格预测原型系统
  • 4.5.1 系统简介
  • 4.5.2 农产品行情数据的获取模块
  • 4.5.3 数据显示模块
  • 4.5.4 价格预测模块
  • 4.5.5 原型系统截图
  • 4.6 本章小结
  • 第五章 总结与展望
  • 5.1 论文的主要工作
  • 5.2 工作展望
  • 参考文献
  • 研究生期间学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    Web中的行情数据抽取与预测研究
    下载Doc文档

    猜你喜欢