论文摘要
随着Web技术的飞速发展,万维网已经成为世界上最大的资源库,面向Web数据的挖掘与应用成为数据挖掘领域的研究热点。其中,针对Web中大量动态表格形式的行情数据的有效获取和预测,具有理论价值和实际意义。本文主要针对这一课题开展研究,内容如下:(1)提出了Web行情数据抽取算法和Web页特征抽取算法。两个算法都充分利用了HTML的语法规则和Web页设计规律。Web行情数据抽取算法主要基于“Web行情数据通常在网页中表现为区域最大的数据表格”等规律,首先自动识别出最大的数据表格,然后转换为DOM树结构,最后抽取DOM树的结点值。与传统算法不同,算法无需用户定义抽取数据区域,实现了自动抽取。为了描述被抽取的页面,提出了Web页的元数据描述模型及元数据提取算法。元数据抽取算法充分利用Web页规律,通过正则表达式实现了有效抽取。实验表明,Web行情数据抽取算法和元数据提取算法均具有较好的性能。(2)开展了Web行情数据的预测研究。行情数据预测需求一般分为长期预测(一年以上)和短期预测(一年之内)。利用Web行情数据抽取算法获取某农产品报价数据后,针对长期和短期预测需求,分别运用多个时间序列预测模型、使用不同的样本数据,比较预测模型和样本数据对预测性能的影响。实验表明,长期预测采用线性季节模型和长期样本数据的性能较好;短期预测采用Holter-Winter季节模型和短期样本数据的性能较好。(3)设计并实现了一个农产品价格预测原型系统。该系统针对某个农产品,自动从特定网站获取每日价格行情数据,以图式显示指定样本区间的价格数据,并根据用户输入的预测区间选择模型进行价格预测。
论文目录
摘要ABSTRACT致谢第一章 绪论1.1 问题的提出1.2 本文的研究内容1.3 论文的组织1.4 本章小结第二章 WEB文本挖掘概述2.1 Web挖掘概述2.1.1 Web挖掘的定义2.1.2 Web挖掘的分类2.1.3 Web挖掘的步骤2.1.4 Web挖掘的应用2.1.5 相关概念比较2.2 Web技术的发展2.2.1 从静态网页到动态网页2.2.2 从 HTML、XML到语义 Web2.2.3 Web服务2.2.4 Web标准2.3 Web文本挖掘2.3.1 Web文本挖掘的定义2.3.2 Web文本挖掘的步骤2.3.3 Web文本挖掘的策略2.4 Web文本挖掘的研究与应用2.4.1 Web文本挖掘的研究内容与研究进展2.4.2 Web文本挖掘的原型系统与商业应用2.4.3 Web文本挖掘面临的挑战2.5 本章小结第三章 WEB行情数据抽取和 WEB页特征表示3.1 引言3.2 Web页的结构分析3.2.1 Web文本的有关概念3.2.2 Web页的结构3.2.3 Web页的结构规律3.3 基于结构分析的 Web行情数据抽取3.3.1 Web行情数据抽取的研究现状3.3.2 行情数据数据的抽取算法3.3.3 分析与实验3.4 Web页的特征表示和特征数据获取3.4.1 Web页特征表示的研究现状3.4.2 Web页的特征表示3.4.3 Web页特征提取算法3.4.4 实验与分析3.5 本章小结第四章 WEB行情数据的预测4.1 时间序列概述4.1.1 时间序列的分类及预测步骤4.1.2 时间序列的有关概念4.1.3 基于统计的时间序列预测方法4.1.4 时间序列的其他预测方法4.1.5 时间序列预测的评价4.2 Web行情数据准备与分析4.2.1 数据准备4.2.2 数据分析4.2.3 实验目的和方法4.3 长期月度均价预测4.3.1 预测模型分析4.3.2 预测实验4.3.3 预测性能比较4.4 短期每日价格预测4.4.1 预测模型分析4.4.2 预测实验4.4.3 预测性能比较4.5 Web农产品价格预测原型系统4.5.1 系统简介4.5.2 农产品行情数据的获取模块4.5.3 数据显示模块4.5.4 价格预测模块4.5.5 原型系统截图4.6 本章小结第五章 总结与展望5.1 论文的主要工作5.2 工作展望参考文献研究生期间学术论文
相关论文文献
标签:挖掘论文; 文本挖掘论文; 行情数据抽取论文; 时间序列预测论文;