论文摘要
政府网站是Web技术飞速发展的重要产物之一,从2006年政府网站绩效评估报告中反映出各级政府网站大都已经建立,但是在实际中存在诸多问题,能够切实应用的较少,如何优化和调整政府网站、提高政府网站的服务性和利用率是一项非常重要的工作。目前数据挖掘技术产生和应用,为建设和改善政府网站带来了另一线曙光。政府网站每天有大量的用户访问,生成大量的记录文件和登记表,如何对这些数据进行分析和挖掘,从而充分了解用户的需求、行为方式,对设计出结构合理,满足于不同用户群体需要的实用性、服务性强兼有一些个性化特点的政府网站意义重大。但是,目前针对政府网站日志挖掘的研究内容很少。本文系统地对政府网站日志挖掘进行了研究,主要包括以下内容:首先,在目前对政府网站日志挖掘研究内容很少的情况下,在充分理解政府网站有关方面的基础上,自己总结出政府网站日志挖掘的必要性和意义,提出了本文研究的背景。归纳总结政府网站日志挖掘的国内外研究现状。其次,在系统地分析政府网站、数据挖掘、Web挖掘等概念的基础上,自己归纳出政府网站日志挖掘内涵,并深入说明对政府网站进行日志挖掘的必要性和意义,为研究课题做了理论铺垫。第三,日志预处理阶段是整个Web日志挖掘过程的基础和实施有效挖掘算法的前提。本文结合政府网站的特点,着重介绍政府网站日志预处理过程,并举例说明。同时也对另外两个阶段模式发现和模式分析进行了探讨。第四,关联规则经典算法Apriori的改进与应用时需注意问题,讨论了该算法及其实现,但是该算法有一定的缺陷。在简述目前一些常见的改进技术后,在阅读研究大量文献的基础上,引用了其他学者提出的改进算法。并对Apriori算法应用于政府网站日志挖掘时需要注意的四个方面的问题进行了思考。最后,对研究的课题进行一点扩展,根据政府门户网站的数据挖掘系统特点,提出一个面向政府网站的数据挖掘系统的设计方案。然后根据前面理论研究结合整体方案构建针对面向政府网站“日志”挖掘系统模型,为日志挖掘技术在政府网站中的应用做了初步的建模,并给出了一个政府网站中日志挖掘的实例。结合应用实际和未来发展,针对性分析了日志挖掘在政府网站的应用。