黄晓晖郑州大学信息管理系河南郑州450001
中图分类号:G203文献标识码:A文章编号:41-1413(2011)11-0000-01
摘要:本文介绍了知识发现、数据挖掘与网络信息挖掘的含义,阐述了网络信息挖掘的实现过程及类型,最后指出了网络信息挖掘的应用前景。
关键字:网络信息挖掘;数据挖掘;网络信息检索
随着网络信息资源的急剧增长,人们越来越多地关注如何开发和利用这些资源。然而,目前中英文搜索引擎均存在查准率、查全率不高的现象,这种现状无法适应用户对高质量的网络信息服务的需求;同时电子商务以及各种网络信息服务迅速兴起,原有的网络信息处理与组织技术无法赶上这样的发展趋势,WebMing(网络信息挖掘)就是在这样一种环境下应运而生的。
1网络信息挖掘概述
1.1知识发现与数据挖掘
知识发现,又叫数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是指从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的处理过程。知识发现的对象通常是大型数据库或者数据仓库,网络信息是巨大的信息源,所以可以作为知识发现的对象。知识发现包含多个具体的步骤,如数据预处理、模式提取、知识评估等。知识发现提取的知识一般表现为概念、规则、规律等形式。知识发现实际上是从大量的数据中挖掘有价值的能够支持决策的信息。
数据挖掘(DataMining)是指从大型数据库或数据仓库中提取隐含的、未知的、有潜在应用价值的信息或模式。数据挖掘是利用各种分析工具在海量数据中发现模型和数据间关系的过程,可以帮助决策者寻找数据间潜在的关联,发现被忽略的因素,因而被认为是解决当今时代所面临的数据爆炸而信息贫乏的一种有效方法。知识发现和数据挖掘具有密切的联系。知识发现是指从数据中发现有用知识的整个过程,数据挖掘是这一过程中的一个关键步骤,数据挖掘算法位于知识发现整个过程的核心。
1.2网络信息挖掘
网络信息挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取信息的过程。它涉及到多个研究领域,除了密切相关的机器学习和自然语言处理领域以外,还有数据库、信息检索、人工智能等研究领域。或者可以理解为网络信息挖掘就是Web数据的挖掘,即利用数据挖掘技术从网站收集的数据中发现潜在的模式和关联,网络信息挖掘能够将Web数据转换变成有用的洞察力和智能,从而来描述站点和访问站点的人。网络信息挖掘可用于加强网站的导航功能、客户交互的个性化以及保证网站的可靠性。
2网络信息挖掘的实现过程
网络信息挖掘是一个极其复杂的过程,它不同于传统的数据仓库技术平和简单的知识发现,它面对的海量信息不是全简单的结构化数据,而常常为半结构化的数据,如文本、图形、图像数据,甚至是异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。网络信息挖掘大致分为4个步骤:
2.1资源发现,即检索所需的网络文档。
2.2信息选择和预处理,即从检索到的网络资源中自动挑选和预先处理得到专门的信息。
2.3概括化,即从单个的Web站点以及多个站点之间发现普遍的模式。
2.4分析,对挖掘出的模式进行确认。
3网络信息挖掘的类型
根据挖掘对象的不同,网络信息挖掘可以分为为网络内容挖掘、网络结构挖掘以及网络用法挖掘三种类型。
3.1网络内容挖掘
即从网络的内容/数据/文档中发现有用信息的过程。网络信息资源类型众多,从网络信息源的角度看,大量的网络信息资源可以直接从网上抓取、建立索引、实现检索服务,但是还有一些网络信息是“隐藏”的,如由用户的提问而动态生成的结果。或是存在DBMS中的数据,或是那些私人数据,它们无法被索引。从而无法提供对它们有效的检索方式;从资源形式看,网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的,因此网络内容挖掘是一种多媒体数据挖掘形式。
3.2网络结构挖掘
即挖掘Web潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主题的权威站点。
3.3网络用法挖掘
通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。网络内容挖掘、网络结构挖掘的对象是网上的原始数据,而网络用法挖掘则面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。运用网络用法挖掘技术能够从服务器以及浏览器端的日志记录中自动地发现隐藏在数据中的模式信息、了解系统的访问模式以及用户的行为模式,从而作出预测性分析。例如通过评价用户对某一信息资源所花的浏览时间,可以判断出用户对该资源感兴趣程度;对日志文件所收集到的域名数据,根据国家或域类型(.com,.edu,.gov)进行分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。这项技术已经有效地运用在电子商务之中。众所周知,信息的收集、加工、分析或挖掘以及传播的过程并不是孤立的。
因此,在实际应用中,上述3类挖掘手段可以结合使用。它们的共同目标是充分利用多种网络信息资源,多角度、多层次地挖掘出支持不同商业决策需要的信息和知识。
4网络信息挖掘的应用
网络信息挖掘在实际工作中具有重要的实践意义和广阔的应用前景,可以应用在科学研究、市场营销、金融投资、产品制造、教学管理及网络管理等方面。
网络信息挖掘在电子商务中的应用主要是了解客户,针对不同客户提供不同的产品,提供个性化服务,确定顾客消费的生命周期,制定相应的营销策略,分析潜在的目标市场,优化电子商务网站的经营模式;应用于电子政务中主要用于民情信息的挖掘分析,为政府重大政策出台提供决策支持,通过对网络各种经济资源的挖掘,确定未来经济的走势,从而制定出相应的政策,这样可以较大程度地提高政府信息化水平;网络信息挖掘作为一种开发利用网络资源的有力工具,在企业竞争情报系统的工作中发挥重要作用,通过对大量专利数据的分析归纳,发现权威站点和有重要价值的隐藏信息,并能监视和预测用户的访问习惯,通过对大量专利数据的分析归纳,挖掘出现有专利的模式和发展趋势,可以评价企业的竞争能;网络信息挖掘还可以应用于搜索引擎,网络上存在着大量重复的网页,通过网络信息挖掘技术判断出重复的网页,并屏蔽掉这些重复信息,消除了重复信息的查询结果界面更加有序且方便于用户;另外网络信息挖掘还可以应用于数字图书馆建设,主要应用于数字图书馆的信息资源建设、管理系统和个性化服务几个方面,通过采用网络信息挖掘技术,可以将网络上丰富的信息资源聚集到数字图书馆,通过挖掘、加工和处理涉及信息需求者行为的大量信息,确定需求群体或个体的兴趣及需求倾向等,为读者提供高水平的基于数字化、智能化、个性化的主动服务。
参考文献:
[1]王娜.网络信息挖掘探析[J].高校图书馆工作,2007,(3):38-40.
[2]叶云,万明明.网络信息挖掘技术探讨[J].广西大学学报,2007,(9):282-284.
[3]黄晓斌.论网络文献信息的挖掘[J].图书情报知识,2002(6):6-10.
[4]黄晓斌.网络信息挖掘[M].北京:电子工业出版社.2005:1.
[5]费愉庆.网络信息的挖掘技术[J].图书馆学研究.2005(7):9-11.