北方民族大学
摘要:元搜索引擎是DeepWeb数据库在检索领域主要的研究内容,另外还包括实现DeepWep在网路爬虫上的设计方案,而在DeepWeb的数据库结构组织上,如何有效对信息资源进行聚类与分类则是主要的研究目的。
关键词:DeepWeb;数据库;分类研究
一、DeepWep数据库一般分类方法
在基于网页上下文的DeepWeb数据库分类研究中,笔者试图将网页的表的标记词和文本信息统一进行网页聚类分析,进而达到准确分类数据库的目的,这种方法也可以称为表聚类分类法,其根本原理就是将网页中的文本内容转化为数据库信息的上下文。虽然有关研究已经进行这种分类方法的实践,但是由于简单的处理网页和表等内容,只用向量来表示HTML的全部词和表的标记词,最后进行K-means计算方法的聚类分析,因此导致网页上会出现一定的噪音信息,比如版权、修饰、导航以及公告等情况,大大降低了聚类处理的效果。并且由于数据库在系统上是依靠不同的用户来实现的,表在属性标记词上不一定会使用一致的标记词,例如“employerfinder”和“Jobsearch”这些情况,虽然这些标记词在语义是同样的意思,但是计算机系统会判断成不相同的,尤其是在数据库表中只有较少数量的标记词时,这样简单的聚类会极度降低网页内容的精确分类。
因此本文为了提高网页分类的精确性,只使用包括数据库表格网页的信息文本,并以此为数据库的上下文对DeepWep数据库实行分类计算分析,主要优势在于以下几个方面:
(1)可以在HTML网页文本中多样统计特性的基础上,给出文本内容模块中的发现算法。并且这种算法可以很好解决单纯使用网页视觉特性无法准确判别的问题,比如在处理DeepWep网页上。
(2)本文基于分类指导的特点,应用分层模糊集合的方法来对应表示有向图的内容,并且在数据属性词上利用元来替代并进行归一计算。
(3)根据数据库表间的距离和文本内容之间的距离,综合计算DeepWep数据之间的距离,并且在K-NN分类计算方法的框架内,得出新的DeepWep数据库的计算分类方法。
二、网页中内容文本信息的获取
目前,网页中提取文本内容信息的方法有很多,并且研究程度也比较深入。比如常见的基于视觉的分块法和利用模板清除噪音获取文本信息的方法,也包括根据网页的布局对页面分块的方法。但是在DeepWep网页设计风格上的巨大差异,以及可视区域的位置不同等情况下,很多提取方法必须借助于描述文本,并且准确的确定文本的位置,但是由于文本位置的不固定等原因,许多提取内容文本的方法实际效果不是太好,所以有了设计新的发现算法来处理文本内容的必要性。
首先,结合有关文献和网页的实际情况,可以应用决策树和统计分析的方法来获得内容文本的特征信息。并在此基础上进一步计算各个特征的属性情况,如果属性值比较连续,还需进行离散化处理。并依据贝叶斯公式计算主体内容块的大致概率。
在MFM算法中,可以根据计算出的概率来判断网页文本的内容。在试验数据处理上,实验指标一般下面的方式来表示。
噪音去除率NRR=(去除噪音的文本长度)/(噪音本文长度的总量)
内容提取率CER=(主题内容提取的文本长度)/(主题内容文本的总长度)
如表1所示,本次实验利用IM、PM、DTM以及MFM这四个算法分别进行内容提取率和噪音去除率的计算,从结果中可以明显看出来,PM算法虽然可以实现较高的噪音去除率,但是内容提取率去不高。所以相对来说,MFM算法在噪音去除率和内容提取率的上效果相对最好。
三、分类计算方法
首先是将HTML网页设为P,并且将P分为FC和PC两个部分,并且取出FC部分中的表格描述内容。在归一化计算后,在新的FC和PC上分别计算它们的权重值,并用向量空间来表示每个部分中的文档。在分类计算方法中,使用K-NN来对DeepWep中数据库表内部的网页进行分类。
根据以上分析探讨,造成数据库分类精确度较低的原因主要在于标记词语义的使用上,也就是同一数据库使用了不同的近义词或者同义词来标记内容。所以文本根据模糊分层集合的对应图,对近义词和同义词实行归一化处理,其中标的向量是根据新的词频算法产生的。在实验分析后,归一化处理方法也取得了较高的查全率和分类准确度,这也为该算法的进一步扩展应用奠定了依据。在此基础上,结合网页分类算法和垂直网络爬虫,完整的DeepWep数据资源检索系统也会在不久的将来得到实现。
参考文献:
[1]赵朋朋,高岭,崔志明.基于查询接口特征的DeepWeb数据源自动分类[J].微电子学与计算机.2012(22).
[2]刘伟,孟小峰,孟卫一.DeepWeb数据集成研究综述[J].计算机学报.2012(13).
[3]周二虎,张水平,胡洋.基于DeepWeb检索的查询结果处理技术的应用[J].计算机工程与设计.2010(01).