论文摘要
网站的可信度分析是近年来研究的一个热点,目前国内外已经开展了很多相关的研究工作,并取得了一定的成果,但是目前的工作基本上都存在以下几个不足:首先,目前可信度分析的算法基本都是无监督的,缺乏收敛性的证明,缺乏合理的初值选择依据。其次,没有考虑到不同对象在不同源上可能属于不同类别的情况,虽然有与聚类算法进行结合的研究,但是得到的聚类结果很难保证是有意义的。最后,目前可信度的分析算法有一个假设:一个源上只能对一个对象存在一种描述,这样就限制了算法的适用性,因为很多网站不满足这个条件。因此,本文针对网站可信度分析方法进行了研究,主要进行了以下两个方面的工作:(1)提出了基于分类排名的可信度分析算法—CTF。该算法将传统的分类算法与可信度分析算法进行结合的同时,考虑到不同对象在不同源上所属的分类可能不尽相同,通过定义并计算事实的分类可信度来提高最终可信度分析的准确率。该算法的主要步骤有三步。首先,在训练集上运行传统的分类算法来构建分类器,并对实验集的不同对象进行分类,从而来获得对象在各个源上的分类;其次,为训练集的数据通过人工标注,得到它们的可信度,并以此作为可信度分析的初值;最后,通过初始的可信度和实验集对象的分类情况进行分类可信度分析。从而提升在测试集上运行的可信度分析算法的准确率。在BookAuthor数据集上的实验结果表明比起传统的可信度分析算法,C7F算法能够提升可信度分析的准确率。(2)提出了基于图的半监督可信度分析算法——GSTF。该算法采用半监督学习的方法来对网站进行可信度分析。首先,在将传统的可信度分析问题转成图的时候,通过定义合理的权重,使得GSTF能够处理一个源上存在对同一个对象多种不同事实描述的情况;其次,利用基于图的半监督学习的相关研究结果,将可信度分析问题转换成一个优化问题,并且在给出了这个优化问题解的同时,保证了算法收敛性。实验结果表明GSTF算法能够在保证算法收敛性的同时,成功的解决可信度分析问题并达到令人满意的准确率。