网站的可信度分析

论文摘要

网站的可信度分析是近年来研究的一个热点,目前国内外已经开展了很多相关的研究工作,并取得了一定的成果,但是目前的工作基本上都存在以下几个不足：首先,目前可信度分析的算法基本都是无监督的,缺乏收敛性的证明,缺乏合理的初值选择依据。其次,没有考虑到不同对象在不同源上可能属于不同类别的情况,虽然有与聚类算法进行结合的研究,但是得到的聚类结果很难保证是有意义的。最后,目前可信度的分析算法有一个假设：一个源上只能对一个对象存在一种描述,这样就限制了算法的适用性,因为很多网站不满足这个条件。因此,本文针对网站可信度分析方法进行了研究,主要进行了以下两个方面的工作：(1)提出了基于分类排名的可信度分析算法—CTF。该算法将传统的分类算法与可信度分析算法进行结合的同时,考虑到不同对象在不同源上所属的分类可能不尽相同,通过定义并计算事实的分类可信度来提高最终可信度分析的准确率。该算法的主要步骤有三步。首先,在训练集上运行传统的分类算法来构建分类器,并对实验集的不同对象进行分类,从而来获得对象在各个源上的分类；其次,为训练集的数据通过人工标注,得到它们的可信度,并以此作为可信度分析的初值；最后,通过初始的可信度和实验集对象的分类情况进行分类可信度分析。从而提升在测试集上运行的可信度分析算法的准确率。在BookAuthor数据集上的实验结果表明比起传统的可信度分析算法,C7F算法能够提升可信度分析的准确率。(2)提出了基于图的半监督可信度分析算法——GSTF。该算法采用半监督学习的方法来对网站进行可信度分析。首先,在将传统的可信度分析问题转成图的时候,通过定义合理的权重,使得GSTF能够处理一个源上存在对同一个对象多种不同事实描述的情况；其次,利用基于图的半监督学习的相关研究结果,将可信度分析问题转换成一个优化问题,并且在给出了这个优化问题解的同时,保证了算法收敛性。实验结果表明GSTF算法能够在保证算法收敛性的同时,成功的解决可信度分析问题并达到令人满意的准确率。

论文目录

中文摘要

Abstract

第一章引言

1.1 选题背景和意义

1.2 研究思路

1.3 本文主要贡献

1.4 组织结构

第二章国内外研究现状

2.1 可信度分析的研究概述

2.2 Truth Finder算法

2.3 Fact Finder系列算法

2.4 与聚类方法相结合

2.5 其他的一些可信度分析方法

2.5.1 考虑到源质量的可信度分析方法

2.5.2 微博内容的可信度分析

2.5.3 用户之间的可信度分析与推荐

2.6 评价指标

2.7 本章小结

第三章基于分类排名的可信度分析

3.1 分类排名算法RankClass

3.2 基于分类排名的Truth Finder算法（CTF）

3.2.1 符号定义与计算公式

3.2.2 CTF算法的实现

3.2.3 CTF算法的复杂度分析

3.3 实验及结果分析比较

3.3.1 实验环境与数据集说明

3.3.2 实验结果比较与分析

3.4 本章小结

第四章基于半监督学习的可信度分析

4.1 半监督学习算法简介

4.2 基于图的半监督学习

4.2.1 Label Propagation算法

4.2.2 图的最小割方法

4.2.3 基于高斯场的方法

4.3 基于半监督学习的可信度分析（GSTF）

4.3.1 图的构造

4.3.2 边权重的定义

4.3.3 目标函数的选取和解法分析

4.3.4 GSTF算法描述

4.3.5 GSTF算法收敛性证明

4.4 与其他基于半监督的可信度分析算法比较

4.5 实验结果分析与分析比较

4.5.1 实验环境与实验数据集

4.5.2 实验结果分析与比较

4.6 本章小结

第五章总结与展望

总结

展望

参考文献

致谢

个人简历

在学校期间的研究成果以及发表的学术论文

网站的可信度分析

论文摘要

论文目录

相关论文文献

猜你喜欢