网站的可信度分析

网站的可信度分析

论文摘要

网站的可信度分析是近年来研究的一个热点,目前国内外已经开展了很多相关的研究工作,并取得了一定的成果,但是目前的工作基本上都存在以下几个不足:首先,目前可信度分析的算法基本都是无监督的,缺乏收敛性的证明,缺乏合理的初值选择依据。其次,没有考虑到不同对象在不同源上可能属于不同类别的情况,虽然有与聚类算法进行结合的研究,但是得到的聚类结果很难保证是有意义的。最后,目前可信度的分析算法有一个假设:一个源上只能对一个对象存在一种描述,这样就限制了算法的适用性,因为很多网站不满足这个条件。因此,本文针对网站可信度分析方法进行了研究,主要进行了以下两个方面的工作:(1)提出了基于分类排名的可信度分析算法—CTF。该算法将传统的分类算法与可信度分析算法进行结合的同时,考虑到不同对象在不同源上所属的分类可能不尽相同,通过定义并计算事实的分类可信度来提高最终可信度分析的准确率。该算法的主要步骤有三步。首先,在训练集上运行传统的分类算法来构建分类器,并对实验集的不同对象进行分类,从而来获得对象在各个源上的分类;其次,为训练集的数据通过人工标注,得到它们的可信度,并以此作为可信度分析的初值;最后,通过初始的可信度和实验集对象的分类情况进行分类可信度分析。从而提升在测试集上运行的可信度分析算法的准确率。在BookAuthor数据集上的实验结果表明比起传统的可信度分析算法,C7F算法能够提升可信度分析的准确率。(2)提出了基于图的半监督可信度分析算法——GSTF。该算法采用半监督学习的方法来对网站进行可信度分析。首先,在将传统的可信度分析问题转成图的时候,通过定义合理的权重,使得GSTF能够处理一个源上存在对同一个对象多种不同事实描述的情况;其次,利用基于图的半监督学习的相关研究结果,将可信度分析问题转换成一个优化问题,并且在给出了这个优化问题解的同时,保证了算法收敛性。实验结果表明GSTF算法能够在保证算法收敛性的同时,成功的解决可信度分析问题并达到令人满意的准确率。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 引言
  • 1.1 选题背景和意义
  • 1.2 研究思路
  • 1.3 本文主要贡献
  • 1.4 组织结构
  • 第二章 国内外研究现状
  • 2.1 可信度分析的研究概述
  • 2.2 Truth Finder算法
  • 2.3 Fact Finder系列算法
  • 2.4 与聚类方法相结合
  • 2.5 其他的一些可信度分析方法
  • 2.5.1 考虑到源质量的可信度分析方法
  • 2.5.2 微博内容的可信度分析
  • 2.5.3 用户之间的可信度分析与推荐
  • 2.6 评价指标
  • 2.7 本章小结
  • 第三章 基于分类排名的可信度分析
  • 3.1 分类排名算法RankClass
  • 3.2 基于分类排名的Truth Finder算法(CTF)
  • 3.2.1 符号定义与计算公式
  • 3.2.2 CTF算法的实现
  • 3.2.3 CTF算法的复杂度分析
  • 3.3 实验及结果分析比较
  • 3.3.1 实验环境与数据集说明
  • 3.3.2 实验结果比较与分析
  • 3.4 本章小结
  • 第四章 基于半监督学习的可信度分析
  • 4.1 半监督学习算法简介
  • 4.2 基于图的半监督学习
  • 4.2.1 Label Propagation算法
  • 4.2.2 图的最小割方法
  • 4.2.3 基于高斯场的方法
  • 4.3 基于半监督学习的可信度分析(GSTF)
  • 4.3.1 图的构造
  • 4.3.2 边权重的定义
  • 4.3.3 目标函数的选取和解法分析
  • 4.3.4 GSTF算法描述
  • 4.3.5 GSTF算法收敛性证明
  • 4.4 与其他基于半监督的可信度分析算法比较
  • 4.5 实验结果分析与分析比较
  • 4.5.1 实验环境与实验数据集
  • 4.5.2 实验结果分析与比较
  • 4.6 本章小结
  • 第五章 总结与展望
  • 总结
  • 展望
  • 参考文献
  • 致谢
  • 个人简历
  • 在学校期间的研究成果以及发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    网站的可信度分析
    下载Doc文档

    猜你喜欢