论文摘要
随着计算机和互联网技术的发展,越来越多的信息被放在了互联网上,由于网络快速和便捷的特性,传统媒体和和交流社区还有企业都开始电子化,网络化,网络上的信息也越来越多的在动态页面内出现,如论坛,新闻组,博客等等,在亿万网民的共同贡献下,互联网上的信息量以极快的速度增长起来。网络上海量的信息是人类的知识宝库,人们从中可以学习知识,找到问题的解答,因此搜索网络社区如论坛,新闻组和博客等中有用的信息成为了一项越来越重要的任务。另一方面,由于互联网结构的多样性,内容的海量性,并且包含大量的无用的错误的噪音信息,如何在如此庞大的信息库中快速准确的搜索信息成为了热点研究。互联网上的搜索问题指的是用户给出一个查询,对于互联网内的信息单元,返回给用户和查询相关的内容,和查询越相关并且越符合用户查询意图的结果在结果排序列表的越前面。由于访问网络上的内容需要相对不小的时间代价,并且网络上的具有海量的分散的数据,我们不可能在每次搜索的时候去遍历所有的网页,网络搜索是面向用户的研究,必须在结果的质量和搜索响应时间上都有较好的效果,因此网络搜索解决方案一般都分三个阶段,即内容抓取,建立索引,基于索引的搜索。每个阶段都需要很多的研究,本文把主要注意力放在最后阶段,即如何返回高质量的搜索结果,通过挖掘出网络信息的发布人的知识领域档案来调整该信息的排名以达到更好的搜索效果。大部分在文档集或网页搜索中效果很好的信息检索系统并不是特别适合用来在电子社区中寻找有用的信息,无法利用到网络社区的一些重要的信息比如是谁发布的这个信息以及他在这个话题上的专家程度有多少等,领域专家对他们专长的领域发表的言论即使短小也是可信并且信息丰富的。在这篇文章中,我们提出了一个新的方法通过分析出用户在各个领域的专家程度来帮助我们计算符合查询的文本中包含的对查询者有用的信息量。本文的研究成果主要有:(1)提出了在网络动态社区环境下计算用户知识领域专家度档案的方法。本文基于文本信息检索的方法,在分析了网络社区内容的特点后,给出了适合该环境的挖掘用户专家档案的方法。实验表明,同相关工作比较,本文的方法更适合用来在噪音大,文本短小的网络社区环境挖掘专家档案。同时,该方法计算得到的专家库也将用来辅助提高搜索质量。(2)发现了利用信息发布人的专家档案可以帮助我们提高搜索质量,使其更符合用户搜索的目标。给出了基于作者专家档案的网络社区信息搜索框架,并给出了基于改进后的信息检索方法的算法。实验结果表明,该方法能明显的提高搜索质量,并对实验结果进行了分析证明本文方法的有效性。(3)提出了一种新的网络社区搜索方法框架并实现了原型。