基于链接结构的站点主题层次抽取方法

基于链接结构的站点主题层次抽取方法

论文摘要

近年来,随着计算机技术的普及以及互联网的快速发展,网络已经成为人类信息资源的重要组成部分。互联网上信息的爆炸式增长,使得来自各个领域的用户从互联网中获取信息变得越来越困难。互联网技术的快速发展产生了很多的应用和相关技术的研究,在这些研究领域中,如何帮助用户方便快捷的找到所需要的信息一直是一个研究热点。从互联网上查找信息的两个主要的方法是浏览和搜索。由于网站结构的复杂化,快速有效的从一个大的站点中定位到用户想要的页面就变得更为困难。为了克服这个问题,不少站点通过提供表示站点主题层次的站点地图来帮助用户浏览。同样,对于搜索引擎来说,将站点的主题层次应用到搜索引擎,可以为用户提供一个更有效的搜索结果呈现的方法。目前,网站提供的站点地图都是由网站制作人员手工添加的,需要花费不少的人力,并且只能覆盖到站点的少部分页面。本文研究的目的是实现一种可以覆盖到站点全部页面的站点主题层次的自动抽取方法。本文概要介绍了近年来国内外站点主题层次抽取算法的基本原理,并分析其各自的优缺点及其适应范围。介绍了主题层次提取的现状及其主要技术,详细分析了基于链接结构的主题层次抽取算法的设计与实现。本文的研究内容主要包括以下几个方面:(1)通过对网站内页面间的链接结构分析,建立起网站的链接结构模型。将站点页面链接结构表示成一个以页面为点,页面间的链接为边的有向图。(2)通过链接指向分析对链接类型进行分类,消除upward链接的影响使基于URL目录信息的链接加权更为准确。引入页面的类型分析,区分页面中的主题入口页面和内容页面。并通过向量空间模型计算出的页面主题相似度来为链接加权,从而完成站点加权链接库的建立。(3)通过对链接结构的有向图中的边进行加权,我们得到整个站点的一个加权有向图。以站点的首页为起点,应用单源最短路径算法,为图中的每一个节点找到一条从根节点到它的最短路,从而抽取出了站点的主题层次结构。(4)对改进的主题层次结构抽取算法的准确性进行评测,并将算法的结果与前人的算法进行对比评测,验证抽取系统的有效性和准确性。最后将抽取出的站点层次信息应用到搜索引擎的结果展示中去,给出带有上下文主题信息的站内搜索演示系统。通过系统演示表明,本文所做的研究,在搜索结果的上下文主题展示上达到了很好的预期效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题来源
  • 1.2 本课题研究的目的及意义
  • 1.3 国内外相关技术发展现状
  • 1.3.1 搜索引擎相关技术研究现状
  • 1.3.2 站点主题层次抽取的研究现状
  • 1.3.3 站点主题层次的应用
  • 1.4 本文主要研究内容与组织
  • 1.4.1 本文的主要内容
  • 1.4.2 本文的组织
  • 第2章 站点主题层次提取的相关方法
  • 2.1 引言
  • 2.2 站点的链接结构与主题层次
  • 2.3 基于链接结构的层次结构分析方法
  • 2.4 特征词提取和特征选择
  • 2.4.1 特征词提取
  • 2.4.2 特征选择
  • 2.5 特征权重的表示方法
  • 2.6 文本表示与页面主题相似度计算
  • 2.6.1 布尔模型
  • 2.6.2 向量空间模型
  • 2.6.3 页面主题相似度
  • 2.7 本章小结
  • 第3章 基于链接结构的站点主题层次提取
  • 3.1 引言
  • 3.2 改进的基于URL 相似度的链接加权方法
  • 3.3 基于向量空间模型的链接加权方法
  • 3.3.1 主题入口页面与内容页面
  • 3.3.2 主题入口页的特征
  • 3.3.3 基于主题相似度的链接加权
  • 3.4 改进的链接加权方法
  • 3.5 站点主题层次提取的实现
  • 3.5.1 站点页面的文本表示库建立
  • 3.5.2 加权的站点链接库的建立
  • 3.5.2.1 站点加权链接库的存储结构
  • 3.5.2.2 站点加权链接库的算法流程
  • 3.5.3 站点主题层次结构的抽取
  • 3.6 本章小结
  • 第4章 实验结果与评测
  • 4.1 引言
  • 4.2 实验环境
  • 4.3 主题层次抽取算法的性能评测
  • 4.3.1 评测方案
  • 4.3.2 评测结果与分析
  • 4.4 主题层次抽取算法的对比评测
  • 4.5 带上下文主题层次的站内搜索演示
  • 4.6 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].5G站点市电新建及改造方案分析[J]. 电信技术 2019(12)
    • [2].5G站点电源面临的挑战及解决方案研究[J]. 数字通信世界 2019(12)
    • [3].提货量与快递代收站点加盟满意度的关系:基于个体门店的检验[J]. 财贸研究 2020(07)
    • [4].广州地区秋季不同站点类型地面臭氧变化特征与影响因子[J]. 环境科学 2020(08)
    • [5].站点助推:新型城镇学校教师专业化发展的创新路径——以成都市龙泉驿区第五小学为例[J]. 教育科学论坛 2020(22)
    • [6].屹立在凉风台顶峰的通信站点[J]. 中国无线电 2019(02)
    • [7].用故事感动你的出行路——《我的站点故事》主题公益系列[J]. 城市轨道交通 2019(06)
    • [8].便民设站点 居民乐开怀[J]. 民心 2018(03)
    • [9].一种支持子站的新媒体站点的设计与实现[J]. 数字技术与应用 2016(11)
    • [10].城际铁路站点核心空间功能与布局研究[J]. 现代装饰(理论) 2016(12)
    • [11].降低室内覆盖项目规划站点变更率的研究[J]. 电信技术 2016(12)
    • [12].首届欧洲自行车共享站点协商会召开[J]. 中国自行车 2017(01)
    • [13].基于互联网的商家销售站点分析与设计[J]. 信息技术与信息化 2017(04)
    • [14].高校校内交通车路线及站点规划方法研究[J]. 山西建筑 2016(06)
    • [15].如何加强对石油基层站点的管理和监督[J]. 化工管理 2016(17)
    • [16].高铁站点地区空间开发特征研究——基于京沪高铁沿线案例的实证分析[J]. 城市规划学刊 2016(01)
    • [17].高校建立健身气功辅导站点的可行性研究[J]. 湖北体育科技 2016(08)
    • [18].浅析城市公共交通站点的优化[J]. 科技创新与应用 2015(09)
    • [19].莱芜市:开展远程教育优秀站点创建活动[J]. 科技致富向导 2012(07)
    • [20].极简站点创新改造方案探究和应用[J]. 移动通信 2019(12)
    • [21].基于历史出行记录扩充的公交乘客下车站点推算方法[J]. 南京大学学报(自然科学) 2020(02)
    • [22].轨道站点合理步行可达范围建成环境与轨道通勤的关系研究——以北京市44个轨道站点为例[J]. 地理学报 2018(12)
    • [23].福建省健身气功站点现状研究[J]. 福建体育科技 2016(02)
    • [24].科技工作者调查站点体系建设的现状与展望[J]. 科协论坛 2016(08)
    • [25].高铁站点周边地区的发展与规划——基于京沪高铁的实证分析[J]. 城市规划学刊 2014(04)
    • [26].高校图书馆网络信息资源利用现状及评价体系研究——以推荐学术站点为例[J]. 图书馆学研究 2013(22)
    • [27].平原县:三项措施确保远教站点网络畅通[J]. 科技致富向导 2011(01)
    • [28].关于农村“站点会室”规范化建设的调研与思考[J]. 宁波经济(三江论坛) 2013(02)
    • [29].单一服务器下多站点设计与访问[J]. 农业网络信息 2012(01)
    • [30].站点主题结构与导航归纳技术[J]. 国防科技大学学报 2012(05)

    标签:;  ;  ;  ;  

    基于链接结构的站点主题层次抽取方法
    下载Doc文档

    猜你喜欢