论文摘要
语义网是在万维网的基础上进行扩展形成的。语义网对网络中的数据加入语义信息以帮助语义网应用能够在语义层面对数据进行理解并进行处理。近些年,语义网飞速发展,符合语义网标准的语义信息数量迅速增长,对这些信息进行有效的处理和解析可以为用户提供高质量的服务。语义搜索引擎就是这样的一个典型的语义网应用,它充分利用语义信息,将语义信息有效的组织并提供给用户进行语义相关的查询。而语义专题搜索引擎则更加充分的发挥了语义信息的特点,利用语义分析将主题相关的信息进行组织和检索,最终为用户提供准确的搜索结果。在语义专题搜索引擎框架中,语义专题爬虫是重要的部件之一。它负责搜集与主题相关的语义信息并对其进行初步的处理,例如语义信息的分类、存储以及元数据的抽取等。语义专题爬虫面临的问题是,如何在海量的语义信息中准确高效的获得与主题相关的语义资源。语义专题爬虫需要对语义信息进行内容判断、计算语义信息与主题的相关性、筛选与主题相关的信息并保存到数据存储中。同时,语义专题爬虫的效率也是相关研究的主要内容之一。因此,针对语义专题爬虫的准确性和效率问题,本文分别提出了相应的方法予以解决。对于语义信息内容的主题相关性判断问题,本文提出了判断语义文档的主题相关度的方法。方法将语义文档和领域本体表示为图形结构并通过计算图形结构之间的相似度来判断文档的主题相关度。在优化语义专题爬虫的效率方面,本文提出了Q学习结合贝叶斯分类器的路径预测算法(以下简称QBLP算法),QBLP算法通过计算页面主题相关度来作为Q学习器的回报函数,并利用回报函数对贝叶斯分类器的先验概率和条件概率进行调整,使先验概率和条件概率逐步趋近于真实值,以此来提高爬虫获取主题相关语义文档的性能。除了对算法进行研究,本文基于上述算法实现了语义专题爬虫FOCSEW系统。论文在以下方面作了有益的探索和创新性工作。(1)基于最大概率密度的聚类方法。在语义文档的图形表示方法中,为了对语义文档中的所有代表实体的关键词进行语义消歧并组织成图形结构,本文提出了基于最大概率密度的聚类方法。一个关键词可以包含多重概念,关键词和其在具体文档中概念的对应关系具有一定的概率性。最大概率密度就是一种包含了这样的概率信息的语义距离衡量标准。本文以最大概率密度为基础进行基于密度的聚类形成簇,再将簇中的所有概念连接形成的图形结构作为语义文档的内容表示。(2)针对语义专题爬虫的路径调整算法进行了分析和阐述。面对大量位置分散的语义文档,对文档内容的分析以及爬行路径的预测和筛选显得非常重要。本文提出了利用WordNet本体作为指导的语义文档图形表示方法,方法可以准确的将语义文档的内容表示为图形结构。在此基础上,本文提出了由Q学习器通过学习为贝叶斯分类器提供先验概率的QBLP爬虫路径调整算法。QBLP方法通过累计语义文档和语义链接特征的知识,调整爬虫爬行路径,提高爬虫的性能。这个目标在实验中得到了验证。本课题是在语义网搜索引擎研究框架下的重点模块之一。语义专题爬虫主要的目标是搜集与主题相关的语义文档供用户通过语义搜索引擎进行查询。本文对与主题相关的语义资源进行搜索和筛选,对于信息的集成和检索有着积极的意义。实验证明本文阐述的算法以及实现的语义专题爬虫系统FOCSEW可以高效的搜索相关语义资源,为语义搜索引擎系统奠定了数据基础。
论文目录
相关论文文献
- [1].算法:一种新的权力形态[J]. 治理现代化研究 2020(01)
- [2].算法决策规制——以算法“解释权”为中心[J]. 现代法学 2020(01)
- [3].面向宏观基本图的多模式交通路网分区算法[J]. 工业工程 2020(01)
- [4].算法中的道德物化及问题反思[J]. 大连理工大学学报(社会科学版) 2020(01)
- [5].算法解释请求权及其权利范畴研究[J]. 甘肃政法学院学报 2020(01)
- [6].算法新闻的公共性建构研究——基于行动者网络理论的视角[J]. 人民论坛·学术前沿 2020(01)
- [7].算法的法律性质:言论、商业秘密还是正当程序?[J]. 比较法研究 2020(02)
- [8].关键词批评视野中的算法文化及其阈限性[J]. 学习与实践 2020(02)
- [9].掌控还是被掌控——大数据时代有关算法分发的忧患与反思[J]. 新媒体研究 2020(04)
- [10].美国算法治理政策与实施进路[J]. 环球法律评论 2020(03)
- [11].算法解释权:科技与法律的双重视角[J]. 苏州大学学报(哲学社会科学版) 2020(02)
- [12].大数据算法决策的问责与对策研究[J]. 现代情报 2020(06)
- [13].大数据时代算法歧视的风险防控和法律规制[J]. 河南牧业经济学院学报 2020(02)
- [14].风险防范下算法的监管路径研究[J]. 审计观察 2019(01)
- [15].模糊的算法伦理水平——基于传媒业269名算法工程师的实证研究[J]. 新闻大学 2020(05)
- [16].算法推荐新闻对用户的影响及对策[J]. 新媒体研究 2020(10)
- [17].如何加强对算法的治理[J]. 国家治理 2020(27)
- [18].“后真相”背后的算法权力及其公法规制路径[J]. 行政法学研究 2020(04)
- [19].算法规制的谱系[J]. 中国法学 2020(03)
- [20].论算法排他权:破除算法偏见的路径选择[J]. 政治与法律 2020(08)
- [21].政务算法与公共价值:内涵、意义与问题[J]. 国家治理 2020(32)
- [22].算法的法律规制研究[J]. 上海商业 2020(09)
- [23].新闻算法分发对隐私权的冲击及规制[J]. 青年记者 2020(27)
- [24].算法如何平等:算法歧视审查机制的建立[J]. 南海法学 2020(02)
- [25].蚁群算法在文字识别中的应用研究[J]. 信息与电脑(理论版) 2019(22)
- [26].大数据聚类算法研究[J]. 无线互联科技 2018(04)
- [27].RSA算法的改进研究[J]. 计算机与网络 2018(14)
- [28].智能时代的新内容革命[J]. 国际新闻界 2018(06)
- [29].改进的负载均衡RSA算法[J]. 电脑知识与技术 2018(25)
- [30].基于深度学习的视觉跟踪算法研究综述[J]. 计算机科学 2017(S1)