导读:本文包含了定题采集论文开题报告文献综述及选题提纲参考文献,主要关键词:Web检索,藏文网页采集,网络爬虫,定题采集
定题采集论文文献综述
刘伟光[1](2012)在《藏文网页定题采集方法研究》一文中研究指出与汉文相比,藏文信息处理技术发展较慢,加之缺乏支持藏文搜索引擎,互联网上的藏文信息常常处于“孤立状态”,给用户的查找和获取带来较大的困难。因此,探讨一种通过网络采集藏文信息的方法,对于藏文研究者显得尤为重要。在分析了网页采集流程、网络爬虫工作基本原理和主题网页采集的相关知识的基础上,对藏文网页的采集方法进行了深入研究:1.对比分析藏文网页的字体、藏文音节点、藏文高频词等区别于其他网页的特征参数,设计出适合于判断藏文网页的相关算法。2.探讨了藏文主题爬虫的关键技术,如藏文分词、主题判断方法以及爬虫的爬行策略等内容,提出基于“导向词”的藏文主题判断方法。3.研究Heritrix软件,并通过对其关键模块Extractor和Frontierscheduler的改进和扩展,实现“导向词”算法的藏文主题信息网站的抓取;另外,运用哈希算法,扩展Queue-assignment-policy模块,大大提升了爬虫的采集效率。4.利用HTMLParse软件对采集的新闻信息进行提取,并将新闻的标题、发布时间、来源、正文信息存入数据库。5.对采集的藏文网页文本进行编码“归一化”处理,转化成国际标准的Unicode编码。利用上述研究结果,以网页的查准率和查全率为参考指标,对“导向词”主题判断算法的几个阙值进行了测试,根据测试的结果对中国西藏网进行了网页抓取,抓取的准确率在62%左右。测试数据表明,研究结果对于藏文定题信息采集行之有效,具有较高的应用和理论参考价值。(本文来源于《长安大学》期刊2012-05-15)
宋宇[2](2010)在《网络资源定题采集系统设计与实现》一文中研究指出针对中医药多媒体资源在网上的分布特点,采用链接类型过滤、链接内容过滤、网页内容过滤叁层过滤和临时页面存储、目标页面存储,中间链接存储、更新存储四层存储机制,设计并实现了一个对包含中医药多媒体资源(包括音频、视频和Flash动画)的网页进行采集的定题采集系统;结果显示,可以大大提高查准率。(本文来源于《山东图书馆学刊》期刊2010年02期)
彭乐[3](2010)在《基于HMM的定题信息采集研究与实践》一文中研究指出本文针对Web信息采集领域存在的问题,围绕面向垂直搜索的定题信息采集技术这一中心,主要完成的工作内容如下:第一,全面回顾了信息采集技术的研究历史,系统深入地分析了通用信息采集技术和已有定题信息采集技术各自存在的优缺点,以及就主题爬行涉及到的一些关键技术展开了谈论。通过学习和研究Web页面分布特性,得出一些可以用于主题爬行过程的规律。第二,本文涉及的主题相关度判别部分,主要是借助于通用搜索引擎工具进行主题拓展、提取领域信息,动态地构建主题权重表。在得出主题权重表后,结合网页文本以及链接的元数据信息,提出了一种有效的主题爬虫相关度判别算法,来预测相似站点内页面和链接的主题相关度。以内容和链接组合而成的主题特征向量作为度量来发现站点内的主题资源,是本文较为核心的部分,同时为后续的建模过程做好铺垫。第叁,本文研究的重点是如何将隐马尔科夫模型(HMM)应用于定题信息采集领域。通过介绍HMM模型的理论知识和主要的算法,结合Web站点的主题层次结构以及主题特征向量,在对现有主题爬虫的缺陷和不足进行分析的基础上,提出了一套基于HMM模型的定题信息采集技术解决方案,同时对实现此方案过程中涉及到的相关问题进行了重点研究。第四,本文在提出理论创新的同时,合理的整合一些开源技术,实现了一个主题爬行原型系统。在真实的Web环境下,针对多个不同主题的实验结果进行分析,表明利用HMM模型基于训练数据集的自动构造识别能力,使得我们的主题爬行策略可以明显地改善传统主题爬虫的一些缺点,提高主题相关度的预判精度,有效地避免主题漂移现象,在一定程度上缓解了tunneling问题,极大地节省了用户进行主题资源整合的时间,从而高质量地满足面向特定主题需求的用户群。通过理论分析和原型实验表明,基于HMM模型的主题信息采集研究不仅具有重要的理论价值,而且还具有广阔的应用前景。(本文来源于《东华大学》期刊2010-01-01)
宗校军,沈轶,廖晓昕[4](2007)在《基于Web元数据的定题信息采集》一文中研究指出针对定题Web检索技术,研究了元数据在定题Web信息采集中的重要作用。设计了基于Web元数据的主题扩展系统及定题信息采集系统,并给出了系统实现的具体步骤。同时提出了基于Web元数据的多种定题信息采集策略。实验证明经主题扩展的Web元数据可作为网页主题相关性的重要判别依据,带增益的元数据平均权值启发式采集策略算法具有较好的性能。(本文来源于《系统工程与电子技术》期刊2007年02期)
宗校军[5](2006)在《中文网页定题采集及分类研究》一文中研究指出网络正深刻地改变着我们的生活,Internet已经发展成为当今世界上最大的信息库,如何快速、准确地从浩瀚的信息资源中寻找到所需的信息已经成为网络用户的一大难题。因而基于Web的网上信息的采集和相关的信息处理日益成为人们关注的焦点。传统的Web信息采集所采集的页面数量过于庞大,所采集页面的内容过于杂乱,需要消耗非常大的系统资源和网络资源。同时Internet信息的分散状态和动态变化也是困扰着信息采集的问题。定题搜索引擎将信息检索限定在特定主题领域,就主题相关的信息提供检索服务,相应特定主题所需采集的网页数量极大减少且主题统一。与通用的搜索引擎相比较,定题搜索引擎由于检索的范围较小,查准率和查全率易于保证。本文所研究的就是建立定题搜索引擎的前期关键技术—Web信息定题采集及分类技术。全文的主要内容如下:通过对Web结构和Web链接特性的研究,分析了一些在定题Web信息采集过程中有用的规律。对元数据进行定义,讨论了几种基本的超链及其元数据类型。研究了网页信息抽取问题,分析了常见类型的元数据并确定了适合作为定题信息采集依据的元数据类型。讨论了如何基于元数据通过主题扩展得到主题相关词集,包括禁用词过滤、主题候选词的抽取及相关策略过滤等过程。重点研究了利用改进的Apriori算法,对元数据库进行关联挖掘抽取主题候选词,并给出了主题词关联挖掘和过滤,即主题扩展的迭代算法。实验证明,本文所提供的元数据处理策略,能很好地进行主题的抽取与扩展,为实现更有效的定题Web信息采集提供良好前提。给出了一个基于Web元数据的定题信息采集系统并加以描述。对经典的基于超链分析的相关性判别算法HITS和PageRank进行了描述和分析,给出了基于Web元数据的多种相关性判别算法,并利用Web元数据对HITS和PageRank算法进行了改进,提出了M-PageRank算法和M-HITS算法。测试了各种算法的性能并作了比较研究,实验验证了所提出的算法能为实现定题检索提供良好前提。讨论了文本分类的基础及Web网页在文本分类中的特性和特殊处理,将HTML文档用TFE表示,考虑半结构文档词条所处结构对分类的影响,修正了反映特征词在网页中的权重函数,引入扩展文本作为网页分类的内容补充。研究了既考虑文档结构又兼顾文档内容的改进的朴素贝叶斯和支持向量机Web网页分类方法,并通过实验验证了两种分类方法的良好效果。通过对Web定题采集和分类的研究,本文从技术和方法上做出了一些增强及改进,提出的方法及改进的算法取得了较好的实验效果,所得到的若干结论也具有理论和实践上的指导意义。(本文来源于《华中科技大学》期刊2006-04-01)
定题采集论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对中医药多媒体资源在网上的分布特点,采用链接类型过滤、链接内容过滤、网页内容过滤叁层过滤和临时页面存储、目标页面存储,中间链接存储、更新存储四层存储机制,设计并实现了一个对包含中医药多媒体资源(包括音频、视频和Flash动画)的网页进行采集的定题采集系统;结果显示,可以大大提高查准率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
定题采集论文参考文献
[1].刘伟光.藏文网页定题采集方法研究[D].长安大学.2012
[2].宋宇.网络资源定题采集系统设计与实现[J].山东图书馆学刊.2010
[3].彭乐.基于HMM的定题信息采集研究与实践[D].东华大学.2010
[4].宗校军,沈轶,廖晓昕.基于Web元数据的定题信息采集[J].系统工程与电子技术.2007
[5].宗校军.中文网页定题采集及分类研究[D].华中科技大学.2006