蒙古文网页抓取及编码识别转换研究

蒙古文网页抓取及编码识别转换研究

论文摘要

随着Internet技术的发展和广泛应用,人们获取信息的方式也从传统的书本渐渐转移到了网络,造成网络信息飞速增长,网页数量不断增加,人们查找自己真正需要的信息难度也相应增加了。这样就促生了人们对信息查找工具—搜索引擎的需求。通过使用搜索引擎能够使人们比通过传统方式更迅速地找到信息、产品和服务。经过这几年蒙古文信息化建设,蒙古文网页也随之渐渐增多,获取蒙古文信息的范围也渐渐扩大起来,其中要寻找需要的信息的困难也相对增加起来。目前搜索引擎对信息检索起到很大作用,但是蒙古文搜索引擎却一直没有发展起来,其中主要的原因是蒙古文没有统一的编码,并且蒙古文网页编码多样化、(各种编码之间无相互转换规则)无规则、互相间无联系性,所以通过这些编码编辑的网页文本也会是各异的,这也是蒙古文搜索引擎一直没有出现的技术难题之一。然而对于普通用户只关注网页中的内容,并不关心它是使用何种技术、何种编码所制作。因此,我们对于一个未知编码的网页要想正确取得其内容,需要对其做出判断,以确定其是什么编码的网页,然后才能正确识别其内容,所以对蒙古文网页进行抓取、编码识别并转换为统一中间编码成为我们的研究的方向。

论文目录

  • 摘要
  • ABSTRACT
  • 引言
  • 第一章 网络蜘蛛SPIDER的工作原理
  • 1.1 搜索引擎概述
  • 1.2 网络蜘蛛基本原理
  • 1.3 网络蜘蛛搜索策略
  • 1.3.1 宽度优先搜索策略
  • 1.3.2 深度优先搜索策略
  • 1.3.3 垂直搜索策略
  • 1.4 网络蜘蛛组成部分
  • 1.4.1 URL解析
  • 1.4.2 获取远程Web服务器的页面
  • 1.4.3 网页分析算法
  • 1.4.4 去除网页中的标签
  • 第二章 蒙古文编码的多样性
  • 2.1 蒙古文编码多样性
  • 2.2 蒙古文编码多样实例化说明
  • 第三章 不同蒙古文网页编码识别
  • 3.1 不同蒙古文编码的范围
  • 3.2 蒙古文编码识别原则
  • 3.3 蒙古文网页识别算法
  • 3.3.1 基于蒙古文编码非重叠区域的编码识别方法
  • 3.3.2 基于蒙古文助词与标点特征字符识别
  • 3.3.3 基于字频分布的编码识别
  • 3.3.4 基于贝叶斯分类的编码识别
  • 3.4 几种编码识别方法比较
  • 第四章 蒙古文网页编码转换
  • 4.1 蒙古文编码转换由来
  • 4.2 蒙古文转换的原则
  • 4.3 蒙古文编码转换
  • 第五章 总结和展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].从敦煌出土的蒙古文菩提达摩节的片段(英文)[J]. China Tibetology 2019(02)
    • [2].新中国70年来的当代蒙古文文学翻译[J]. 内蒙古财经大学学报 2020(01)
    • [3].呼市地区高校图书馆蒙古文文献资源建设的影响因素分析[J]. 内蒙古科技与经济 2020(13)
    • [4].权力操控下元朝蒙古文翻译活动研究[J]. 贵州民族研究 2018(12)
    • [5].游走于传统与现代之间——以蒙古文书法为例浅谈民族艺术的传播与转型[J]. 黑龙江民族丛刊 2019(01)
    • [6].行走的文字 内蒙古十大文化符号之蒙古文[J]. 实践(党的教育版) 2018(01)
    • [7].刍议蒙古文文献资源保障体系的建设[J]. 科技风 2018(31)
    • [8].蒙古文音乐领域的语义检索初探[J]. 现代图书情报技术 2016(11)
    • [9].蒙古文原始语料统计建模研究[J]. 中文信息学报 2017(01)
    • [10].匠心独运——析蒙文在内蒙古文创产品设计中的应用[J]. 大众文艺 2017(08)
    • [11].元代《全宁张氏先德碑铭》蒙古文考释[J]. 北方文物 2017(02)
    • [12].民国年间蒙古文期刊分期分析[J]. 内蒙古民族大学学报(社会科学版) 2017(02)
    • [13].基于规则和统计相结合的西里尔蒙古文到传统蒙古文转换方法[J]. 中文信息学报 2017(03)
    • [14].好乐宝蒙古文网络的发展现状及特点和不足之处[J]. 才智 2016(01)
    • [15].蒙古文网络资源检索难点分析[J]. 呼伦贝尔学院学报 2016(02)
    • [16].基于词典、规则的斯拉夫蒙古文词切分系统的研究[J]. 中文信息学报 2015(01)
    • [17].建设蒙古文文献资源保障体系初探[J]. 内蒙古师范大学学报(教育科学版) 2015(09)
    • [18].基于蒙古文数字图书馆建设蒙古文文献共享域之探讨[J]. 大学图书馆学报 2015(04)
    • [19].新疆蒙古文文献资源的收藏现状及馆藏发展研究[J]. 时代文学(下半月) 2015(09)
    • [20].提高高校蒙古文教材编校质量的思考[J]. 语文学刊 2015(23)
    • [21].蒙古文文字排版和浏览器兼容问题研究[J]. 科学家 2016(16)
    • [22].论敦煌蒙古文题记的语言特征[J]. 北方语言论丛 2016(00)
    • [23].花蕾芬芳 香飘草原[J]. 草原 2017(06)
    • [24].新蒙古文学习心得[J]. 北方文学 2017(20)
    • [25].内蒙古蒙古文老年书画协会举办庆祝自治区成立70周年书画展[J]. 老年世界 2017(06)
    • [26].使用拉丁蒙古文势在必行[J]. 西部蒙古论坛 2009(03)
    • [27].清初辽、金、元三史满文、蒙古文翻译研究述评[J]. 中国边疆学 2013(00)
    • [28].关于蒙古文文献信息资源建设的思考——以辽宁阜新蒙古族自治县图书馆为例[J]. 内蒙古图书馆工作 2015(04)
    • [29].论蒙古文文献资源的数字化建设[J]. 内蒙古图书馆工作 2015(04)
    • [30].蒙古文文献藏书分析[J]. 内蒙古图书馆工作 2010(02)

    标签:;  ;  ;  ;  

    蒙古文网页抓取及编码识别转换研究
    下载Doc文档

    猜你喜欢