复杂背景下彝文古籍文本提取方法研究

复杂背景下彝文古籍文本提取方法研究

论文摘要

彝文古籍承载了彝族的古老文明,生存现状艰难,急需采用数字化手段对其保护和利用。从彝文古籍中准确提取文本是对其进行识别的重要前提。彝文古籍由于其自身特点及年代久远、退化严重,具有较复杂背景,对其中文本提取方法进行深入研究不仅有利于其保护和利用,而且可以探索复杂背景下文本提取的新思路和方法。本文首先介绍了复杂背景下文本提取的基本步骤,包括文本检测、文本定位和前/背景分割,并详细分析和比较了文本区域检测的各种方法,然后根据彝文古籍的特点,并针对基于边缘或纹理单一特征的检测方法的不足,提出结合边缘和纹理特征的新方法来准确检测文本区域。在此基础上,提出了彝文古籍文本提取的完整解决思路和技术方案。主要工作如下:首先,彝文字符大多由四个方向的笔划组成,而笔划中的像素通常具有很强的边缘,因此本文采用四个方向的Sobel算子检测边缘,并在每个边缘图上提取像素点所在局部窗口的特征;同时古籍中的文本也具有规则的纹理,本文采用小波变换分解原始图像,并在高频子图上提取像素点所在局部窗口的特征,以反应图像的细节纹理。本文将综合边缘和纹理特征以准确反映彝文古籍图像中文本特点。然后,对于文本和非文本像素的分类问题,本文采用基于GBDT(Gradient Boost Descent Tree)学习理论设计分类器。将Boosting学习理论与决策树进行组合,可以有效的改进决策树的准确性,并能很好地抵抗过拟合问题。同时采用决策树作为基学习器,无需对不同量纲的特征进行归一化处理,并能获得易于解释的规则集合,因此,适合于图像中文本和非文本的分类问题。最后,采用形态学变化和先验规则以准确定位文本区域,对文本区域先采用Wiener滤波器对其进行处理,平滑不一致背景、消除部分噪声点和加强文本与背景的对比,并采用局部阈值方法二值化。实验结果表明,与基于边缘或纹理单一特征的方法相比,采用综合边缘和纹理特征的方法能较大提升彝文古籍中文本区域检测的准确率。本文所提出方法能准确提取彝文古籍中文本。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 引言
  • 1.2 彝文古籍图像的特点
  • 1.3 本文的主要工作
  • 第2章 复杂背景下文本提取方法
  • 2.1 概述
  • 2.2 文本区域检测方法
  • 2.2.1 基于连通域的方法
  • 2.2.2 基于纹理的方法
  • 2.2.3 基于边缘的方法
  • 2.3 文本区域定位方法
  • 2.4 前/背景分割
  • 2.4.1 基于颜色的方法
  • 2.4.2 基于笔划的方法
  • 2.5 本章小结
  • 第3章 彝文古籍中文本区域检测、定位及提取方法
  • 3.1 基本思想
  • 3.2 基于边缘检测的特征提取
  • 3.3 基于小波变换的纹理特征提取
  • 3.3.1 小波变换介绍
  • 3.3.2 二维图像的小波分解
  • 3.3.3 纹理特征提取
  • 3.4 GBDT 分类
  • 3.4.1 梯度Boosting 介绍
  • 3.4.2 BoostTree
  • 3.4.3 应用GBDT 分类文本和非文本
  • 3.5 定位文本区域
  • 3.6 前/背景分割
  • 3.7 本章小结
  • 第4章 实验结果与分析
  • 4.1 实验工具与平台介绍
  • 4.2 边缘特征提取
  • 4.3 纹理特征提取
  • 4.4 GBDT 分类结果
  • 4.5 文本区域定位结果
  • 4.6 前/背景分割结果
  • 4.7 本章小结
  • 第5章 结论和展望
  • 5.1 本文工作的总结
  • 5.2 展望
  • 参考文献
  • 致谢
  • 附录 A 攻读学位期间所发表的学术论文目录
  • 相关论文文献

    • [1].书写朝向书法:当代彝文书法的基本判断及其发展理论探讨——彝文汉文少数民族文字及西方文字的比较视角[J]. 红河学院学报 2020(01)
    • [2].彝文古籍区域性数字化整合模式研究[J]. 数字图书馆论坛 2019(11)
    • [3].《当代彝文文学史》编撰考述[J]. 西昌学院学报(社会科学版) 2020(01)
    • [4].近年来计算机彝文信息处理状况分析研究[J]. 科技创新导报 2020(11)
    • [5].论彝文书法书写艺术造型[J]. 西昌学院学报(社会科学版) 2020(03)
    • [6].书写即是力量,坚守即是信仰——评彝文文学作品选编集《玛牧热尔》[J]. 贵州工程应用技术学院学报 2018(06)
    • [7].通用彝文信息化输入平台的研究[J]. 红河学院学报 2019(04)
    • [8].基于文字识别角度的规范彝文字分析研究[J]. 西南民族大学学报(人文社科版) 2018(09)
    • [9].古彝文信息化现状及趋势研究[J]. 信息技术与标准化 2016(11)
    • [10].西昌市彝文语言景观调查研究[J]. 语言文字应用 2017(01)
    • [11].贵州彝文信息技术研究概述[J]. 中国信息化 2017(08)
    • [12].汉字彝文形意对比浅析[J]. 曲靖师范学院学报 2017(04)
    • [13].漾濞县彝文使用存在问题及对策建议[J]. 今日民族 2017(09)
    • [14].彝文翻译的现状与展望[J]. 民族翻译 2017(03)
    • [15].面向信息处理的彝文搜集与规范整理研究[J]. 楚雄师范学院学报 2017(05)
    • [16].彝文古籍整理现状及问题分析[J]. 兰台世界 2016(01)
    • [17].漫谈全国彝文规范问题[J]. 百色学院学报 2016(01)
    • [18].彝文古籍数字化保护及利用策略研究[J]. 新世纪图书馆 2016(05)
    • [19].黔西北彝文信仰文献中的音乐碎片研究[J]. 民族音乐 2016(04)
    • [20].试论彝文书法创作发展的走向与策略[J]. 美术大观 2015(02)
    • [21].试析彝文文献载体形制及其书法艺术[J]. 贵州工程应用技术学院学报 2015(03)
    • [22].论彝文书法章法中行款的发展转变及其标准[J]. 贵州工程应用技术学院学报 2015(03)
    • [23].彝文网络信息获取平台的研究[J]. 电子技术与软件工程 2015(13)
    • [24].《通用彝文规范方案》的实践效果及其成就[J]. 西南民族大学学报(人文社科版) 2015(12)
    • [25].四川当代彝文文学发展的回顾与总结——略谈《凉山当代彝文小说集》等三部文学作品集在当代彝文文学发展中的地位和作用[J]. 凉山文学 2012(02)
    • [26].四川当代彝文文学发展的全面回顾与总结——略谈《凉山当代彝文小说集》等三部文学作品集在当代彝文文学发展中的地位和作用[J]. 凉山文学 2010(04)
    • [27].略谈凉山当代彝文创作[J]. 民族文学 2011(02)
    • [28].当代彝文文学发展的园地——在《凉山文学》彝文版创刊30周年庆祝会上的发言[J]. 凉山文学 2011(04)
    • [29].基于彝文碑刻的彝族传统生态文化观研究[J]. 保山学院学报 2020(01)
    • [30].贵州彝学研究70年回顾[J]. 贵州工程应用技术学院学报 2020(02)

    标签:;  ;  ;  ;  

    复杂背景下彝文古籍文本提取方法研究
    下载Doc文档

    猜你喜欢