数学公式字符识别及BP并行算法分类器

数学公式字符识别及BP并行算法分类器

论文摘要

随着计算机存储技术的发展,很多纸质文档经扫描仪扫描后被保存成图像格式。然而,这些图像格式的文档不能被重新编辑。如何将这些图像转换成可重新编辑、再次利用的格式已经引起了很大的关注,并由此产生了文档图像分析技术(Image DocumentAnalysis:IDA)。光学字符识别(OCR)是文档图像分析的核心技术,用于处理印刷体和手写体字符识别。许多科技文献里常包含大量的数学公式,而公式中不仅有特殊符号,其结构也非常复杂。目前市场上见到的OCR产品对含有二维结构的数学公式处理的结果还不甚理想。我们课题组在数学公式识别方面做了一些工作,并且取得了初步的成果,但与实际应用尚有距离,在字符的正确识别率、识别系统的泛化能力等方面需做进一步的改进。为此,本文提出了一种基于神经网络集成的数学公式识别方法,并设计了一种基于神经网络集成的并行BP算法分类器。本文的结构安排如下:第一章介绍了神经网络、公式图像分析、神经网络集成和并行算法的一些基础知识。第二章探讨了数学公式识别技术及基于神经网络集成的数学公式字符识别器的设计,并结合数值实验对其泛化能力及识别率进行了检验。在第三章我们提出了一种新的BP神经网络并行算法,实验表明该算法在对大样本数据训练时,能较好地提高网络的学习效率及泛化能力。最后,我们分析了现有数学公式识别系统中仍存在的问题,提出了神经网络并行算法的改进方向。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 人工神经网络概述
  • 1.1.1 神经网络发展简史
  • 1.1.2 神经元数学模型
  • 1.1.3 神经网络的拓扑结构和学习规则
  • 1.1.4 两种常见的神经网络及其学习算法
  • 1.2 神经网络集成
  • 1.2.1 神经网络集成的产生
  • 1.2.2 神经网络集成的研究方向
  • 1.2.3 神经网络集成的理论分析
  • 1.3 印刷体数学公式识别简介
  • 1.3.1 公式识别的发展概况
  • 1.3.2 印刷体数学公式识别的主要研究内容
  • 1.4 神经网络并行算法概述
  • 1.4.1 并行计算
  • 1.4.2 几种常见的BP网络并行算法
  • 1.5 本文的主要工作
  • 2 基于神经网络集成的印刷体数学公式字符识别
  • 2.1 图像预处理
  • 2.1.1 去除噪声
  • 2.1.2 倾斜矫正
  • 2.1.3 二值化
  • 2.1.4 符号分离
  • 2.1.5 粘连字符分割
  • 2.1.6 字符图像正规化
  • 2.2 字符识别
  • 2.2.1 特征选择与提取
  • 2.2.2 数学公式字符识别器
  • 2.2.3 数值试验
  • 2.3 本章小结
  • 3 一种基于BP神经网络集成的分布式并行算法分类器
  • 3.1 基于网络集成的BP分布式并行算法
  • 3.1.1 主处理器算法
  • 3.1.2 从处理器算法
  • 3.2 数值试验
  • 3.2.1 数据清洗
  • 3.2.2 数据预处理
  • 3.2.3 数据的选择
  • 3.2.4 算法及参数设置
  • 3.2.5 分支神经网络权重的生成
  • 3.2.6 神经网络集成的输出
  • 3.2.7 实验结果
  • 3.3 实验结果分析
  • 3.3.1 神经网络集成的泛化能力
  • 3.3.2 并行算法分析
  • 3.4 进一步工作
  • 3.5 本章小结
  • 结论
  • 参考文献
  • 附录A 数学符号集
  • 附录B 测试样本
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    数学公式字符识别及BP并行算法分类器
    下载Doc文档

    猜你喜欢