基于PDF文字流的表格识别技术的研究

基于PDF文字流的表格识别技术的研究

论文摘要

PDF(Portable document format)是一种目前国际通用的电子文档开放标准。这种文件格式与操作系统平台无关,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文件、网络资料、电子邮件开始使用PDF格式文件,各国政府机关、企事业单位均大量采用该格式作为标准,进行信息发布、交换与存储。表格作为PDF电子文档内容的重要组成部分,在实际工作和生活中被复用和再编辑的频率非常高,然而PDF表格具有的独特结构,使得一些常用的表格操作难以完成。在PDF中表格只是基于视觉的,也就是说,在PDF文档格式中并不存在表格格式,只存在一团团的文字和一些穿插其中的图像线,用户一般只能直观地从显示结果看到表格,而无法直接从文档格式中获取表格信息,人们称这种表格为“文字流”表格,而对于它的识别称为“基于文字流的表格识别”。传统的基于图像的表格识别技术虽然比较成熟,但是由于表格载体的巨大差异使得这些技术难以运用到基于PDF文字流的表格识别之中。综合以上因素,本文对基于PDF文字流的表格识别技术进行了研究,设计并实现了一套表格识别系统。本文所研究并实现的是基于PDF文字流的表格识别系统,该系统进行表格识别与重现的处理流程如下:首先,系统解析一个PDF文档,从PDF内容流中分离出文本、图像等原始信息;之后,系统建立文字流数据结构并保存文本对象信息,将PDF内容可视化;接着,用户根据屏幕输出内容框选待重现表格的所在区域;之后,系统进行表格内容栅格化处理,即对所有文字流节点按照水平和垂直方向分别进行空间划分,并将结果进行保存,形成概念上的待重现表格边框结构;随后,系统根据栅格化结果对表格内容进行归位,即从栅格化后形成的概念表格结构中找到每个文字流节点所在表格单元位置,建立文字流节点间的相对关系,实现表格实体结构;最后,系统对实体结构进行一维序列化输出,将结果保存成通用结构化编码格式,如HTML等,这样的结果可以进行网页形式浏览,也可导出到OA软件中进行可视化编辑。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 相关研究与研究现状
  • 1.4 本文研究思路的形成
  • 1.5 本文的研究内容
  • 1.6 本文结构
  • 第2章 PDF 格式特征分析
  • 2.1 PDF 介绍
  • 2.1.1 PDF 的对象
  • 2.1.2 PDF 的物理结构
  • 2.1.3 PDF 的逻辑结构
  • 2.1.4 PDF 文档示例
  • 2.2 本章小结
  • 第3章 基于PDF 文字流的表格识别技术的研究
  • 3.1 PDF 表格识别的关键技术
  • 3.2 文字流生成与指定内容选取
  • 3.2.1 文字流概念
  • 3.2.2 文字流生成与指定内容选取
  • 3.3 栅格化
  • 3.3.1 栅格化概念
  • 3.3.2 栅格化过程描述
  • 3.4 表格内容归位
  • 3.5 序列化输出
  • 3.5.1 序列化概念
  • 3.5.2 序列化过程描述
  • 3.6 本章小结
  • 第4章 PDF 表格识别系统的设计与实现
  • 4.1 PDF 表格识别系统整体设计
  • 4.1.1 系统处理流程
  • 4.1.2 系统层次描述
  • 4.1.3 系统核心类关系
  • 4.2 PDF 文档处理与封装
  • 4.2.1 Foxit PDF SDK 2.0
  • 4.2.2 页的加载
  • 4.2.3 页的显示
  • 4.2.4 页的放缩和偏移
  • 4.2.5 文档内容的拾取
  • 4.2.6 PDF 文档处理的封装
  • 4.3 文字流生成与框选内容抽取
  • 4.3.1 文字流生成
  • 4.3.2 内容选取与文字流格式化实现
  • 4.4 栅格化
  • 4.4.1 栅格化类的设计
  • 4.4.2 栅格化实现
  • 4.5 表格内容归位
  • 4.5.1 表格内容归位相关类设计
  • 4.5.2 表格内容归位实现
  • 4.6 序列化输出
  • 4.6.1 HTML 介绍
  • 4.6.2 序列化输出相关类描述
  • 4.6.3 序列化输出实现
  • 4.7 测试与分析
  • 4.7.1 测试环境
  • 4.7.2 测试流程
  • 4.7.3 测试用例设计
  • 4.7.4 测试结果
  • 4.7.5 测试小结
  • 4.8 本章小结
  • 结论
  • 本文总结
  • 未来工作与展望
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].论年鉴编修中表格的运用[J]. 广西地方志 2020(02)
    • [2].医学论文表格应用的选择[J]. 中国继续医学教育 2016(32)
    • [3].医学论文表格应用的选择[J]. 中国继续医学教育 2016(34)
    • [4].医学论文表格应用的选择[J]. 中国继续医学教育 2017(03)
    • [5].医学论文表格应用的选择[J]. 中国继续医学教育 2017(04)
    • [6].医学论文表格应用的选择[J]. 中国继续医学教育 2017(08)
    • [7].医学论文表格应用的选择[J]. 中国继续医学教育 2017(10)
    • [8].医学论文表格应用的选择[J]. 中国继续医学教育 2017(12)
    • [9].医学论文表格应用的选择[J]. 中国继续医学教育 2017(14)
    • [10].医学论文表格应用的选择[J]. 中国继续医学教育 2017(16)
    • [11].医学论文表格应用的选择[J]. 继续医学教育 2017(09)
    • [12].医学论文表格应用的选择[J]. 中国继续医学教育 2017(19)
    • [13].医学论文表格应用的选择[J]. 中国继续医学教育 2017(17)
    • [14].医学论文表格应用的选择[J]. 中国继续医学教育 2017(18)
    • [15].医学论文表格应用的选择[J]. 中国继续医学教育 2017(22)
    • [16].如何选择表格[J]. 江苏预防医学 2015(05)
    • [17].《插入表格》,重技术还是重设计?[J]. 中国信息技术教育 2020(10)
    • [18].填家长[J]. 幽默与笑话 2019(11)
    • [19].在Word 2007中添加表格[J]. 电脑迷 2008(16)
    • [20].杀鸡不用牛刀 Word就能制作表格[J]. 电脑爱好者 2009(02)
    • [21].让别人更快读懂你的表格[J]. 电脑迷 2013(09)
    • [22].两种记圈表的优缺点比较及变通[J]. 体育教学 2010(04)
    • [23].父子斗智[J]. 小学生学习指导 2015(Z4)
    • [24].离园活动也精彩[J]. 早期教育(教师版) 2015(09)
    • [25].听听表格怎么说[J]. 杂文选刊(中旬版) 2012(05)
    • [26].填表格[J]. 意林(少年版) 2013(14)
    • [27].划数[J]. 数学大世界(小学五六年级适用) 2013(10)
    • [28].谁是家长[J]. 小读者 2009(07)
    • [29].巧用Alt调整表格[J]. 家庭科技 2009(12)
    • [30].雷友卡[J]. 小火炬 2009(Z1)

    标签:;  ;  

    基于PDF文字流的表格识别技术的研究
    下载Doc文档

    猜你喜欢