刘俊梁直晃
广东省特种设备检测研究院东莞检测院
如果将OCR技术利用在资料审查系统中,可大幅度扩展系统智能辅助资料审查功能,极大缩短资料审查时间,降低审查工作强度,有效解决审查过程中审查尺度不统一、审查效率低的问题,继而发现需要现场核对的问题,确保电梯资料审查流程完全合规,不漏项、不缺项、不为后续检验工作留下隐患。
1.前言
随着互联网技术的不断发展,电梯监督检验互联网资料审查系统的广泛运用,从使用的实际情况来看,出现了两方面问题。
一是在资料的输入端,多种原因导致上传的资料质量参差不齐,质量各异的资料导致审查难度极大提高。二是在资料的处理端,海量文件以各种形式在计算机中交替出现,人工在海量文件中来回切换进行人工比对,工作强度极大提高,资料审查的时间仍然较长,书面审查时期的问题和风险未有效降低。
因此,扩展软件系统智能辅助资料审查工作,从根本上提高资料审查工作的效率、准确率,该智能辅助系统显得非常必要。
2.资料审查资料内容分类及常见问题分析
2.1资料审查资料内容分类
2.1.1数据表格内容
需要审查的资料中,型式试验合格证配置表中有大量的数据表格内容(含数据、文字、符号),需要针对具体梯种的主要参数进行匹配,判断该设备是否具备生产资格,需要读取此类数据出来进行判断运算,此内容准确识别后,可用于进行机器判断。
2.1.2文字内容
此内容主要针对的是不在数据表格中文字表述性的内容,含文字、数据、符号。如生产厂家、生产地址、设备型号、证书有效期、发证依据等。此内容准确识别后,可用于进行机器判断。
2.1.3图片内容
此内容具体指的是只能用图片格式保存的内容,如电气原理图、井道布置图、施工方案内施工工艺图、作业流程图,此内容无法进行机器判断,只能人工识别。
2.2资料审查常见问题分析
2.2.1资料输入端常见的问题。
由于我国目前电梯制造单位多,所生产的电梯设备型号各异,资料审查要求的资料品类多,数量多,内容庞大,国家标准未对所提供的资料清单、具体条目应体现在某份具体文件上进行明确的规定(如未规定产品质量合格证标注轿厢自重、使用年限等),施工单位提供的资料各异、质量各异,是否提供齐全,直接影响资料审查结果。
2.2.2资料审查端常见的问题
(1)资料审查的尺度问题
在资料审查的过程中,检验员作为资料审查的主体,是以检规规定的对应项目规定作为资料审查的唯一依据,但不同检验人员的审查尺度会不一样,使资料审查失去了公平性。
(2)资料审查的效率问题
资料审查需要查看的资料超过100页,需要审核的内容点超过1000项,检验人员平均在15分钟内完成一份资料的审查工作,在需要外出检验的同时,也要完成资料审查工作,工作量巨大、审核的准确性导致工作压力巨大,从而导致有关资料被审查时无法做到当天办结,需要三天或以上时间。但是对于施工单位来说,资料未审查完毕又无法开展下到工序的现场施工作业,导致严重拖慢了施工进度,形成了一个恶性循环。
3.基于OCR技术智能辅助的电梯监督检验资料审查系统解决方案
3.1.OCR技术简介
OCR技术全称光学字符识别技术,其原理是通过扫描等光学输入方式,将各种票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。目前,OCR技术已广泛应用于诸多领域。
3.2.解决方案
3.2.1总体思路
为了对应检验规范当中对应条款的规定,在资料审查中包含了大量的各类电子档扫描件,将OCR技术应用于资料审查系统,主要实现将此类电子档扫描件中的图片信息转化为系统可直接使用的文字或数据内容,同时将转化好的文字内容与系统预先设置的资料审查条款规定进行智能比对,并将可能不符合的内容提示给资料审查的检验员,使系统具备智能辅助资料审查功能。
3.2.2各步骤具体实现功能
3.2.2.1查询需要上传的文件在系统中是否已经存在。
为提供系统效率降低系统冗余,对已上传的同份文件可反复使用,无需重复上传。
3.2.2.2通过定制的OCR扫描前端软件,按照固定格式扫描对应纸质文件。
此软件是文件上传的输入端,为统一格式,提高识别率,增强系统的可用性,应专门编写对应的输入端软件,支持对应的扫描文件或图片格式文件的识别,形成根据所需求的文件逐步提醒扫描的“傻瓜式”操作,及时是未用过该系统的人员在系统文字提示下均可完成图片上传。确保不会缺少文件,文件识别源头格式统一,提高识别率。
3.2.2.3针对识别出来的数据进行逐项比对修改。
此步骤是确保识别的准确性,针对不准确的数据及时在输入端,由上传人员进行修改。
3.2.2.4数据处理判断。
针对识别出来的数据,根据预先设定的条件,进行逐一系统判断,形成计算机可判断的电子报告,提交给检验人员,并做如下提醒“系统已判断该设备,发现存在以下问题未能判断,请检验员逐一审核:1.xxxx2.xxxx……”
3.2.2.5出具结果。
检验员根据系统判断结果,同时对系统无法判断的数据进行人工审查,最终形成资料审查结果,通过微信、短信、邮箱等方式,自动通知上传客户。
3.2.2.6数据后处理。
在检验员资料审查通过后,系统形成电梯检验信息,并根据需要现场核对的项目生成现场资料查验提醒。
3.3方案的优势与需要配套解决的问题
(1)方案的优势
首先,通过OCR技术识别出有关证件、证书、证明等材料的图片信息后,从中提取出的文字信息,可以存储于评标系统,并对应形成分类信息,便于审查后复查、大数据统计等后期对有关信息的再次利用。
其次,使资料审查有关各方均可受益。对于检验员来说,在减少了资料审查工作量和降低工作强度的基础上,提高了效率和准确率;对于施工单位来说,资料审查结果更加客观公正,起到了公平的效果。
(2)需要配套解决的问题
基于OCR技术的评标系统相比于传统评标系统虽然优势明显,但若要将其优势充分有效发挥,仍需要配套解决一系列问题。
一是扫描件准确率的问题。通过专门编写前端扫描软件,可以轻易解决扫描的清晰度问题,但由于文件数据表格、图形、文字、符合杂糅在一份文件当中,对OCR的识别带来了技术上的困难,急需解决此类文件的扫描准确率的问题,这是本系统技术上的关键点。
二是各类证明材料的规范化问题。包括格式的规范化和内容的规范化,如施工方案等资料未采用标准格式,导致系统无法准确提取到相关信息并完成比对校验,又如竣工验收证明中未写明竣工验收日期,导致系统无法将其与招标文件要求相匹配。
三是检验员的业务水平问题。在系统的智能辅助评标功能有效发挥的基础上,部分无法识别或无法确认的材料仍需进行人工审查,若评委自身业务不精,依然可能产生错误的审查结果。
四是系统的易用性问题。系统开发的初衷是为了降低施工单位、检验机构人员的工作强度,提高评标效率和准确率,但倘若在使用过程中因系统不易用、步骤繁琐,则会事与愿违,不仅无法实现智能辅助,反而还会给资料审查工作带来更多麻烦。
4.结语
在人工智能高速发展的今天,数据作为智能决策的基础,获取真实有效的数据显得尤为重要。OCR技术作为获取数据的重要手段,在全社会已得到广泛应用,将其引入招电梯检验领域,解决检验过程中部分突出问题,既有可靠的技术基础,也有迫切的现实需求,切实解决了行业内“检不快、检不准”的问题,在电梯检验行业推广具有很强的实用价值和经济价值。