在此主题▼

表格识别及处理工作流程

formsdoc-chart.gif

图1.企业内容管理

任何成功的ECM(企业内容管理)系统,特别是文档成像应用程序的关键特性之一是形式认可而且处理.ECM系统通常处理文档的捕获、管理、存储和交付,表格识别及处理是优化整个工作流程的关键元素。

表单识别是获取已填写的表单并自动确定它属于哪种类型的表单的过程。表单处理是从填写好的表单中自动提取关键信息的过程(姓名、地址、日期、社会保险等)。这两种技术的自动化已经取代了以前的手工操作。企业的效率更高,因为他们能够在给定的时间内处理更多的表格,因此节省了资金。

在大多数情况下,典型的工作流将从创建要处理的实际表单开始,并以将数据存储在数据库中以供以后检索、生成报告等结束。

形式认可-将填妥的表格与主表格进行鉴别的过程。

形式的处理从预定义字段中提取用户填充数据的过程。

表单创建-这是创建实际表单并将所有相关信息和字段添加到表单的地方。

分布—将表单分发给需要填写的用户。文件可以以电子方式分发,也可以以纸张形式分发。

输入/捕获-可以通过多种方式捕获文档(见下文)。捕获文档后,将其发送到文档管理系统进行处理。

文档捕获的来源

图像清理-为了使识别和处理结果最大化,文件需要尽可能的干净。LEADTOOLS提供了一组广泛的处理方法去除扫描或传真图像中的常见问题,如去除线条、去除冲孔、去除线条、去除网点等。

识别-一旦图像干净,就可以进行识别了。此时,可以尝试识别以确定图像的形式类型。对于这个过程,可以使用几种技术——包括条形码、OCR和其他由LEADTOOLS创建的独特技术。任何无法识别的表单将被标记,并可以在稍后的时间手动检查。

处理—一旦表单被识别为特定类型的表单,我们就知道需要提取什么信息以及这些信息位于表单的什么位置。所有相关信息,包括条形码数据,客户填充数据(姓名,地址,日期,社交,签名,标志等)都可以提取。一些技术包括OCR, ICR, OMR和其他用于提取数据。任何无法处理的表单都将被标记,并可以在稍后的时间手动检查。

质量保证-在某些情况下,表格可能无法被识别或处理。这可能发生在以下几种情况下:扫描/传真质量低,表单没有添加到主集合,文档不完整,文档没有填写好,等等。质量保证代理将手动检查这些文件,并决定是否应该识别和处理它们,还是需要重新创建它们。

输出-现在表单已经为输出阶段做好了准备。输出阶段通常接受提取的数据并对其进行处理。这可以是存储和存档结果,通过电子邮件发送结果,生成报告,启动其他流程等形式。原始文档也可以以最有效的格式存储,例如LEADTOOLS ABC。如果需要标准格式,则可以将表单存储为TIFF、PDF、JPEG等格式。LEADTOOLS目前支持超过140种不同的格式。

LEADTOOLS成像、医疗和文档
188金宝搏的网址客服|支持|联系我们|知识产权公告
©1991 - 2021领先技术公司版权所有