在本主题▼

铅工具OCR模块-铅引擎设置

IOcrSettingManager。GetSettingNames方法将按相同的顺序返回本表中描述的值的名称。

LEADTOOLS OCR模块- LEAD引擎支持的设置如下表所示:


识别

Recognition.Adaption.AdaptedDataFilePath

布尔类型。在此版本的LEADTOOLS中未使用

Recognition.AutoRecognizeManager.DefaultDocumentOrientation”

如果页面为空白或全为图形,则生成文档的默认方向。Enum类型,默认值设置为没有一个

可能取值为:

价值 描述
(0)没有 不要改变方向。
(1)肖像 如果页面是空白的或完全是图形,请尝试更改为纵向方向(使宽度小于高度)。
(2)景观 如果页面是空白或全是图形,请尝试更改为横向(使宽度大于高度)。

Recognition.AutoRecognizeManager.FormatSpeedOptimized

布尔类型。真正的根据最终文件的格式优化识别速度;否则,.默认值为真正的.例如,如果最终的文档格式是文本,OCR引擎不识别字体属性,如斜体或粗体。

识别。AutoSecondPass

布尔类型。如果第一次处理没有提供令人满意的结果,则自动对内部黑白图像执行第二次图像处理清理。默认值为真正的

Recognition.CharacterFilter.DiscardNoiseLikeCharacters

布尔类型。真正的忽略具有类似噪声特征的已识别字符;否则,.默认值为

Recognition.CharacterFilter.DiscardNoisyZones

布尔类型。真正的如果引擎确定识别的所有字符都是噪声,则丢弃该区域中的所有结果;否则,.默认值为

Recognition.CharacterFilter.MinimumPixelHeight

整数(0 ~ Int32.MaxValue)。可识别字符的最小高度(以像素为单位)。默认值为6

Recognition.CharacterFilter.MinimumPixelSizeExcludeCharacters

字符串(没有最大值。可以).要排除在最小像素宽度和高度规则之外的字符。默认值为“。”

Recognition.CharacterFilter.MinimumPixelWidth

整数(0 ~ Int32.MaxValue)。可识别字符的最小宽度(以像素为单位)。默认值为6

Recognition.CharacterFilter.PostprocessMICR

布尔类型。真正的对任何MICR区域进行后处理,丢弃不属于MICR字符集的所有字符、数字和符号,并执行基本的有效性数据检查;否则,.默认值为真正的

识别。DetectColors

布尔类型。自动检测每个字符的前景和背景颜色。默认值为真正的.如果此值为真正的,然后引擎尝试自动检测区域的颜色IOcrPage。AutoZone调用并设置值OcrZone。字体颜色而且OcrZone。背景色

识别。DetectExactCharacterBounds

布尔类型。真正的为每个识别字符检测精确的边界矩形;否则,.默认值为

Recognition.Fonts.DetectFontStyles

枚举类型。启用或禁用特定字体属性的检测。如果格式支持字体(如PDF或DOCX格式),这些标志将影响最终生成的文档。默认值为大胆的|斜体|下划线|SansSerif|衬线|成比例的|上标|下标|加删除线(0x01 | 0x02 | 0x04 | 0x08 | 0x10 | 0x20 | 0x40 | 0x80 | 0x100 = 1FF)。

值可以一起OR-ed。可能取值为:

价值 描述
(0)没有 不检测任何字体样式。
(0 x01)大胆 检测粗体字体样式。
(0 x02)斜体 检测斜体字体样式。
(0 x04)下划线 检测下划线字体样式。
(() SansSerif 检测Sans-Serif字体样式(例如,Arial)。
(0 x10)衬线 检测衬线字体样式(例如,Times New Roman)。
(0 x20)比例 检测比例字体样式(例如Times New Roman或Arial)或固定空格字体样式(例如Courier New)。
(0 x40)上标 检测上脚本字体样式。
(0 x80)下标 检测下标字体样式。
(0 x100)三振 检测删除字体样式。

Recognition.Fonts.EnableCapsCaps

布尔类型。真正的启用大写/大写(CamelCase)字体识别增强功能;否则,.默认值为

Recognition.Fonts.RecognizeFontAttributes

布尔类型。真正的启用字体属性识别;否则,.默认值为真正的

将此值设置为能提高速度吗IOcrPage。识别如果不需要识别字符的字体属性,例如,如果识别仅用于获取原始文本而不用于创建格式化的输出文档,则使用该方法。

识别。MaximumPageConventionalMemorySize

整数(0 ~ Int32.MaxValue)。适当的设置识别。MaximumPageConventionalMemorySize这取决于系统硬件配置和正在使用的内核数量以及应用程序类型。如果在运行应用程序时发生内存不足错误,请更改此设置。的IOcrEngine支持加载RasterImage对象直接从磁盘文件,流或url,(例如,在IOcrPageCollection而且IOcrAutoRecognizeManager类)。的RasterImageLoaded保存原始图像,仅在保存图形区域或图像-文本覆盖时才有用。如果映像很大,并且是使用常规内存创建的,那么将使用大量物理内存在内存中保存此映像,并且不能用于自动分区或识别等其他目的。这在多线程应用程序中更为明显,在这些应用程序中,在常规内存中加载几个大图像可能会导致内存不足错误,即使在执行通常会成功的操作时也是如此。

使用“MaximumPageConventionalMemorySize”设置图像在内存中允许的最大大小IOcrEngine的磁盘内存特性自动切换到RasterImage和(RasterMemoryFlags).“MaximumPageConventionalMemorySize”以KBytes为单位,其默认值取决于所使用的处理器。对于x86处理器,取值为42187(42 mb)。对于x64处理器,该值是动态计算的(每8个核1.7 g字节,不超过物理内存大小)。这些值允许将典型的OCR图像(8.5 × 11英寸,300 DPI, 32位/像素)加载到传统内存中。任何明显大于该值的数据都会切换到使用磁盘内存模式。

不同的因素会影响特定设置的性能,必须进行权衡,包括以下因素:

识别。ModifyProcessingImage

布尔类型。真正的对识别后的处理图像进行修改;否则,.默认值为真正的.最好将此设置的值设置为真正的如果IOcrPage。识别每页只调用一次。

IOcrAutoRecognizeManager临时将此设置的值设置为真正的在做表彰工作的时候。

Recognition.Preprocess.BlackWhiteImageConversionMethod

枚举类型。此设置影响如何将存储在引擎中的非黑白图像转换为黑白图像。默认值为默认的(0)。

可能取值为:

价值 描述
(0)默认 这将影响灰度或24位彩色图像。在引擎的内存中创建一个黑白图像。图像二值化采用自适应阈值算法。
(1)动态 这将影响灰度或24位彩色图像。在引擎的内存中创建一个黑白图像。每个像素都与动态计算的阈值进行比较。如果像素强度较高,则设置为白色;否则,设置为黑色。
(2)用户 这将影响灰度或24位彩色图像。在引擎的内存中创建一个黑白图像。根据用户自定义的阈值进行阈值分割。使用以下命令设置阈值Recognition.Preprocess.BlackWhiteImageConversionThreshold).

Recognition.Preprocess.DownSampleLargeImage

布尔类型。真正的在识别之前对大图像进行采样;否则,.默认值为

将值设置为真正的以防止OCR引擎创建大于4000 * 4000像素的处理图像(用于识别的图像)(以保存内存和资源)。属性的值被忽略MobileImagePreprocess设置是真正的

Recognition.Preprocess.BlackWhiteImageConversionThreshold

整数(0 ~ 255)。在将彩色图像转换为二进制(黑色和白色)以准备识别图像上的文本时使用的阈值。转换将文本强度与背景强度分开。默认值为185

这相当于调用IntensityDetectCommand在图像上InColor等于检测到的前景色(文本)颜色,OutColor等于检测到的背景色,通道设置为HighThreshold等于255,和LowThreshold等于此设置的值。

Recognition.Preprocess.ModifyOriginalImageOptions

枚举类型。方法时如何修改原始图像IOcrPage。AutoPreprocess方法。默认值为抗扭斜|旋转|(0x01 | 0x02 | 0x04 = 0x07)。

值可以“或”放在一起。可能取值为:

价值 描述
(0)没有 不要修改原始图像。
(0 x01)抗扭斜 应用任何角度发现,而去角(IOcrPage。GetDeskewAngle)原图。
(0 x02)旋转 应用自动定向时发现的角度(始终为直角)(IOcrPage。GetRotateAngle)在原始图像上(自动定向)。
(0 x04)转化 应用反演值(IOcrPage。IsInverted)在原图上。

Recognition.Preprocess.MobileImagePreprocess

布尔类型。真正的启用移动图像处理模式;否则,.默认值为

根据设计,OCR引擎试图提升低分辨率(DPI)图像。然而,大多数移动设备上的相机拍摄的照片分辨率较低(例如72 DPI),但像素尺寸较大。如果OCR引擎放大这些图像,就会消耗更多的内存。如果使用OCR引擎处理来自移动相机的图像,请将移动图像处理模式设置为真正的

Recognition.Preprocess.RemoveInvertedTextRegionsFromProcessImage

布尔类型。真正的自动检测和识别反转区域,否则;.默认值为

将此值设置为真正的支持对包含黑白和黑白区域的图像进行OCRing。

Recognition.Preprocess.UseZoningEngine

布尔类型。真正的使用分区引擎来排除图形区域的预处理计算,如倾斜和自动旋转;否则,.默认值为真正的

Recognition.Preprocess.MinimumAutoRotateConfidence

整数(0 ~ 100)。由IOcrPage。AutoPreprocess方法确定面向页面时要使用的最小置信百分比阈值。默认值为26

识别。识别ModuleTradeoff

枚举类型。识别模块在速度和准确性之间的权衡。默认值为平衡(1)。

可能取值为:

价值 描述
(0)准确 准确比速度更重要。
(1)平衡 准确性和速度同样重要。
(2)快速 速度比准确性更重要。

识别。识别ModuleType

枚举类型。指定用于处理机器打印、手写文本或两者的组合的识别模块。

可能取值为:

价值 描述
(0) OCR 引擎认为所有输入图像都只有机器打印的文本。
(1)只有几 引擎认为所有输入的图像都只有手写文本。
(2)混合 该引擎将所有输入图像视为机器打印文本和手写文本的混合。该引擎自动检测手写区域和机器打印区域,即使这些区域没有预先指定的用户。

识别。ShareOriginalImage

布尔类型。真正的共享用于创建OCR页面的图像参考;否则,.默认值为

将此值设置为真正的影响IOcrPageCollection。AddPage (RasterImage OcrProgressCallback)而且IOcrPageCollection。InsertPage(int, RasterImage, OcrProgressCallback)方法。当值为(默认值),这些方法生成图像的副本,并使用该副本创建页面。调用IOcrPage.GetRasterImage (OcrPageType.Original)在这样的页面上返回参考。

当值为真正的,这些方法使用相同的图像引用来创建页面。调用IOcrPage.GetRasterImage (OcrPageType.Original)在这样的页面上返回原始图像引用。

IOcrAutoRecognizeManager临时将此设置的值设置为真正的在做表彰工作的时候。

Recognition.Threading.MaximumThreads

整数(0 ~ Int32.MaxValue)。获取或设置识别中使用的最大线程数。LEADTOOLS OCR模块- LEAD引擎提供了在单独的线程中识别文档区域的支持。这样可以提高性能IOcrPage。识别方法。

默认值为0,指示LEADTOOLS使用系统线程池。线程数是自动计算的。将值设置为数字> 1也会打开多线程,但指定的线程数将被忽略并自动计算。控件中的多线程关闭IOcrPage。识别方法,并使用单个线程,将值设置为1

Recognition.Zoning.CropZoneImage

布尔类型。真正的从原始图像中裁剪每个区域并自行识别;否则,.默认值为真正的

将此值设置为真正的能提高业绩吗IOcrPage。识别方法。

Recognition.Zoning.DetectVerticalZones

枚举类型。垂直区域检测模式。这适用于拉丁语和亚洲语言。

可能取值为:

价值 描述
(0)汽车 自动-目前这意味着亚洲语言(如日语)打开,拉丁语言(如英语)关闭。
(1) 开-目前这意味着亚洲语言,如日语和拉丁语言,如英语。
(2) 关闭-目前这意味着关闭亚洲语言,如日语和拉丁语言,如英语。

Recognition.Zoning.DetectZoneRotationAngle

布尔类型。真正的尝试为每个区域检测单独的旋转角度;否则,.默认值为

将此值设置为可以提高识别引擎的速度。

Recognition.Zoning.DisableMultiThreading

布尔类型。真正的在执行自动分区时禁用多线程;否则,启用多线程。默认值为

多线程提高了自动分区算法的性能。但是,如果OCR引擎托管在服务器上,这可能是不可取的。

Recognition.Zoning.EnableDoubleZoning

布尔类型。真正的对每个文本区域执行第二个内部自动分区程序,以生成更多的同质识别区域;否则,.默认值为真正的.属性的性能IOcrPage。识别方法。

Recognition.Zoning.Options

枚举类型。这些标志影响IOcrPage。AutoZone工作方法。默认值为检测文本|检测图像|检测表|探测精确区域|表格单元格作为区域|使用高级表检测|使用文本提取器|支持图形(0x01 | 0x02 | 0x04 | 0x10 | 0x40 | 0x80 | 0x100 | 0x400)。

值可以“或”在一起。可能取值为:

价值 描述
(0)没有 没有选择。引擎不会检测到任何区域,因此不会执行任何识别。
(0x01)检测文本 搜索页面图像内的文本区域。
(0x02)检测图形 搜索页面图像内的图形区域。
(0x04)检测表 在页面图像内搜索表区域。
(0x08)允许重叠 允许区域重叠;否则,检测到的区域将不会重叠。
(0x10)检测准确的区域 检测更小更准确的区域(如页面段落)。除非设置了这个标志,否则自动区域算法将尝试检测可能的最大区域。
(0x20)识别一个单元格表 即使一个表只有一个单元格,也要将其作为一个表进行检测。必须是OR'ed with检测表
(0x40)将单元格作为区域 将表中检测到的每个单元格视为自己的区域。如果设置该选项,则分区类型为OcrZoneType。文本而不是OcrZoneType。表格.必须是OR'ed with检测表
(0x80)使用高级表检测 当文档包含表时,使用高级表检测可获得最准确的结果。此选项以递归和积极的方式解析文档以定位表和单元格的位置。使用此选项可在最终输出中生成原始文档及其表的最准确表示。这个选项必须用OR'ed检测表
(0x100)使用文本提取器 改进文本区域识别。通过从文本区域中分离图形和表格来提取文本。
(0x200)检测复选框 搜索页面图像内的复选框区域。
(0x400)支持图形 赞成将精度非常低的blob转换为连续的图形而不是文本。默认情况下,该选项是打开的,可以更好地显示输出文档。当使用文本或PDF执行自动识别时,OCR引擎将关闭此选项,并设置图像优于文本选项。在这种模式下,引擎假定结果应该包含所有解析过的文本,而不管质量如何。

Recognition.Words.DiscardLowConfidenceWords

布尔类型。真正的丢弃低等级的单词;否则,.默认值为真正的

此设置控制输出。如果真正的,引擎检查每个词的置信度,并防止任何有低评级(低于LowWordConfidence在将识别结果保存为LEADTOOLS工具包所支持的任何文档格式时,不包括该值。

Recognition.Words.DiscardLowConfidenceZones

布尔类型。真正的废弃低评级区域;否则,.默认值为.此设置控制输出。如果真正的时,引擎会检查区域内的所有单词/字符。如果确定整体置信度和字符类型构成噪声,则丢弃整个区域的识别结果。

Recognition.Words.LowWordConfidence

整数(0 ~ 100)。丢弃置信度值小于此值的任何单词。默认值为50.该设置仅在以下时刻生效DiscardLowConfidenceWords设置为真正的


拼写检查

拼写检查。EnableCache

布尔类型。真正的启用频繁词缓存,否则;.默认值为真正的

拼写检查。MaximumDictionaries

整数(0 ~ 255)。获取或设置同时使用的拼写检查器的最大数目。默认值是系统中可用字典的数量。

LEADTOOLS成像、医疗和文档
188金宝搏的网址客服|支持|联系我们|知识产权公告
©1991 - 2021领德科技有限公司版权所有。