在本主题▼

铅工具OCR模块-铅引擎设置

的IOcrSettingManager。GetSettingNames方法将按相同的顺序返回本表中描述的值的名称。

LEADTOOLS OCR模块- LEAD引擎支持的设置如下表所示:

`识别`

`Recognition.Adaption.AdaptedDataFilePath`

布尔类型。在此版本的LEADTOOLS中未使用

Recognition.AutoRecognizeManager.DefaultDocumentOrientation”

如果页面为空白或全为图形，则生成文档的默认方向。Enum类型，默认值设置为没有一个．

可能取值为:

价值	描述
(0)没有	不要改变方向。
(1)肖像	如果页面是空白的或完全是图形，请尝试更改为纵向方向(使宽度小于高度)。
(2)景观	如果页面是空白或全是图形，请尝试更改为横向(使宽度大于高度)。

`Recognition.AutoRecognizeManager.FormatSpeedOptimized`

布尔类型。真正的根据最终文件的格式优化识别速度;否则,假．默认值为真正的．例如，如果最终的文档格式是文本，OCR引擎不识别字体属性，如斜体或粗体。

`识别。AutoSecondPass`

布尔类型。如果第一次处理没有提供令人满意的结果，则自动对内部黑白图像执行第二次图像处理清理。默认值为真正的．

`Recognition.CharacterFilter.DiscardNoiseLikeCharacters`

布尔类型。真正的忽略具有类似噪声特征的已识别字符;否则,假．默认值为假．

`Recognition.CharacterFilter.DiscardNoisyZones`

布尔类型。真正的如果引擎确定识别的所有字符都是噪声，则丢弃该区域中的所有结果;否则,假．默认值为假．

`Recognition.CharacterFilter.MinimumPixelHeight`

整数(0 ~ Int32.MaxValue)。可识别字符的最小高度(以像素为单位)。默认值为6．

`Recognition.CharacterFilter.MinimumPixelSizeExcludeCharacters`

字符串(没有最大值。可以零)．要排除在最小像素宽度和高度规则之外的字符。默认值为“。”．

`Recognition.CharacterFilter.MinimumPixelWidth`

整数(0 ~ Int32.MaxValue)。可识别字符的最小宽度(以像素为单位)。默认值为6．

`Recognition.CharacterFilter.PostprocessMICR`

布尔类型。真正的对任何MICR区域进行后处理，丢弃不属于MICR字符集的所有字符、数字和符号，并执行基本的有效性数据检查;否则,假．默认值为真正的．

`识别。DetectColors`

布尔类型。自动检测每个字符的前景和背景颜色。默认值为真正的．如果此值为真正的，然后引擎尝试自动检测区域的颜色IOcrPage。AutoZone调用并设置值OcrZone。字体颜色而且OcrZone。背景色．

`识别。DetectExactCharacterBounds`

布尔类型。真正的为每个识别字符检测精确的边界矩形;否则,假．默认值为假．

`Recognition.Fonts.DetectFontStyles`

枚举类型。启用或禁用特定字体属性的检测。如果格式支持字体(如PDF或DOCX格式)，这些标志将影响最终生成的文档。默认值为大胆的|斜体|下划线|SansSerif|衬线|成比例的|上标|下标|加删除线(0x01 | 0x02 | 0x04 | 0x08 | 0x10 | 0x20 | 0x40 | 0x80 | 0x100 = 1FF)。

值可以一起OR-ed。可能取值为:

价值	描述
(0)没有	不检测任何字体样式。
(0 x01)大胆	检测粗体字体样式。
(0 x02)斜体	检测斜体字体样式。
(0 x04)下划线	检测下划线字体样式。
(() SansSerif	检测Sans-Serif字体样式(例如，Arial)。
(0 x10)衬线	检测衬线字体样式(例如，Times New Roman)。
(0 x20)比例	检测比例字体样式(例如Times New Roman或Arial)或固定空格字体样式(例如Courier New)。
(0 x40)上标	检测上脚本字体样式。
(0 x80)下标	检测下标字体样式。
(0 x100)三振	检测删除字体样式。

`Recognition.Fonts.EnableCapsCaps`

布尔类型。真正的启用大写/大写(CamelCase)字体识别增强功能;否则,假．默认值为假．

`Recognition.Fonts.RecognizeFontAttributes`

布尔类型。真正的启用字体属性识别;否则,假．默认值为真正的．

将此值设置为假能提高速度吗IOcrPage。识别如果不需要识别字符的字体属性，例如，如果识别仅用于获取原始文本而不用于创建格式化的输出文档，则使用该方法。

`识别。MaximumPageConventionalMemorySize`

整数(0 ~ Int32.MaxValue)。适当的设置识别。MaximumPageConventionalMemorySize这取决于系统硬件配置和正在使用的内核数量以及应用程序类型。如果在运行应用程序时发生内存不足错误，请更改此设置。的IOcrEngine支持加载RasterImage对象直接从磁盘文件，流或url，(例如，在IOcrPageCollection而且IOcrAutoRecognizeManager类)。的RasterImageLoaded保存原始图像，仅在保存图形区域或图像-文本覆盖时才有用。如果映像很大，并且是使用常规内存创建的，那么将使用大量物理内存在内存中保存此映像，并且不能用于自动分区或识别等其他目的。这在多线程应用程序中更为明显，在这些应用程序中，在常规内存中加载几个大图像可能会导致内存不足错误，即使在执行通常会成功的操作时也是如此。

使用“MaximumPageConventionalMemorySize”设置图像在内存中允许的最大大小IOcrEngine的磁盘内存特性自动切换到RasterImage和(RasterMemoryFlags)．“MaximumPageConventionalMemorySize”以KBytes为单位，其默认值取决于所使用的处理器。对于x86处理器，取值为42187(42 mb)。对于x64处理器，该值是动态计算的(每8个核1.7 g字节，不超过物理内存大小)。这些值允许将典型的OCR图像(8.5 × 11英寸，300 DPI, 32位/像素)加载到传统内存中。任何明显大于该值的数据都会切换到使用磁盘内存模式。

不同的因素会影响特定设置的性能，必须进行权衡，包括以下因素:

机器硬盘驱动器的速度-增加了使用磁盘内存而不是传统内存的惩罚。
加载时间-使用磁盘内存比使用常规内存消耗更多的加载时间。
自动分区和识别——使用磁盘内存提高了自动分区、识别和其他操作的性能，因为传统内存被释放用于图像处理。

`识别。ModifyProcessingImage`

布尔类型。真正的对识别后的处理图像进行修改;否则,假．默认值为真正的．最好将此设置的值设置为真正的如果IOcrPage。识别每页只调用一次。

IOcrAutoRecognizeManager临时将此设置的值设置为真正的在做表彰工作的时候。

`Recognition.Preprocess.BlackWhiteImageConversionMethod`

枚举类型。此设置影响如何将存储在引擎中的非黑白图像转换为黑白图像。默认值为默认的(0)。

可能取值为:

价值	描述
(0)默认	这将影响灰度或24位彩色图像。在引擎的内存中创建一个黑白图像。图像二值化采用自适应阈值算法。
(1)动态	这将影响灰度或24位彩色图像。在引擎的内存中创建一个黑白图像。每个像素都与动态计算的阈值进行比较。如果像素强度较高，则设置为白色;否则，设置为黑色。
(2)用户	这将影响灰度或24位彩色图像。在引擎的内存中创建一个黑白图像。根据用户自定义的阈值进行阈值分割。使用以下命令设置阈值Recognition.Preprocess.BlackWhiteImageConversionThreshold)．

`Recognition.Preprocess.DownSampleLargeImage`

布尔类型。真正的在识别之前对大图像进行采样;否则,假．默认值为假．

将值设置为真正的以防止OCR引擎创建大于4000 * 4000像素的处理图像(用于识别的图像)(以保存内存和资源)。属性的值被忽略MobileImagePreprocess设置是真正的．

`Recognition.Preprocess.BlackWhiteImageConversionThreshold`

整数(0 ~ 255)。在将彩色图像转换为二进制(黑色和白色)以准备识别图像上的文本时使用的阈值。转换将文本强度与背景强度分开。默认值为185．

这相当于调用IntensityDetectCommand在图像上InColor等于检测到的前景色(文本)颜色，OutColor等于检测到的背景色，通道设置为主，HighThreshold等于255，和LowThreshold等于此设置的值。

`Recognition.Preprocess.ModifyOriginalImageOptions`

枚举类型。方法时如何修改原始图像IOcrPage。AutoPreprocess方法。默认值为抗扭斜|旋转|反(0x01 | 0x02 | 0x04 = 0x07)。

值可以“或”放在一起。可能取值为:

价值	描述
(0)没有	不要修改原始图像。
(0 x01)抗扭斜	应用任何角度发现，而去角(IOcrPage。GetDeskewAngle)原图。
(0 x02)旋转	应用自动定向时发现的角度(始终为直角)(IOcrPage。GetRotateAngle)在原始图像上(自动定向)。
(0 x04)转化	应用反演值(IOcrPage。IsInverted)在原图上。

`Recognition.Preprocess.MobileImagePreprocess`

布尔类型。真正的启用移动图像处理模式;否则,假．默认值为假．

根据设计，OCR引擎试图提升低分辨率(DPI)图像。然而，大多数移动设备上的相机拍摄的照片分辨率较低(例如72 DPI)，但像素尺寸较大。如果OCR引擎放大这些图像，就会消耗更多的内存。如果使用OCR引擎处理来自移动相机的图像，请将移动图像处理模式设置为真正的．

`Recognition.Preprocess.RemoveInvertedTextRegionsFromProcessImage`

布尔类型。真正的自动检测和识别反转区域，否则;假．默认值为假．

将此值设置为真正的支持对包含黑白和黑白区域的图像进行OCRing。

`Recognition.Preprocess.UseZoningEngine`

布尔类型。真正的使用分区引擎来排除图形区域的预处理计算，如倾斜和自动旋转;否则,假．默认值为真正的．

`Recognition.Preprocess.MinimumAutoRotateConfidence`

整数(0 ~ 100)。由IOcrPage。AutoPreprocess方法确定面向页面时要使用的最小置信百分比阈值。默认值为26．

`识别。识别ModuleTradeoff`

枚举类型。识别模块在速度和准确性之间的权衡。默认值为平衡(1)。

可能取值为:

价值	描述
(0)准确	准确比速度更重要。
(1)平衡	准确性和速度同样重要。
(2)快速	速度比准确性更重要。

`识别。识别ModuleType`

枚举类型。指定用于处理机器打印、手写文本或两者的组合的识别模块。

可能取值为:

价值	描述
(0) OCR	引擎认为所有输入图像都只有机器打印的文本。
(1)只有几	引擎认为所有输入的图像都只有手写文本。
(2)混合	该引擎将所有输入图像视为机器打印文本和手写文本的混合。该引擎自动检测手写区域和机器打印区域，即使这些区域没有预先指定的用户。

`识别。ShareOriginalImage`

布尔类型。真正的共享用于创建OCR页面的图像参考;否则,假．默认值为假．

将此值设置为真正的影响IOcrPageCollection。AddPage (RasterImage OcrProgressCallback)而且IOcrPageCollection。InsertPage(int, RasterImage, OcrProgressCallback)方法。当值为假(默认值)，这些方法生成图像的副本，并使用该副本创建页面。调用IOcrPage.GetRasterImage (OcrPageType.Original)在这样的页面上返回零参考。

当值为真正的，这些方法使用相同的图像引用来创建页面。调用IOcrPage.GetRasterImage (OcrPageType.Original)在这样的页面上返回原始图像引用。

IOcrAutoRecognizeManager临时将此设置的值设置为真正的在做表彰工作的时候。

`Recognition.Threading.MaximumThreads`

整数(0 ~ Int32.MaxValue)。获取或设置识别中使用的最大线程数。LEADTOOLS OCR模块- LEAD引擎提供了在单独的线程中识别文档区域的支持。这样可以提高性能IOcrPage。识别方法。

默认值为0，指示LEADTOOLS使用系统线程池。线程数是自动计算的。将值设置为数字> 1也会打开多线程，但指定的线程数将被忽略并自动计算。控件中的多线程关闭IOcrPage。识别方法，并使用单个线程，将值设置为1．

`Recognition.Zoning.CropZoneImage`

布尔类型。真正的从原始图像中裁剪每个区域并自行识别;否则,假．默认值为真正的．

将此值设置为真正的能提高业绩吗IOcrPage。识别方法。

`Recognition.Zoning.DetectVerticalZones`

枚举类型。垂直区域检测模式。这适用于拉丁语和亚洲语言。

可能取值为:

价值	描述
(0)汽车	自动-目前这意味着亚洲语言(如日语)打开，拉丁语言(如英语)关闭。
(1)	开-目前这意味着亚洲语言，如日语和拉丁语言，如英语。
(2)	关闭-目前这意味着关闭亚洲语言，如日语和拉丁语言，如英语。

`Recognition.Zoning.DetectZoneRotationAngle`

布尔类型。真正的尝试为每个区域检测单独的旋转角度;否则,假．默认值为假．

将此值设置为假可以提高识别引擎的速度。

`Recognition.Zoning.DisableMultiThreading`

布尔类型。真正的在执行自动分区时禁用多线程;否则，启用多线程。默认值为假．

多线程提高了自动分区算法的性能。但是，如果OCR引擎托管在服务器上，这可能是不可取的。

`Recognition.Zoning.EnableDoubleZoning`

布尔类型。真正的对每个文本区域执行第二个内部自动分区程序，以生成更多的同质识别区域;否则,假．默认值为真正的．属性的性能IOcrPage。识别方法。

`Recognition.Zoning.Options`

枚举类型。这些标志影响IOcrPage。AutoZone工作方法。默认值为检测文本|检测图像|检测表|探测精确区域|表格单元格作为区域|使用高级表检测|使用文本提取器|支持图形(0x01 | 0x02 | 0x04 | 0x10 | 0x40 | 0x80 | 0x100 | 0x400)。

值可以“或”在一起。可能取值为:

价值	描述
(0)没有	没有选择。引擎不会检测到任何区域，因此不会执行任何识别。
(0x01)检测文本	搜索页面图像内的文本区域。
(0x02)检测图形	搜索页面图像内的图形区域。
(0x04)检测表	在页面图像内搜索表区域。
(0x08)允许重叠	允许区域重叠;否则，检测到的区域将不会重叠。
(0x10)检测准确的区域	检测更小更准确的区域(如页面段落)。除非设置了这个标志，否则自动区域算法将尝试检测可能的最大区域。
(0x20)识别一个单元格表	即使一个表只有一个单元格，也要将其作为一个表进行检测。必须是OR'ed with检测表
(0x40)将单元格作为区域	将表中检测到的每个单元格视为自己的区域。如果设置该选项，则分区类型为OcrZoneType。文本而不是OcrZoneType。表格．必须是OR'ed with检测表．
(0x80)使用高级表检测	当文档包含表时，使用高级表检测可获得最准确的结果。此选项以递归和积极的方式解析文档以定位表和单元格的位置。使用此选项可在最终输出中生成原始文档及其表的最准确表示。这个选项必须用OR'ed检测表．
(0x100)使用文本提取器	改进文本区域识别。通过从文本区域中分离图形和表格来提取文本。
(0x200)检测复选框	搜索页面图像内的复选框区域。
(0x400)支持图形	赞成将精度非常低的blob转换为连续的图形而不是文本。默认情况下，该选项是打开的，可以更好地显示输出文档。当使用文本或PDF执行自动识别时，OCR引擎将关闭此选项，并设置图像优于文本选项。在这种模式下，引擎假定结果应该包含所有解析过的文本，而不管质量如何。