对于某些应用程序,了解引擎生成的可识别文本的可靠性可能很重要。这些应用程序可能需要为识别的字符和/或单词提供额外的置信度信息。
引擎可以通过两种不同的方式为识别文本的正确性提供置信度信息:
引擎的输出标记功能(参见:OCR引擎特定设置)启用IOcrDocument。保存,IOcrDocument。SaveXml或IOcrPage。GetText方法将用户定义的字符序列放在最终输出文档中可疑识别的字符和/或单词(低置信度的识别结果)之前。或者,可以将可疑字符和/或单词设置为输出文档中的特定颜色。
在另一种方法中,引擎可以生成由每个已识别字符的结构化数据组成的输出。在这个输出中,每个字符都有一个结构或记录。被识别实体的字符代码是主字段。其他字段包括字符在图像上的坐标、字符所属的区域、字符的字体信息和置信度信息。
大多数输出转换器都支持输出标记。用颜色标记低置信度识别要求输出格式(例如MS Word)支持彩色文本。
标记功能可能的输出如下所示:
“我们想问你几个问题,大概15分钟”
前面的文本提取是使用输出标记特性生成的,其中星号('*')字符被设置为标记输出中可疑的识别字符。
更多的信息可以通过调用直接检索到应用程序内存中IOcrPage。GetRecognizedCharacters,刚打过电话IOcrPage。识别和IOcrPage。GetText.的IOcrPage。GetRecognizedCharactersCall提供关于已识别数据的最详细信息。它的结果是OcrCharacter每个已识别字符的结构。
属性中有三个属性OcrCharacter结构,它提供字符识别置信信息OcrCharacter。信心,OcrCharacter。WordIsCertain和OcrCharacter。LeadingSpaces信心属性。
的OcrCharacter。WordIsCertain属性表示该字符所在的单词的确定性/不确定性。
的OcrCharacter。信心属性表示字符识别的确定性,范围在0到100之间。值为100表示引擎以较高的置信度识别字符。在某些情况下,一个单词可能有一些或全部字符是单独可疑的,但这些字符没有被标记为可疑OcrCharacter。WordIsCertain.这通常是语言或用户字典检查的结果。这意味着这个词已经被检查子系统验证过了。
的OcrCharacter。LeadingSpaces信心属性的取值范围在0到100之间,它表示该值的置信度OcrCharacter。LeadingSpaces结构的属性,(即,引擎是否确定在识别字符前面估计的空间量)。
检查字符置信度信息的应用程序可以使用阈值。低于该值的字符将被视为可疑结果。64值最适合这个目的。值大于或等于64表示字符被正确识别的置信度较高。小于64的值将该代码标记为可疑。
图1所示。置信阈值,指定值为64
注意:
当启用输出标记可疑字符时,这个值(64)也在内部以相同的方式使用。
还报告了OMR区域的置信水平。有关更多信息,请参阅在LEADTOOLS .NET OCR中使用OMR.
对LEADTOOLS OCR模块- OmniPage引擎的重要说明
当所有三个识别模块都用于投票方案时,置信度报告系统工作最好(NativeOcrZoneRecognitionModule。OmniFontPlus3WayVoting)。如果使用其他机器打印识别模块(NativeOcrZoneRecognitionModule。OmniFontPlus2WayVoting,NativeOcrZoneRecognitionModule。OmniFontMText等)则置信度信息仍然可用,但系统正确报告置信度的能力降低。这导致了较高水平的假阴性和假阳性报告可疑的识别结果。
帮助收藏
光栅net|C API|c++类库|HTML5 JavaScript
文档net|C API|c++类库|HTML5 JavaScript
医疗net|C API|c++类库|HTML5 JavaScript
医疗网络查看器net
188宝金博怎么下载
支持的平台上
.NET、Java、Android和iOS/macOS程序集
C API/ c++类库
HTML5 JavaScript库
您的邮件已发送给技术支持!应该有人联系!如果你的事情很紧急,请回来聊天。
聊天时间:
周一至周五,美国东部时间上午8:30至下午6:00
感谢您的反馈!
请再次填写表格,开始新的聊天。
所有代理目前都离线。
聊天时间:
星期一至星期五
美国东部时间上午8:30 -下午6点
如需与我们联系,请填写此表格,我们将通过电子邮件与您联系。