在这个话题▼

解析文本文档库

的LEADDocument类支持解析任何页面的文本使用LEADTOOLS SVG或OCR技术。这允许应用程序执行操作,如全文搜索,突出文本文档,创建基于文本的注释审查对象。的LEADTOOLS文档查看器库和演示文档查看器就是这样一个例子。

文本可以解析两种方式中的一种:

如果文档类型支持SVG(可伸缩向量图形),然后直接文本可以从SVG解析数据。这提供了100%的准确率、速度、支持任何语言,忽略了商标和其他图形项文本的结果。
可搜索PDF文件和PDF / A,微软Office文档(文档/多克斯、XLS / XLSX PPT / PPTX), SVG CAD文件(DWG, DXG DWF),法新社MODCA和PTOCA只是一些例子可以通过LEADTOOLS解析的文件格式使用SVG引擎。
如果文档类型不支持SVG,那么LEADTOOLS OCR引擎可以用来解析文本。的LEADDocument内部类将执行识别操作使用OCR设置用户提供的(如使用哪个语言和拼写检查引擎,等等)来解析文本并返回。
光栅PDF文件、TIFF、JPEG和PNG格式。这些光栅图像格式不包含任何文本数据。然而,可以使用OCR识别和从图像读取任何文本。

最好使用SVG引擎提取文本数据准确性和最大速度的100%。如果SVG数据不可用,那么应该使用OCR。的LEADDocument类提供了支持时,执行上述的自动隐藏所有的内部细节。类将获得文本数据的用户以同样的方式不管SVG或使用OCR。

每页可以获得使用的文本DocumentPage.GetText方法。这将返回一个DocumentPageText对象包含信息在页面上的每个字符发现包括它的位置、大小和代码。这些信息统一无论SVG或使用OCR。类还包含辅助方法来组织这些角色的话,线或一个简单的字符串对象。有关更多信息,请参考DocumentPageText。

如果缓存使用的文档,那么随后的调用DocumentPage.GetText将从缓存中获取数据并不是再次解析,加快操作。

当DocumentPage.GetText被称为,LEADDocument对象将使用中设置的选项DocumentText来确定文本解析。这些设置LEADDocument.Text财产和所有文档的页面是全球性的。这些包括:

DocumentText.TextExtractionMode:这是将DocumentTextExtractionMode.Auto默认情况下,这意味着使用SVG如果支持;否则,使用光学字符识别。你可以改变这个值如果需要禁用SVG或禁用OCR应用程序所需的。注意,如果您将值设置为一个模式,不可用(例如,DocumentTextExtractionMode.SvgOnly),文档类型不支持SVG,DocumentPageText会成功但将返回一个空对象。
DocumentText.ImagesRecognitionMode。这是设置为DocumentTextImagesRecognitionMode.Auto默认情况下,显示如何对待遇到的图像元素在这个页面的SVG表示文本提取。
DocumentText.RecognizeGlyphs。这是设置为真正的默认情况下,会自动尝试识别符号使用OCR引擎在SVG文件中找到。如果这仅仅是有效的ImagesRecognitionMode是DocumentTextImagesRecognitionMode.Always。
DocumentText.RemoveRubbishOcrZones。这是设置为真正的默认情况下,会自动忽略OCR结果与信心很低(如噪声或垃圾),而不是将它们插入到DocumentPageText。
在所有情况下,DocumentPageText对象将使用相同的信息返回给用户无论提取模式。
DocumentText.OcrEngine:这是一个任何LEADTOOLS的实例IOcrEngine调用时,将使用OCR的文档。在内部,引擎将创建一个IOcrPage对象的形象页面,调用IOcrPage.Recognize然后解析成一个结果DocumentPageText对象。的DocumentText.StoreOcrPageCharacters属性可以用来指示发动机存储原始OCR对象用于创建文档字符内DocumentPageText对象来获得更多OCR信息,如字符颜色,信心,和基线值。