解析文本文档库

任何页面的文档类支持解析文本使用LEADTOOLS SVG或OCR技术。这允许应用程序执行操作,如全文搜索、突出显示文本文档,创建基于文本的注释审查对象。的LEADTOOLS文档查看器库和演示文档查看器就是这样一个例子。

文本可以解析两种方式中的一种:

如果文档类型支持SVG(可伸缩向量图形),然后直接文本可以从SVG解析数据。这提供了100%的准确率、速度、支持任何语言,将忽略商标和其他图形项文本的结果。
可搜索的PDF文件,微软Office文档(文档/多克斯、XLS / XLSX PPT / PPTX), HTML, ePub,文本,SVG CAD文件(DWG, DXG DWF), IOCA / MODCA几的文件格式的例子可以通过LEADTOOLS使用SVG解析引擎。
如果文档类型不支持SVG,那么LEADTOOLS OCR引擎可以用来解析文本。的LEADDocument内部类将执行识别操作使用OCR设置用户提供的(比如使用什么语言和拼写检查引擎)解析文本并返回它。
光栅PDF文件、TIFF、JPEG和PNG等格式的例子。这些光栅图像格式不包含任何文本数据。然而,可以使用OCR识别和从图像读取任何文本。

最好使用SVG引擎提取文本数据准确性和最大速度的100%。如果SVG数据不可用,那么应该使用OCR。的LEADDocument类提供了支持时,执行上述的自动隐藏所有的内部细节。类将获得文本数据的用户以同样的方式不管SVG或使用OCR。

每页可以获得使用的文本GetText。这将返回一个DocumentPageText对象包含信息页面上的每个字符发现包括它的位置、大小和代码。这些信息统一无论SVG或使用OCR。类还包含辅助方法来组织这些角色的话,行,或一个简单的字符串对象。指DocumentPageText为更多的信息。

如果缓存使用的文档,那么随后的调用GetText将从缓存中获取数据,但它不是再次解析(加快操作)。

当GetText被称为,LEADDocument对象将使用中设置的选项DocumentText确定如何解析文本。这些设置文本财产和所有文档的页面是全球性的。这些设置包括:

DocumentText.TextExtractionMode。这是设置为DocumentTextExtractionMode.Auto默认情况下,这意味着使用SVG如果支持;否则,使用光学字符识别。改变这个值,如果需要,禁用SVG或禁用OCR如果需要通过您的应用程序。注意,如果您将值设置为一个模式,不可用(例如,DocumentTextExtractionMode.SvgOnly当文档类型不支持SVG),DocumentPageText会成功但将返回一个空对象。
DocumentText.ImagesRecognitionMode。这是设置为DocumentTextImagesRecognitionMode.Auto默认情况下,显示如何对待遇到的图像元素在页面的SVG表示文本提取。
在所有情况下,DocumentPageText对象将使用相同的信息返回给用户无论提取模式。
OCR引擎实例中设置服务。这是一个实例的任何LEADTOOLS OCR引擎将调用时使用OCR文档。在内部,引擎将创建一个OCR页面的形象页面,调用识别,然后解析成一个结果DocumentPageText对象。