任何页面的文档类支持解析文本使用LEADTOOLS SVG或OCR技术。这允许应用程序执行操作,如全文搜索、突出显示文本文档,创建基于文本的注释审查对象。的LEADTOOLS文档查看器库和演示文档查看器就是这样一个例子。
文本可以解析两种方式中的一种:
如果文档类型支持SVG(可伸缩向量图形),然后直接文本可以从SVG解析数据。这提供了100%的准确率、速度、支持任何语言,将忽略商标和其他图形项文本的结果。
可搜索的PDF文件,微软Office文档(文档/多克斯、XLS / XLSX PPT / PPTX), HTML, ePub,文本,SVG CAD文件(DWG, DXG DWF), IOCA / MODCA几的文件格式的例子可以通过LEADTOOLS使用SVG解析引擎。
如果文档类型不支持SVG,那么LEADTOOLS OCR引擎可以用来解析文本。的LEADDocument内部类将执行识别操作使用OCR设置用户提供的(比如使用什么语言和拼写检查引擎)解析文本并返回它。
光栅PDF文件、TIFF、JPEG和PNG等格式的例子。这些光栅图像格式不包含任何文本数据。然而,可以使用OCR识别和从图像读取任何文本。
最好使用SVG引擎提取文本数据准确性和最大速度的100%。如果SVG数据不可用,那么应该使用OCR。的LEADDocument类提供了支持时,执行上述的自动隐藏所有的内部细节。类将获得文本数据的用户以同样的方式不管SVG或使用OCR。
每页可以获得使用的文本GetText。这将返回一个DocumentPageText对象包含信息页面上的每个字符发现包括它的位置、大小和代码。这些信息统一无论SVG或使用OCR。类还包含辅助方法来组织这些角色的话,行,或一个简单的字符串对象。指DocumentPageText为更多的信息。
如果缓存使用的文档,那么随后的调用GetText将从缓存中获取数据,但它不是再次解析(加快操作)。
当GetText被称为,LEADDocument对象将使用中设置的选项DocumentText确定如何解析文本。这些设置文本财产和所有文档的页面是全球性的。这些设置包括:
DocumentText.TextExtractionMode。这是设置为DocumentTextExtractionMode.Auto默认情况下,这意味着使用SVG如果支持;否则,使用光学字符识别。改变这个值,如果需要,禁用SVG或禁用OCR如果需要通过您的应用程序。注意,如果您将值设置为一个模式,不可用(例如,DocumentTextExtractionMode.SvgOnly当文档类型不支持SVG),DocumentPageText会成功但将返回一个空对象。
DocumentText.ImagesRecognitionMode。这是设置为DocumentTextImagesRecognitionMode.Auto默认情况下,显示如何对待遇到的图像元素在页面的SVG表示文本提取。
在所有情况下,DocumentPageText对象将使用相同的信息返回给用户无论提取模式。
OCR引擎实例中设置服务。这是一个实例的任何LEADTOOLS OCR引擎将调用时使用OCR文档。在内部,引擎将创建一个OCR页面的形象页面,调用识别,然后解析成一个结果DocumentPageText对象。
LEADTOOLS OCR和SVG技术是完全线程安全的和任意数量的页面可以解析从任何数量的线程在同一时间。
例如,GetText。