在这个话题▼

解析文本文档库

LEADDocument类支持解析任何页面的文本使用LEADTOOLS SVGOCR技术。这允许应用程序执行操作,如全文搜索,突出文本文档,创建基于文本的注释审查对象。的LEADTOOLS文档查看器库和演示文档查看器就是这样一个例子。

文本可以解析两种方式中的一种:

最好使用SVG引擎提取文本数据准确性和最大速度的100%。如果SVG数据不可用,那么应该使用OCR。的LEADDocument类提供了支持时,执行上述的自动隐藏所有的内部细节。类将获得文本数据的用户以同样的方式不管SVG或使用OCR。

每页可以获得使用的文本DocumentPage.GetText方法。这将返回一个DocumentPageText对象包含信息在页面上的每个字符发现包括它的位置、大小和代码。这些信息统一无论SVG或使用OCR。类还包含辅助方法来组织这些角色的话,线或一个简单的字符串对象。有关更多信息,请参考DocumentPageText

如果缓存使用的文档,那么随后的调用DocumentPage.GetText将从缓存中获取数据并不是再次解析,加快操作。

DocumentPage.GetText被称为,LEADDocument对象将使用中设置的选项DocumentText来确定文本解析。这些设置LEADDocument.Text财产和所有文档的页面是全球性的。这些包括:

LEADTOOLS OCR和SVG技术是完全线程安全的,用户可以解析任意数量的页面在同一时间从任何数量的线程。

为一个例子,请参考DocumentTextDocumentPage.GetText

LEADTOOLS成像、医学和文档