LEADTOOLS使用教程:在C#中使用OCR将图像转换为可搜索的PDF

借助LEAD强大的OCR库,开发人员能够轻松制作自动化的OCR解决方案,并仅用五行代码即可将这些图像转换为可搜索的PDF转换。

如今,在每个地方,几乎每个人都在使用PDF。在大多数组织中,PDF文档对于业务应用程序和工作流程至关重要。由于文件格式的可移植性和多功能性,许多行业,例如保险代理机构、金融机构和法律实践,已将其文档管理系统标准化为PDF格式。

这些PDF的使用方式取决于所处理PDF的类型。PDF有两种主要类型:图像和可搜索。例如,如果您使用文字处理器保存PDF,则很可能是可搜索的PDF,您可以根据需要复制/粘贴文档中的文本。另一方面,如果您使用扫描仪将纸张转换为PDF,则很可能是图像PDF,并且您将无法搜索文本。

即使您使用扫描仪来创建图像PDF或由其他人发送了图像PDF,仍然可以通过某种方式使它可搜索。这是通过OCR发生的,OCD是LEADTOOLS最擅长的!借助LEAD强大的OCR库,开发人员能够轻松制作自动化的OCR解决方案,并仅用五行代码即可将这些图像转换为可搜索的PDF转换。这些解决方案可以节省人员和公司两个最宝贵的资源:时间和金钱。

LEAD强大的OCR库包括这些产品:LEADTOOLS Recognition Imaging Developer Toolkit、LEADTOOLS Document Imaging Suite、LEADTOOLS OCR Module – LEAD Engine、LEADTOOLS OCR Module – OmniPage Engine、LEADTOOLS ICR Module – OmniPage Engine。

以下代码向您展示了创建将图像转换为可搜索的PDF的解决方案所需的全部内容。如果您需要完整的分步教程,请查看我们的“使用OCR将图像转换为可搜索PDF教程”。(如文章后面内容)

static void OCR(string inputFile, string outputFile){    using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false))    {        //Startup the LEADTOOLS OCR Engine        ocrEngine.Startup(null, null, null, null);        //Run the AutoRecognizeManager and specify PDF format        ocrEngine.AutoRecognizeManager.Run(inputFile, outputFile, DocumentFormat.Pdf, null, null);        Console.WriteLine($"OCR output saved to {outputFile}");    }}


使用OCR将图像转换为可搜索的PDF-控制台C#

本教程说明如何创建一个C#Windows控制台应用程序,该应用程序设置LEAD OCR引擎以处理OCR。

创建项目并添加LEADTOOLS参考

在Visual Studio中,创建一个新的C#Windows Console项目,并添加以下必要的LEADTOOLS引用。

所需的参考取决于项目的目的。引用可以通过以下两种方法中的一种或另一种添加(但不能同时添加)。对于此项目,需要以下参考:

如果使用NuGet引用,则本教程需要以下NuGet软件包:

  • Leadtools.Ocr

如果使用本地DLL引用,则需要以下DLL:

本地DLL安装在<INSTALL_DIR>LEADTOOLS 20BinDotnet4x64:

  • Leadtools.dll
  • Leadtools.Codecs.dll
  • Leadtools.Codecs.Cmp.dll
  • Leadtools.Codecs.Tif.dll
  • Leadtools.Codecs.Fax.dll
  • Leadtools.Document.Writer.dll
  • Leadtools.Ocr.dll
  • Leadtools.Ocr.LEADEngine.dll

设置许可证文件

许可证可解锁项目所需的功能。必须在调用任何工具包功能之前进行设置。

有两种类型的运行时许可证:

  • 评估许可证,在下载评估工具包时获得。它允许评估工具包。
  • 部署许可证。

添加OCR代码

创建项目,添加参考和许可证集后,即可开始编码。

在解决方案资源管理器中,打开Program.cs。要初始化和运行OCR引擎,请添加一个新OCR(string inputFile, string outputFile)方法并在Main方法内部调用它。

将以下语句添加到Program.cs顶部的using块中:

  • using Leadtools;
  • using Leadtools.Ocr;
  • using Leadtools.Document.Writer;

C#

// Using block at the topusing System;using Leadtools;using Leadtools.Document.Writer;using Leadtools.Ocr; 

C#

static void OCR(string inputFile, string outputFile){    using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false))    {        //Startup the LEADTOOLS OCR Engine        ocrEngine.Startup(null, null, null, null);        //Run the AutoRecognizeManager and specify PDF format        ocrEngine.AutoRecognizeManager.Run(inputFile, outputFile, DocumentFormat.Pdf, null, null);        Console.WriteLine($"OCR output saved to {outputFile}");    }} 

C#

static void Main(string[] args){    SetLicense();    string input = @"C:UsersPublicDocumentsLEADTOOLS ImagesOCR1.TIF";    string output = @"C:UsersPublicDocumentsLEADTOOLS ImagesOCR1.PDF";    OCR(input, output);} 

运行项目

F5或选择Debug– > Start Debugging运行项目。

如果正确执行了这些步骤,则会出现控制台并确认许可证设置正确,然后应用程序将OCR1.TIF图像转换为PDF格式,并将其保存到指定位置(作为可搜索的PDF)。


想要购买LEADTOOLS正版授权,或了解更多产品信息请点击【咨询在线客服】

LEADTOOLS使用教程:在C#中使用OCR将图像转换为可搜索的PDF

标签:

来源:慧都

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年5月6日
下一篇 2020年5月6日

相关推荐

发表回复

登录后才能评论