OCRmyPDF的一个重大更新现在可用,这是一个开源项目,可以处理扫描的PDF和其他PDF文档,在文件中添加光学字符识别(OCR)文本层,以便搜索或复制粘贴文件。OCRmyPDF使处理扫描的PDF文本文件变得轻而易举,现在使用OCRmyPDFv15更好。
OCRmyPDF15更新了其Python需求和各种依赖关系。这个版本还决定放弃对32位Windows和Linux的支持——现在只支持64位操作系统,因为它的许多依赖项都只支持64比特。OCRmyPDF继续使用Tesseract作为其OCR引擎。
OCRmyPDF 15还带来了各种性能改进,更新了Snap软件包,并解决了PDF中的错误,因为PDF中页面上只有一小部分图像代表更高的DPI/分辨率。
OCRmyPDF 15可从下载
GitHub
for those interested in OCR'ing PDFs to make the text easier to work with for copying / searching.