Tesseract 5.3.4：光学文本识别的飞跃

运维资讯 2024-03-20 宇宙之一粟手机阅读

带有改进的Tesseract 5.3.4 OCR的新单点版本现已推出。

Tesseract OCR是一个免费的应用程序，也是大多数OCR用例的标准。最新版本Tesseract 5.3.4将增强OCR的工作，并通过一系列关键改进。自2006年以来，Tesseract一直由Google赞助，自1985年至1998年由Hewlett Packard开发以来，Tesseract已经走过了漫长的道路，发展成为市场上最先进的OCR系统之一。

Tesseract提供了两个不同的识别引擎：经典引擎，它在单个字符模式级别识别文本，以及一个利用机器学习的新型引擎，特别是长期短期记忆(LSTM)递归神经网络。这个先进的引擎优化了字符串识别，从而显著提高了准确率。123种语言的现成训练有素的模型的提供进一步简化了用户体验。

魔方5.3.4：关键亮点

UTF—8支持和多语言能力

Tesseract 5.3.4引入了关键特性，增强了其在多种语言中的可用性。该系统现在支持识别超过100种语言的UTF—8字符和文本，从广泛使用的语言，如英语和西班牙语，到具有独特脚本的语言，如俄语，哈萨克语，白俄罗斯语和乌克兰语。此更新迎合了全球用户群，使Tesseract成为满足不同语言需求的通用选择。

多种输出格式

Tesseract的突出特性之一一直是它的适应性，而5.3.4版在这方面又向前迈进了一步。用户现在可以以各种格式保存他们的OCR结果，包括纯文本、HTML(HOCR)、ALTO(XML)、PDF和TSV。这种灵活性确保用户可以将Tesseract无缝集成到他们现有的工作流程中，轻松满足不同的项目要求。