带有改进的Tesseract 5.3.4 OCR的新单点版本现已推出。
Tesseract OCR是一个免费的应用程序,也是大多数OCR用例的标准。最新版本Tesseract 5.3.4将增强OCR的工作,并通过一系列关键改进。自2006年以来,Tesseract一直由Google赞助,自1985年至1998年由Hewlett Packard开发以来,Tesseract已经走过了漫长的道路,发展成为市场上最先进的OCR系统之一。
Tesseract提供了两个不同的识别引擎:经典引擎,它在单个字符模式级别识别文本,以及一个利用机器学习的新型引擎,特别是长期短期记忆(LSTM)递归神经网络。这个先进的引擎优化了字符串识别,从而显著提高了准确率。123种语言的现成训练有素的模型的提供进一步简化了用户体验。
魔方5.3.4:关键亮点
UTF—8支持和多语言能力
Tesseract 5.3.4引入了关键特性,增强了其在多种语言中的可用性。该系统现在支持识别超过100种语言的UTF—8字符和文本,从广泛使用的语言,如英语和西班牙语,到具有独特脚本的语言,如俄语,哈萨克语,白俄罗斯语和乌克兰语。此更新迎合了全球用户群,使Tesseract成为满足不同语言需求的通用选择。
多种输出格式
Tesseract的突出特性之一一直是它的适应性,而5.3.4版在这方面又向前迈进了一步。用户现在可以以各种格式保存他们的OCR结果,包括纯文本、HTML(HOCR)、ALTO(XML)、PDF和TSV。这种灵活性确保用户可以将Tesseract无缝集成到他们现有的工作流程中,轻松满足不同的项目要求。
性能优化
Tesseract 5.3.4不仅仅停留在功能增强上;它利用现代技术来优化性能。包含了使用JMP和SIMD指令(如AVX2、AVX、AVX512F、NEON或SSE4.1)的模块,确保用户体验到快速高效的文本识别。
Tesseract 5.3.4的关键改进:
libcurl
图书馆此特性允许更大的灵活性和易用性,在加载过程中设置User—Agent头。一个值得注意的增加是"curl_cookiefile"参数用于使用cookie文件。宇宙魔方5.3.4
随着Tesseract继续为OCR技术设定新的基准,5.3.4版本巩固了其作为领先的开源解决方案的地位。这个版本将在几天内到达Ubuntu,Debian和其他发行版仓库。
您可以从官方页面下载此版本。
- 源代码(zip)
- 源代码(tar.gz)
通过发行说明