谷歌开源 Magika —— AI 驱动的文件类型检测工具

运维资讯 2024-02-20 宇宙之一粟手机阅读

谷歌开源了由 AI 驱动的文件内容类型识别工具，声称能够在毫秒级内精确识别超过 100 种不同文件类型，无论是二进制文件还是文本文件。

在谷歌内部，Magika 被用于提升用户安全，帮助对 Gmail、Drive和安全浏览中的文件进行安全检查和内容策略扫描。

Magika 是基于深度学习技术的文件类型识别系统，用于准确检测二进制和文本文件类型。在底层，Magika 采用定制的、高度优化的深度学习模型，即使在 CPU 上运行，也能在几毫秒内实现精确的文件识别。

主要特性

AI驱动的准确识别：Magika使用了一个自定义的、高度优化的深度学习模型，使得它能够在几毫秒内准确识别出二进制和文本文件的类型，即便是在CPU上运行也能快速完成。
支持多种文件类型：它能够识别超过100种不同的文件类型，包括常见的文档、图片、代码文件和配置文件等。
高效性能：在包含100万文件的基准测试中，Magika的识别性能比其他现有工具高出约20%，尤其在处理文本文件（包括代码文件和配置文件）时，展现出更大的性能优势。
广泛应用：Magika在Google内部被广泛用于提高用户安全，如通过改进的文件类型识别准确性，帮助路由Gmail、Drive和安全浏览文件到适当的安全和内容政策扫描器。
简单易用的安装和使用：Magika可以作为Python库和独立的命令行工具安装，用户可以通过简单的命令行指令pip install magika进行安装，无需GPU。
开源和易于集成：Magika的代码和模型在GitHub上免费提供，并且采用Apache2许可证，便于其他软件改进其文件识别准确性和为研究人员提供大规模识别文件类型的可靠方法。
即将与VirusTotal集成：Magika将与VirusTotal集成，提高平台分析和检测恶意代码的效率和准确性，有助于全球网络安全生态系统的建设。

Magika 命令行输出示例