Google 推出 AI 视觉语言模型 ScreenAI-每日运维

Google 推出 AI 视觉语言模型 ScreenAI-1

导读：Google又化身用户体验的游戏规则改变者，ScreenAI。

Google 在最近刚刚推出了一项突破性的创新：ScreenAI。

这项技术足够让人兴奋。正如大家所预想的，这项技术有可能重塑用户体验 (UX) 的未来。以下，将是一个全面的产品与技术概述，它可确保你处于技术领先地位。

什么是ScreenAI？ScreenAI 不是普通的人工智能。这是由 Google AI 的天才们发明的视觉语言模型 (VLM)。它的与众不同之处，在于它能够理解用户界面 (UI) 和信息图表。这可能是一个游戏规则的改变者。这个奇迹不仅仅是一匹只会一招的小马。它能够执行多种任务，从图形问答到元素注释、摘要、导航和特定于 UI 的 QA。大家想象一下，人工智能可以像经验丰富的专业人士一样浏览网站或应用程序，一路回答问题并总结内容。它是如何运作的？ScreenAI 在通过抓取网络，并自动与应用程序交互生成的屏幕截图数据集上进行了预训练。研发人员使用了几种现成的 AI 模型来生成合成训练数据，包括用于注释屏幕截图的 OCR 和用于生成有关屏幕截图的用户问题的 LLM。经过预训练和微调后，结果是一个 50 亿个参数模型，可以回答有关 UI 屏幕和信息图表的问题，以及总结或导航屏幕。ScreenAI 在WebSRC和MoTIF基准测试中创造了新的性能记录，并在Chart QA、DocVQA和InfographicVQA基准测试中优于其他类似大小的模型。为了帮助更广泛的研究社区开发和评估类似的模型，Google 发布了三个用于基于屏幕的问答 (QA) 模型的新评估数据集。Google 这是解释的：

虽然我们的模型是同类中最好的，但我们注意到，在某些任务上，需要进一步研究来缩小与 GPT-4 和 Gemini 等模型的差距，这些模型要大几个数量级。为了鼓励进一步研究，我们发布了具有这种统一表示的数据集，以及其他两个数据集，以便在屏幕相关任务上对模型进行更全面的基准测试。

ScreenAI 基于 Pathways 语言和图像模型 (PaLI) 架构，该架构将视觉变换器 (ViT) 与编码器-解码器大型语言模型 (LLM)（例如 T5）相结合。

Google 团队对此基础架构进行了关键修改。由于 UI 和信息图表通常具有“各种分辨率和纵横比”，为此他们修改了 ViT 的图像修补步骤，以使用Pix2Struct模型中的修补策略。这将允许模型根据输入图像的形状调整补丁网格。

为了生成预训练数据，研究人员首先创建了一个自动注释管道。该系统在给定屏幕截图图像的情况下，可以检测和分类 UI 和信息图表元素，例如图像、象形图、文本和按钮。结果是一个屏幕架构注释，其中列出了 UI 元素以及指示它们在屏幕内位置的边界框。

然后，屏幕模式数据用于生成合成训练数据。该团队将架构提供给法学硕士，并提示告诉法学硕士该架构代表屏幕截图，并要求法学硕士生成人类用户可能会询问的有关屏幕截图的问题。研究人员还让法学硕士生成屏幕截图的摘要。总体而言，最终数据集包含大约 4 亿个样本。

ScreenAI 的运作就像一个强大的 UI 解释器，以我们从未想过的方式理解数字世界。它的魔力分两个阶段展开：

预训练：利用自监督学习，自动生成数据标签，为其理解奠定基础。
微调：在人类评分者提供的手动标记数据的帮助下，它将其技能完善到完美。

Google 推出 AI 视觉语言模型 ScreenAI-2

让我们深入研究一下它一些令人“瞠目结舌”的功能：

1.屏幕助手

有人是否希望有一个人工智能助手来回答有关屏幕截图内容的所有紧迫问题？

嗯，有了 ScreenAI，这个梦想就变成了现实。

Google 推出 AI 视觉语言模型 ScreenAI-3

2. 屏幕导航

需要在屏幕上执行特定操作但不想动一根手指？只需告诉 ScreenAI 你需要什么，然后观看它发挥其魔力。

Google 推出 AI 视觉语言模型 ScreenAI-4

3. 屏幕摘要

煞费苦心地搜索屏幕内容的日子已经一去不复返了。ScreenAI 将其全部压缩成一口大小、易于理解的片段。

Google 推出 AI 视觉语言模型 ScreenAI-5

实验与结果如前所述，ScreenAI 经历了两个关键的训练阶段：预训练和微调。在预训练期间，使用自监督机器学习技术生成数据标签，而微调则涉及使用人类评估者标记的数据来完善模型的技能。在微调阶段，ScreenAI 使用各种公共 QA、摘要和导航数据集进行测试，涵盖与用户界面 (UI) 相关的广泛任务。对于问答 (QA)，多模态和文档理解领域的既定基准。可作为测试场，包括 ChartQA、DocVQA、多页 DocVQA、InfographicVQA、OCR VQA、Web SRC 和 ScreenQA。对于导航任务，采用了 Referenc Expressions、MoTIF、Mug 和 Android in the Wild 等数据集。屏幕摘要使用 Screen2Words 进行评估。除了这些微调数据集之外，我们还引入了三个新颖的基准来评估微调的 ScreenAI 模型：

屏幕注释：此基准测试评估模型注释布局和理解屏幕内空间关系的能力。
ScreenQA Short：ScreenQA 的变体，该基准测试的特点是缩短了真实答案，与其他 QA 任务更加紧密地结合在一起。
复杂的 ScreenQA：此基准测试包括更具挑战性的问题，例如涉及计数、算术、比较和不可回答的查询的问题。它还包括具有各种长宽比的屏幕，以测试模型的多功能性。

经过微调的 ScreenAI 模型没有让人失望。它在各种 UI 和基于信息图表的任务（包括 WebSRC 和 MoTIF）中实现了最先进的结果。此外，与类似大小的模型相比，它在 Chart QA、DocVQA 和 InfographicVQA 上表现出一流的性能。ScreenAI 还在 Screen2Words 和 OCR-VQA 上展示了具有竞争力的性能。

这些结果强调了 ScreenAI 在应对各种 UI 相关挑战方面的功效和多功能性。此外，新基准数据集的引入为未来的研究奠定了基线，为该领域的进一步发展铺平了道路。

在 ScreenAI 的引领下，通过人工智能驱动的创新来增强用户体验的可能性将是无限的。

Google 推出 AI 视觉语言模型 ScreenAI-6

目前，Google 尚未发布模型代码或权重，但他们已在 GitHub 上开源了评估数据集ScreenQA和Screen Annotation 。

结论：下一步是什么？

现在，你可能渴望掌握 ScreenAI 并彻底改变你的 UX 游戏。但别着急——黄金时段还没有完全准备好。到目前为止，它仍然是谷歌策划者手中的一个尖端研究项目。

但不要害怕，因为未来看起来是光明的。在谷歌的引领下，ScreenAI 从一个诱人的概念转变为现实世界的游戏规则改变者只是时间问题。

所以请继续关注，小伙伴们。ScreenAI 的时代已经来临，这将是一场新的革命。

作者：场长

相关参考：

https://github.com/google-research-datasets/screen_qa

https://github.com/google-research-datasets/screen_annotation

Google 推出 AI 视觉语言模型 ScreenAI

相关文章

发布评论取消回复

宇宙之一粟

VirtualBox 7.1 Beta 发布：采用全新现代化 UI、更换 Logo

兼容MySQL程度最高的国产数据库来了

Llama 3.1 – 405B、70B 和 8B 的多语言与长上下文能力解析