🔥🔥🔥 计算机视觉 GPT4V 它来了!

2023年 9月 29日 112.5k 0

GPT-4V(GPT-4Vision)(GPT-4V)是由OpenAI开发的一种多模型。GPT-4V允许用户上传一张图片作为输入,并提出关于该图片的问题,这种任务类型被称为视觉问题回答(VQA)。 GPT-4V自9月24日起推出,并将在OpenAI ChatGPT iOS应用和网络界面中提供。

一、前言

OpenAI 正在扩展其在人工智能(AI)领域的视野,推出了 GPT-4V 模型,该模型具有聆听、进行对话和解释图像的能力。

image.png

人工智能世界正在迅速发展,OpenAI 继续引领潮流。9月25日,该组织宣布对其 ChatGPT 系统进行了重大升级,引入了具有视觉功能的 GPT-4V 模型和多模态对话功能。

二、GPT-4V 深藏功与名

现在,ChatGPT 用户可以参与比以往更加动态和互动的对话。这一进步得益于两个 AI 模型,GPT-3.5 和 GPT-4,它们可以理解用简单语言表达的口头查询,并用五种不同的声音之一进行回应。

OpenAI 对这种新型多模态界面的可能性充满信心。现在,您可以在旅行时拍摄一个地标的照片,然后进行实时对话,了解它的有趣特征。在家里,拍摄冰箱和食品储藏室的照片,决定吃什么,并甚至请求逐步的食谱。晚餐后,帮助您的孩子解决一个数学问题,拍摄问题的照片,圈出问题,并让 ChatGPT 为您两个提供提示。

这一令人兴奋的改进紧随 OpenAI 发布 DALL-E 3 的脚步,DALL-E 3 是一种先进的图像生成系统,整合了自然语言处理功能,允许用户微调结果,并与 ChatGPT 合作创建图像提示。

DALL-E 3负责图像输出,GPT-4V负责图像输入,输入和输出相结合编排起来以后,文字和图像各种复杂的场景都会有了。

需要值得注意的是,GPT-4V 已于 2022 年完工,这OpenAI到底藏了多少好东西!

三、GPT-4V 示例

3.1 视觉问题回答

使用 GPT-4V 在理解给定图像中的上下文和关系方面的能力。

image.png

GPT-4V 成功地描述了这个图像为什么有趣,参考了图像中的各种组成部分以及它们之间的联系。值得注意的是,提供的梗图包含了文字,GPT-4V 能够阅读并用于生成回应。尽管如此,GPT-4V 确实犯了一个错误。模型称炸鸡被标记为“NVIDIA BURGER”,而不是“GPU”。

首先上传了一张美国一分钱的照片。GPT-4V 成功地识别出了硬币的来源和面额:

image.png

然后,我们上传了一张带有多个硬币的图像,并用这样的文字提示 GPT-4V:“我有多少钱?”

image.png

GPT-4V 能够识别出硬币的数量,但没有确定货币类型。在随后的问题中,GPT-4V 成功地识别出了货币类型:

image.png

3.2 光学字符识别(OCR)

探索GPT-4V 的 OCR 能力,上传图片识别轮胎上文字。

image.png

GPT-4V 无法正确识别轮胎图片中的序列号。模型的结果中,有些数字是正确的,但也出现了几个错误。

然后上传一个网页上的文本,并要求 GPT-4V 阅读图片中的文本。模型成功地识别出了图片中的文本。

image.png

GPT-4V 在将图片中的文字转换为文本中的单个字符方面做得非常出色。对于与从文档中提取文本相关的任务来说,这是一个有用的见解。

3.3 数学 OCR

数学 OCR 是一种针对数学方程的特殊 OCR 形式。数学 OCR 通常被视为一门独立的学科,因为 OCR 模型需要识别的语法涵盖了大量的符号。

我们向 GPT-4V 提出了一个数学问题。这个数学问题是从一个文档中截取的屏幕截图。问题涉及到根据两个角度计算拉链滑索的长度。我们附上图片,并提示“求解”。

image.png

image.png

模型识别出这个问题可以用三角函数解决,确定了要使用的函数,并逐步演示了如何解决这个问题。然后,GPT-4V 提供了问题的正确答案。

尽管如此,GPT-4V 系统卡片指出,模型可能会漏掉数学符号。不同的测试,包括手写在纸上的方程式或表达式的测试,可能显示出模型在回答数学问题方面的不足。

3.4 物体检测

物体检测是计算机视觉领域的基本任务。我们要求 GPT-4V 识别各种物体的位置,以评估其执行物体检测任务的能力。

我们上传的图片中,要求 GPT-4V 在图像中检测一条狗,并提供与狗的位置相关的 x_min、y_min、x_max 和 y_max 值。GPT-4V 返回的边界框坐标与狗的位置不匹配。

image.png

3.5 验证码(CAPTCHA)

我们决定使用验证码测试 GPT-4V,这是 OpenAI 在其研究中研究并在系统卡片中介绍的任务。我们发现 GPT-4V 能够识别出图像中包含验证码,但通常无法通过测试。在一个交通灯示例中,GPT-4V 没有勾选包含交通灯的一些框。

image.png

3.6 纵横字谜和数独

测试 GPT-4V 在纵横字谜和数独上的表现。

首先,我们向 GPT-4V 提供了一张纵横字谜的照片,并附上文字指示“解答”。GPT-4V 推断出图像中包含一个纵横字谜,并尝试提供一个解答。模型似乎正确阅读了线索,但误解了棋盘的结构。因此,提供的答案是错误的。

image.png

在我们的数独测试中,GPT-4V 也表现出了相同的局限性,它识别出了游戏,但误解了棋盘的结构,因此返回了不准确的结果:

image.png

四、其它产商最新动态

与此相关的 AI 新闻中,OpenAI 的竞争对手 Anthropic 最近宣布与亚马逊AWS达成合作,为云服务和 AI 模型定制领域的突破性发展铺平道路。

image.png

亚马逊表示,已同意向 AI 公司 Anthropic 投资高达 40 亿美元(292.5 亿元人民币),这是科技巨头最近为了在 AI 军备竞赛中获得优势而向初创公司投资的大手笔。

知情人士表示,亚马逊已承诺向成立仅两年的 Anthropic 投资 12.5 亿美元,视某些情况而定,这个数额可能会逐渐增加到 40 亿美元。

其中一名知情人士表示,作为协议的一部分,Anthropic 已同意将一定数量的资金花在亚马逊的云基础设施业务 AWS 上。这一安排的具体内容不得而知。

这是AWS抗衡Azure OpenAI 的强有力手段,比较令人期待。

相关文章

JavaScript2024新功能:Object.groupBy、正则表达式v标志
PHP trim 函数对多字节字符的使用和限制
新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
为React 19做准备:WordPress 6.6用户指南
如何删除WordPress中的所有评论

发布评论