MiniGPT4 AI 可以像 GPT4 处理复杂的视觉语言任务

运维资讯 2023-07-21 穿过生命散发芬芳手机阅读

GPT-4 是 OpenAI 最新发布的大型语言模型。它的多模性质使其有别于所有先前引入的 LLM。 GPT 的 transformer 架构是著名的 ChatGPT 背后的技术，使其能够通过超好的自然语言理解来模仿人类。

GPT-4 在解决生成详细而精确的图像描述、解释不寻常的视觉现象、使用手写文本指令开发网站等任务方面表现出了巨大的性能。一些用户甚至用它来构建视频游戏和 Chrome 扩展，并解释复杂的推理问题。

GPT-4 卓越性能背后的原因尚不完全清楚。最近发表的一篇研究论文的作者认为，GPT-4 的高级能力可能是由于使用更高级的大型语言模型。先前的研究表明 LLM 如何具有巨大的潜力，这在较小的模型中大多不存在。

因此，作者提出了一种名为 MiniGPT-4 的新模型来详细探索该假设。MiniGPT-4 是开源模型，能够像 GPT-4 一样执行复杂的视觉语言任务。

由博士的学历团队开发。来自沙特阿拉伯阿卜杜拉国王科技大学的学生发现，MiniGPT-4 具有与 GPT-4 所描绘的相似的能力，例如详细的图像描述生成和从手写草稿创建网站。

MiniGPT-4 使用称为 Vicuna 的高级 LLM 作为语言解码器，它建立在 LLaMA 之上，据报道达到 GPT-4 评估的 ChatGPT 质量的 90%。 MiniGPT-4 使用 BLIP-2（Bootstrapping Language-Image Pre-training）的预训练视觉组件，并添加了一个投影层，通过冻结所有其他视觉和语言组件，将编码的视觉特征与 Vicuna 语言模型对齐。