Gemini 1.5 杀死了 RAG ?

开发运维 2024-02-26 张二河手机阅读

撰稿 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

谷歌最近发布的Gemini 1.5具有1M的上下文长度窗口，引发了一场关于“RAG（检索增强生成）是否仍然重要”的新辩论。

众所周知，LLM面临的最大问题之一就是幻觉。为了应对这一挑战，市面上有两种解决方案，一种涉及增加上下文窗口，另一种就是使用RAG。

最近，一些开发人员一直在试验Gemini 1.5。沃顿商学院教授Ethan Mollick在X上写道：“我上传了《了不起的盖茨比》，其中有两处改动（提到了一部‘盒子里的iPhone’和一架‘激光割草机’）。Gemini发现了这两处问题（又找到了一件东西）。Claude也做到了，但产生了幻觉。而带有RAG的GPT4却失灵了。”

Gemini的测试结果

Claude的测试结果

RAG + GPT4

另一位X用户Mckay Wrigley将一整本生物学教科书输入Gemini 1.5 Pro，其中包括491002个令牌。他问了三个非常具体的问题，每个问题的答案都是100%正确的。

Cognosys联合创始人兼首席执行官Sully Omar写道：“Gemini 1.5 Pro是一款被严重低估的软件。我直接从GitHub上传了整个代码库，以及所有问题，包括Vercel AI SDK。它不仅能够理解代码库，还发现了最紧迫的问题并实施了修复。它几乎革新改变一切。”

上面的三个例子证明，Gemini 1.5凭借其广泛的上下文窗口，成功地检索了文档中的关键信息。

1、Gemini1.5性能超越了于ChatGPT和Claud, 上下文窗口遥遥领先

具体来讲，之所以谷歌的Gemini 1.5这个新模型的性能优于ChatGPT和Claude，一个显著的原因是拥有100万个令牌上下文窗口，这是自然处理模型中有史以来最大的。相比之下，GPT-4 Turbo具有128K上下文窗口，而Claude 2.1具有200K上下文窗口。

部分受邀的开发者和企业客户可以通过AI Studio和Vertex AI在私人预览中，在多达100万个令牌的上下文窗口中进行尝试。它可以一次性处理大量信息，包括1小时的视频、11小时的音频、超过30000行代码或超过700000字的代码库。在他们的研究中，谷歌还成功测试了多达1000万个令牌。

图片

该博客由谷歌首席执行官桑达尔·皮查伊和谷歌DeepMind首席执行官德米斯·哈萨比斯共同撰写，并将其与ChatGPT和Claude等现有模型进行了比较。

2、苹果和橙子的比较

然而，上面的这三个例子并不能说明RAG的局限性。

RAG和上下文窗口之间的方案有哪些区别？上下文窗口将模型限制为给定文本范围内的信息，而RAG将模型的功能扩展到外部来源，极大地拓宽了可访问信息的范围。

对于互联网上相关的炒作报道，谷歌DeepMind研究和深度学习团队负责人Oriol Vinyals表达了他的观点，他说：“RAG（检索增强生成）还没有完成，尽管我们现在可以在上下文中处理100万或更多的令牌。事实上，RAG有一些很好的特性，可以增强（并通过）长上下文来增强。

他补充道：“RAG允许您查找相关信息，但由于压缩，模型访问信息的方式可能过于受限。长上下文可能有助于弥合这一差距，类似于现代CPU中L1/L2缓存和主存储器的协同工作方式。”

图片

更大的上下文窗口允许LLM考虑更多的文本，从而生成更准确、连贯的响应，尤其是对于复杂和长句。然而，这并不意味着模型不会产生幻觉。

根据斯坦福大学、加州大学伯克利分校和Samaya AI的研究人员发表的一篇题为《中部低谷：语言模型如何使用长上下文》的论文，LLM在文档的开头和结尾都表现出很高的信息检索准确性。然而，这种精度在中间会下降，尤其是随着输入处理的增加。

图片

3、超长上下文窗口杀不死RAG

“过去几天里，我看到的最糟糕的论调是，像Gemini 1.5这样的长上下文模型将取代RAG，”DAIR.AI的联合创始人Elvis Saravia写道。他解释说，长上下文LLM在处理静态信息（如书籍、视频录制、PDF等）方面表现出色，但它们尚未在高度演化的信息和知识上进行实战测试。

他进一步补充说，为了解决这类问题，人们可能会将RAG和长上下文LLM结合起来，构建一个健壮的系统，该系统可以有效、高效地检索和执行大规模的关键历史信息分析。

“我们将在解决一些挑战方面取得进展，例如‘中部低谷’和处理更复杂的结构化和动态数据，但我们仍然还有很长的路要走，”他说。Saravia补充说，不同的LLM家族将有助于解决不同类型的问题。“我们需要摒弃这种想法，即将有一种LLM能够统治一切。”

毫无疑问，Gemini 1.5的性能优于Claude 2.1和GPT-4 Turbo，因为它可以吸收整个代码库，处理100多篇论文和各种文档，但它肯定没有杀死RAG。

参考链接：

https://analyticsindiamag.com/did-google-gemini-1-5-really-kill-rag/

Gemini 1.5 杀死了 RAG ?

1、Gemini1.5性能超越了于ChatGPT和Claud, 上下文窗口遥遥领先

2、苹果和橙子的比较

3、超长上下文窗口杀不死RAG

Python 测试框架：释放自动化测试的力量

thinkphp6点模型有什么作用

快速入门Flask：PythonWeb开发利器安装指南

python有哪些缓存机制

Guava骚操作，十分钟搞定日志脱敏需求！