Gemini 1.5 杀死了 RAG ?

2024年 2月 26日 104.5k 0

撰稿 | 言征

出品 | 51CTO技术栈(微信号:blog51cto)

谷歌最近发布的Gemini 1.5具有1M的上下文长度窗口,引发了一场关于“RAG(检索增强生成)是否仍然重要”的新辩论。

众所周知,LLM面临的最大问题之一就是幻觉。为了应对这一挑战,市面上有两种解决方案,一种涉及增加上下文窗口,另一种就是使用RAG。

最近,一些开发人员一直在试验Gemini 1.5。沃顿商学院教授Ethan Mollick在X上写道:“我上传了《了不起的盖茨比》,其中有两处改动(提到了一部‘盒子里的iPhone’和一架‘激光割草机’)。Gemini发现了这两处问题(又找到了一件东西)。Claude也做到了,但产生了幻觉。而带有RAG的GPT4却失灵了。”

Gemini的测试结果Gemini的测试结果

Claude的测试结果Claude的测试结果

RAG + GPT4RAG + GPT4

另一位X用户Mckay Wrigley将一整本生物学教科书输入Gemini 1.5 Pro,其中包括491002个令牌。他问了三个非常具体的问题,每个问题的答案都是100%正确的。 

Cognosys联合创始人兼首席执行官Sully Omar写道:“Gemini 1.5 Pro是一款被严重低估的软件。我直接从GitHub上传了整个代码库,以及所有问题,包括Vercel AI SDK。它不仅能够理解代码库,还发现了最紧迫的问题并实施了修复。它几乎革新改变一切。”

上面的三个例子证明,Gemini 1.5凭借其广泛的上下文窗口,成功地检索了文档中的关键信息。

1、Gemini1.5性能超越了于ChatGPT和Claud, 上下文窗口遥遥领先

具体来讲,之所以谷歌的Gemini 1.5这个新模型的性能优于ChatGPT和Claude,一个显著的原因是拥有100万个令牌上下文窗口,这是自然处理模型中有史以来最大的。相比之下,GPT-4 Turbo具有128K上下文窗口,而Claude 2.1具有200K上下文窗口。 

部分受邀的开发者和企业客户可以通过AI Studio和Vertex AI在私人预览中,在多达100万个令牌的上下文窗口中进行尝试。 它可以一次性处理大量信息,包括1小时的视频、11小时的音频、超过30000行代码或超过700000字的代码库。在他们的研究中,谷歌还成功测试了多达1000万个令牌。

图片图片

该博客由谷歌首席执行官桑达尔·皮查伊和谷歌DeepMind首席执行官德米斯·哈萨比斯共同撰写,并将其与ChatGPT和Claude等现有模型进行了比较。 

2、苹果和橙子的比较

然而,上面的这三个例子并不能说明RAG的局限性。

RAG和上下文窗口之间的方案有哪些区别?上下文窗口将模型限制为给定文本范围内的信息,而RAG将模型的功能扩展到外部来源,极大地拓宽了可访问信息的范围。

对于互联网上相关的炒作报道,谷歌DeepMind研究和深度学习团队负责人Oriol Vinyals表达了他的观点,他说:“RAG(检索增强生成)还没有完成,尽管我们现在可以在上下文中处理100万或更多的令牌。事实上,RAG有一些很好的特性,可以增强(并通过)长上下文来增强。

他补充道:“RAG允许您查找相关信息,但由于压缩,模型访问信息的方式可能过于受限。长上下文可能有助于弥合这一差距,类似于现代CPU中L1/L2缓存和主存储器的协同工作方式。”

图片图片

更大的上下文窗口允许LLM考虑更多的文本,从而生成更准确、连贯的响应,尤其是对于复杂和长句。然而,这并不意味着模型不会产生幻觉。 

根据斯坦福大学、加州大学伯克利分校和Samaya AI的研究人员发表的一篇题为《中部低谷:语言模型如何使用长上下文》的论文,LLM在文档的开头和结尾都表现出很高的信息检索准确性。然而,这种精度在中间会下降,尤其是随着输入处理的增加。

图片图片

3、超长上下文窗口杀不死RAG

“过去几天里,我看到的最糟糕的论调是,像Gemini 1.5这样的长上下文模型将取代RAG,”DAIR.AI的联合创始人Elvis Saravia写道。他解释说,长上下文LLM在处理静态信息(如书籍、视频录制、PDF等)方面表现出色,但它们尚未在高度演化的信息和知识上进行实战测试。

他进一步补充说,为了解决这类问题,人们可能会将RAG和长上下文LLM结合起来,构建一个健壮的系统,该系统可以有效、高效地检索和执行大规模的关键历史信息分析。

“我们将在解决一些挑战方面取得进展,例如‘中部低谷’和处理更复杂的结构化和动态数据,但我们仍然还有很长的路要走,”他说。Saravia补充说,不同的LLM家族将有助于解决不同类型的问题。“我们需要摒弃这种想法,即将有一种LLM能够统治一切。”

毫无疑问,Gemini 1.5的性能优于Claude 2.1和GPT-4 Turbo,因为它可以吸收整个代码库,处理100多篇论文和各种文档,但它肯定没有杀死RAG。

参考链接:

https://analyticsindiamag.com/did-google-gemini-1-5-really-kill-rag/

相关文章

JavaScript2024新功能:Object.groupBy、正则表达式v标志
PHP trim 函数对多字节字符的使用和限制
新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
为React 19做准备:WordPress 6.6用户指南
如何删除WordPress中的所有评论

发布评论