从 Siri 到 ChatGPT:大数据公司如何迎接 AI 新浪潮

2023年 7月 9日 44.2k 0

译者注

这篇文章探讨了在人工智能时代,大数据公司如何适应和创新。作者采访了 Alation 的联合创始人 Aaron Kalb,了解了他们的“数据目录”平台,以及他对 ChatGPT 等生成型 AI 软件的看法。Kalb 认为,生成型 AI 是一种催化剂,推动了一波新的数据智能公司的出现。他还分析了生成型 AI 的优势和挑战,以及如何利用它来提高数据质量和可信度。

就像云计算引入了一系列“大数据”解决方案一样,生成式人工智能是新一波数据智能公司的催化剂。

还记得“大数据”这个流行语吗?它在云计算时代孕育了许多成功的公司,如 Snowflake、Databricks、DataStax、Splunk 和 Cloudera。但现在我们处于人工智能时代,据说机器学习软件现在已经达到或接近“智能”了(即使它容易 产生幻觉 ——但是,我们所有人不都是吗?)。

因此,鉴于当前的人工智能热潮,我们是否还需要“大数据”公司来对数据进行分类和组织呢?现在 AI 不是可以为我们做到这一点吗?

为了了解数据公司如何适应人工智能时代,我采访了 Aaron Kalb,Alation 的联合创始人之一。Alation 将自己称为“数据智能”平台,并推广了一个名为“数据目录(data catalog)”的概念。这将“机器学习与人类策展(curation)”相结合,创建一个企业公司的定制数据存储库。

ChatGPT 在 2000 年代与 Siri 的不同之处

在与前 Oracle 高管 Satyen Sangani 共同创立 Alation 之前,Kalb 曾在 Apple 工作,负责 Siri 软件。Siri 或许是第一个应用 AI 语言建模的主流软件应用。因此,我问他当前的生成式 AI 软件(如 ChatGPT 和 Google Bard)与 Siri 在 2000 年代末所做的有何不同。

“Siri 开始时很难,因为当时他们没有对话训练数据,”他回答说。“他们是第一个语音助手。”Siri 的语言模型所训练的语料库比今天大型语言模型(LLMs)的训练数据小得多,Kalb 将 Siri 的训练数据称为“新闻语料库”。

除了相对较差的训练数据外,Siri 并没有使用太多的机器学习。Kalb 说,Siri 在语音到文本和文本到意图的使用中犯了很多错误。“我认为直到今天,Siri、Alexa、Cortana 和 Google 助手都在努力,”他补充道。

为什么 AI 会有幻觉?

话虽如此,生成式 AI 也并非完美无缺。我问 Kalb 他对 ChatGPT 和 Bard 等软件存在幻觉(虚构事实)问题的看法。

Kalb 暗示这对生成式 AI 的人类用户而言更像是一种“心理现象”,而不是软件本身的问题。

“对于许多种提示,它似乎真的理解了提示并制定了答案,然后将其用语言表达出来,”他说,关于 ChatGPT 和类似软件。“令人印象深刻。我们认为它具有理解和真正的智能。它实际上是在做什么呢?它基本上是一个超级复杂的马尔科夫模型,它说,嘿,根据之前说的单词、之前的提示以及之前的整个互联网概率分布,下一个单词是什么?”

他认为幻觉在某种程度上是 AI 软件所“强制”产生的,有时是因为人类提示不够好。

“幻觉似乎是,等等,你在逻辑中间疯了!但实际上,它只是算法的一种产物[…]它有一个可能出现的所有单词的分布,然后用一些统计随机性选择一个。当它到达一个点时,它很不幸,可以说是随便选了一下。”

数据智能如何适应 AI 景观

那么什么是“数据智能”呢?Kalb 开始回答时指出,无论是 AI 还是常见的企业缩略语 BI(业务智能),都是“垃圾进垃圾出”。

“因此,数据智能是 AI 和 BI 之前的这一层,它确保您可以找到、理解和信任正确的数据,以将其放入您的 AI 和 BI 中。”

在这种情况下,他说,将 ChatGPT 等从公共互联网带入企业非常危险。他认为在用于企业的 AI 系统之前,数据需要更加智能。

此外,他认为企业不需要 ChatGPT 和类似系统的“互联网规模”。这就是 Alation 的“数据目录”发挥作用的地方,因为它将“机器学习与人类策展”相结合,以“特定映射”形式将数据“精简”。

他说,每个组织都有自己的术语,这可能是行业术语,也可能是非常特定于该公司的事情。

“所以这就是数据智能和数据目录的作用,”Kalb 解释道。“它有助于映射组织中人们使用语言的最后一公里,以及数据库中存储数据的方式。”

Alation 的软件自动化了将组织的数据放入这些“数据目录”的过程,然后可以选择将其馈送到生成式 AI 系统中(如果公司希望这样做)。

Kalb 解释说,数据智能是“任务的第零步——无论是预处理、ML 训练,还是只是制作电子表格并分析股东会议。”

欢迎来到下一波大数据浪潮

到目前为止,我已经与像 Cohere 和 Vectara 这样的生成式 AI 公司谈过他们对企业 IT 愿景的看法。两者都提到了员工能够与基于大型语言模型训练的 AI 进行对话的用例——从本质上讲,这就是 IT 传统上所称的“知识管理”,但现在呈现为聊天机器人形式。

Kalb 提出了一个很好的观点:很大程度上取决于生成式 AI 所接受的数据的质量。他认为,数据智能是 ChatGPT 和“拥有企业门户,您可以用英语提问并获得有关您业务的准确、可信赖的答案”的梦想之间的“缺失环节”。

因此,就像云计算引入了一系列有用的“大数据”公司一样,似乎明确的是,生成式 AI 将成为下一波数据智能解决方案的催化剂。正如我今年在与 AI 相关的许多文章中所说的那样,敬请关注!

相关文章

KubeSphere 部署向量数据库 Milvus 实战指南
探索 Kubernetes 持久化存储之 Longhorn 初窥门径
征服 Docker 镜像访问限制!KubeSphere v3.4.1 成功部署全攻略
那些年在 Terraform 上吃到的糖和踩过的坑
无需 Kubernetes 测试 Kubernetes 网络实现
Kubernetes v1.31 中的移除和主要变更

发布评论