译者注
这篇文章探讨了在人工智能时代,大数据公司如何适应和创新。作者采访了 Alation 的联合创始人 Aaron Kalb,了解了他们的“数据目录”平台,以及他对 ChatGPT 等生成型 AI 软件的看法。Kalb 认为,生成型 AI 是一种催化剂,推动了一波新的数据智能公司的出现。他还分析了生成型 AI 的优势和挑战,以及如何利用它来提高数据质量和可信度。
就像云计算引入了一系列“大数据”解决方案一样,生成式人工智能是新一波数据智能公司的催化剂。
还记得“大数据”这个流行语吗?它在云计算时代孕育了许多成功的公司,如 Snowflake、Databricks、DataStax、Splunk 和 Cloudera。但现在我们处于人工智能时代,据说机器学习软件现在已经达到或接近“智能”了(即使它容易 产生幻觉 ——但是,我们所有人不都是吗?)。
因此,鉴于当前的人工智能热潮,我们是否还需要“大数据”公司来对数据进行分类和组织呢?现在 AI 不是可以为我们做到这一点吗?
为了了解数据公司如何适应人工智能时代,我采访了 Aaron Kalb,Alation 的联合创始人之一。Alation 将自己称为“数据智能”平台,并推广了一个名为“数据目录(data catalog)”的概念。这将“机器学习与人类策展(curation)”相结合,创建一个企业公司的定制数据存储库。
ChatGPT 在 2000 年代与 Siri 的不同之处
在与前 Oracle 高管 Satyen Sangani 共同创立 Alation 之前,Kalb 曾在 Apple 工作,负责 Siri 软件。Siri 或许是第一个应用 AI 语言建模的主流软件应用。因此,我问他当前的生成式 AI 软件(如 ChatGPT 和 Google Bard)与 Siri 在 2000 年代末所做的有何不同。
“Siri 开始时很难,因为当时他们没有对话训练数据,”他回答说。“他们是第一个语音助手。”Siri 的语言模型所训练的语料库比今天大型语言模型(LLMs)的训练数据小得多,Kalb 将 Siri 的训练数据称为“新闻语料库”。
除了相对较差的训练数据外,Siri 并没有使用太多的机器学习。Kalb 说,Siri 在语音到文本和文本到意图的使用中犯了很多错误。“我认为直到今天,Siri、Alexa、Cortana 和 Google 助手都在努力,”他补充道。
为什么 AI 会有幻觉?
话虽如此,生成式 AI 也并非完美无缺。我问 Kalb 他对 ChatGPT 和 Bard 等软件存在幻觉(虚构事实)问题的看法。
Kalb 暗示这对生成式 AI 的人类用户而言更像是一种“心理现象”,而不是软件本身的问题。
“对于许多种提示,它似乎真的理解了提示并制定了答案,然后将其用语言表达出来,”他说,关于 ChatGPT 和类似软件。“令人印象深刻。我们认为它具有理解和真正的智能。它实际上是在做什么呢?它基本上是一个超级复杂的马尔科夫模型,它说,嘿,根据之前说的单词、之前的提示以及之前的整个互联网概率分布,下一个单词是什么?”
他认为幻觉在某种程度上是 AI 软件所“强制”产生的,有时是因为人类提示不够好。
“幻觉似乎是,等等,你在逻辑中间疯了!但实际上,它只是算法的一种产物[…]它有一个可能出现的所有单词的分布,然后用一些统计随机性选择一个。当它到达一个点时,它很不幸,可以说是随便选了一下。”
数据智能如何适应 AI 景观
那么什么是“数据智能”呢?Kalb 开始回答时指出,无论是 AI 还是常见的企业缩略语 BI(业务智能),都是“垃圾进垃圾出”。
“因此,数据智能是 AI 和 BI 之前的这一层,它确保您可以找到、理解和信任正确的数据,以将其放入您的 AI 和 BI 中。”
在这种情况下,他说,将 ChatGPT 等从公共互联网带入企业非常危险。他认为在用于企业的 AI 系统之前,数据需要更加智能。
此外,他认为企业不需要 ChatGPT 和类似系统的“互联网规模”。这就是 Alation 的“数据目录”发挥作用的地方,因为它将“机器学习与人类策展”相结合,以“特定映射”形式将数据“精简”。
他说,每个组织都有自己的术语,这可能是行业术语,也可能是非常特定于该公司的事情。
“所以这就是数据智能和数据目录的作用,”Kalb 解释道。“它有助于映射组织中人们使用语言的最后一公里,以及数据库中存储数据的方式。”
Alation 的软件自动化了将组织的数据放入这些“数据目录”的过程,然后可以选择将其馈送到生成式 AI 系统中(如果公司希望这样做)。
Kalb 解释说,数据智能是“任务的第零步——无论是预处理、ML 训练,还是只是制作电子表格并分析股东会议。”
欢迎来到下一波大数据浪潮
到目前为止,我已经与像 Cohere 和 Vectara 这样的生成式 AI 公司谈过他们对企业 IT 愿景的看法。两者都提到了员工能够与基于大型语言模型训练的 AI 进行对话的用例——从本质上讲,这就是 IT 传统上所称的“知识管理”,但现在呈现为聊天机器人形式。
Kalb 提出了一个很好的观点:很大程度上取决于生成式 AI 所接受的数据的质量。他认为,数据智能是 ChatGPT 和“拥有企业门户,您可以用英语提问并获得有关您业务的准确、可信赖的答案”的梦想之间的“缺失环节”。
因此,就像云计算引入了一系列有用的“大数据”公司一样,似乎明确的是,生成式 AI 将成为下一波数据智能解决方案的催化剂。正如我今年在与 AI 相关的许多文章中所说的那样,敬请关注!