从 Siri 到 ChatGPT：大数据公司如何迎接 AI 新浪潮-每日运维

译者注

这篇文章探讨了在人工智能时代，大数据公司如何适应和创新。作者采访了 Alation 的联合创始人 Aaron Kalb，了解了他们的“数据目录”平台，以及他对 ChatGPT 等生成型 AI 软件的看法。Kalb 认为，生成型 AI 是一种催化剂，推动了一波新的数据智能公司的出现。他还分析了生成型 AI 的优势和挑战，以及如何利用它来提高数据质量和可信度。

就像云计算引入了一系列“大数据”解决方案一样，生成式人工智能是新一波数据智能公司的催化剂。

还记得“大数据”这个流行语吗？它在云计算时代孕育了许多成功的公司，如 Snowflake、Databricks、DataStax、Splunk 和 Cloudera。但现在我们处于人工智能时代，据说机器学习软件现在已经达到或接近“智能”了（即使它容易产生幻觉 ——但是，我们所有人不都是吗？）。

因此，鉴于当前的人工智能热潮，我们是否还需要“大数据”公司来对数据进行分类和组织呢？现在 AI 不是可以为我们做到这一点吗？

为了了解数据公司如何适应人工智能时代，我采访了 Aaron Kalb，Alation 的联合创始人之一。Alation 将自己称为“数据智能”平台，并推广了一个名为“数据目录（data catalog）”的概念。这将“机器学习与人类策展（curation）”相结合，创建一个企业公司的定制数据存储库。

ChatGPT 在 2000 年代与 Siri 的不同之处

在与前 Oracle 高管 Satyen Sangani 共同创立 Alation 之前，Kalb 曾在 Apple 工作，负责 Siri 软件。Siri 或许是第一个应用 AI 语言建模的主流软件应用。因此，我问他当前的生成式 AI 软件（如 ChatGPT 和 Google Bard）与 Siri 在 2000 年代末所做的有何不同。

“Siri 开始时很难，因为当时他们没有对话训练数据，”他回答说。“他们是第一个语音助手。”Siri 的语言模型所训练的语料库比今天大型语言模型（LLMs）的训练数据小得多，Kalb 将 Siri 的训练数据称为“新闻语料库”。

除了相对较差的训练数据外，Siri 并没有使用太多的机器学习。Kalb 说，Siri 在语音到文本和文本到意图的使用中犯了很多错误。“我认为直到今天，Siri、Alexa、Cortana 和 Google 助手都在努力，”他补充道。

为什么 AI 会有幻觉？

话虽如此，生成式 AI 也并非完美无缺。我问 Kalb 他对 ChatGPT 和 Bard 等软件存在幻觉（虚构事实）问题的看法。

Kalb 暗示这对生成式 AI 的人类用户而言更像是一种“心理现象”，而不是软件本身的问题。

“对于许多种提示，它似乎真的理解了提示并制定了答案，然后将其用语言表达出来，”他说，关于 ChatGPT 和类似软件。“令人印象深刻。我们认为它具有理解和真正的智能。它实际上是在做什么呢？它基本上是一个超级复杂的马尔科夫模型，它说，嘿，根据之前说的单词、之前的提示以及之前的整个互联网概率分布，下一个单词是什么？”

他认为幻觉在某种程度上是 AI 软件所“强制”产生的，有时是因为人类提示不够好。

“幻觉似乎是，等等，你在逻辑中间疯了！但实际上，它只是算法的一种产物[…]它有一个可能出现的所有单词的分布，然后用一些统计随机性选择一个。当它到达一个点时，它很不幸，可以说是随便选了一下。”

数据智能如何适应 AI 景观

那么什么是“数据智能”呢？Kalb 开始回答时指出，无论是 AI 还是常见的企业缩略语 BI（业务智能），都是“垃圾进垃圾出”。

“因此，数据智能是 AI 和 BI 之前的这一层，它确保您可以找到、理解和信任正确的数据，以将其放入您的 AI 和 BI 中。”

在这种情况下，他说，将 ChatGPT 等从公共互联网带入企业非常危险。他认为在用于企业的 AI 系统之前，数据需要更加智能。

此外，他认为企业不需要 ChatGPT 和类似系统的“互联网规模”。这就是 Alation 的“数据目录”发挥作用的地方，因为它将“机器学习与人类策展”相结合，以“特定映射”形式将数据“精简”。

他说，每个组织都有自己的术语，这可能是行业术语，也可能是非常特定于该公司的事情。

“所以这就是数据智能和数据目录的作用，”Kalb 解释道。“它有助于映射组织中人们使用语言的最后一公里，以及数据库中存储数据的方式。”

Alation 的软件自动化了将组织的数据放入这些“数据目录”的过程，然后可以选择将其馈送到生成式 AI 系统中（如果公司希望这样做）。

Kalb 解释说，数据智能是“任务的第零步——无论是预处理、ML 训练，还是只是制作电子表格并分析股东会议。”

欢迎来到下一波大数据浪潮

到目前为止，我已经与像 Cohere 和 Vectara 这样的生成式 AI 公司谈过他们对企业 IT 愿景的看法。两者都提到了员工能够与基于大型语言模型训练的 AI 进行对话的用例——从本质上讲，这就是 IT 传统上所称的“知识管理”，但现在呈现为聊天机器人形式。

Kalb 提出了一个很好的观点：很大程度上取决于生成式 AI 所接受的数据的质量。他认为，数据智能是 ChatGPT 和“拥有企业门户，您可以用英语提问并获得有关您业务的准确、可信赖的答案”的梦想之间的“缺失环节”。

因此，就像云计算引入了一系列有用的“大数据”公司一样，似乎明确的是，生成式 AI 将成为下一波数据智能解决方案的催化剂。正如我今年在与 AI 相关的许多文章中所说的那样，敬请关注！

从 Siri 到 ChatGPT：大数据公司如何迎接 AI 新浪潮

ChatGPT 在 2000 年代与 Siri 的不同之处

为什么 AI 会有幻觉？

数据智能如何适应 AI 景观

欢迎来到下一波大数据浪潮

相关文章

发布评论取消回复

大树

社区版oceanbase安装

oracle 查询改写

ORA-00600 internal error code, arguments [25026]

从 Siri 到 ChatGPT：大数据公司如何迎接 AI 新浪潮

ChatGPT 在 2000 年代与 Siri 的不同之处

为什么 AI 会有幻觉？

数据智能如何适应 AI 景观

欢迎来到下一波大数据浪潮

相关文章

发布评论 取消回复

大树

社区版oceanbase安装

oracle 查询改写

ORA-00600 internal error code, arguments [25026]

发布评论取消回复