Oracle CloudWorld 2023: Greg Pavlik技术主题演讲——生成式人工智能的未来

2023年 9月 29日 20.4k 0

美国拉斯维加斯当地时间2023年9月20日上午9点45分,Oracle云基础架构高级副总裁Greg Pavlik 做了题为《生成式AI的未来:企业应该了解什么》的主题演讲。Greg Pavlik负责Oracle云基础架构的产品战略,服务交付和物理基础架构,他的目标是确保甲骨文拥有市场上功能和性能方面优秀的云平台。

Greg Pavlik的演讲首先通过一个示例演示了目前流行的Generative AI(生成式AI)如何充分利用企业内外部数据,帮助销售成功开始,介绍了生成式AI的发展和场景,并且聚焦在生成式AI如何落地企业,介绍了Oracle在生成式AI方面的战略和产品服务,介绍了Oracle推出的生成式AI测试版,然后与Cohere创始人Aidan Gomez一起畅谈生成式AI的未来和Oracle的优势,最后请高级产品总监Joshua Kanner展示了生成式AI在工程和建筑方面领先的Primavera云中的应用,全程重点关注在生成式AI如何与企业结合,帮助企业快速发挥数据和AI的巨大价值。

本文将从几个方面回顾一下Greg演讲的精彩内容。

1、生成式AI在企业中应用示例

Greg指出生成式AI与第一代机器学习的不同之处在于它能够像人类一样创造内容,例如邮件,代码,视频,写作等。但对于生成式AI有很多错误的概念,其中之一就是大家都关注在消费者领域。我们看到很多消息有关模型能够通过考试,写论文,与哲学家对话,从互联网上帮助获取更多的信息,这些挑战往往不是大多数企业所需要的。大多数企业并没有试图写有关哲学家的学期论文,也很少有企业试图向互联网询问以做出正确的业务决策。企业更关注在模型能否反映各自业务的差异性,能否针对特定组织的数据进行微调或调整,能否提供与业务方面相关的输出,今天这个主题就是讨论生成式AI纳入企业业务的重大意义。

Greg介绍了一个生成式AI帮助销售成功的简单示例。界面展示的是基于生成式AI定制的系统,它可以利用互联网数据,以及企业各种应用的数据,帮助用户解决问题和处理日常工作,提高工作效率、速度和准确性。

Sarah是 FOXBOX 的销售客户主管,她收到消息要向Vision Corp公司展示分析解决方案,她要尽可能收集到足够的信息做好准备,所以她向生成式AI系统寻求帮助。

  • 系统可以理解Sarah的问题并进行搜索和概括总结,不仅列出Vision Corp的企业概况,还指出他们是FOXBOX长期客户。

  • 系统可以基于FOXBOX专有的与Vision Corp有关的销售数据,列出Vision Corp与 Fox 360 产品有关呼叫中心分析用例的多次交互。

  • 生成式AI系统可以理解复杂查询,帮助Sarah从成千上万的需求应答方案和用例中概括信息,告知Sarah呼叫中心解决方案需要特定的4种产品。

  • 可以分析和汇总大型文档,如法律合同或采购合同,在几秒钟内清晰简洁地呈现Vision Corp缺少2种产品的信息。Sarah可以根据这些信息制定向上销售方案以完成客户所需的用例。

在生成式AI系统分钟级的帮助下,Sarah快速整理了针对Vision Corp的呼叫中心特定用例,包括简洁的价格表和概念试验证明,在会议中向Vision Corp管理层展示,获得了更深入的讨论机会。生成式AI系统帮助Sarah了解Vision Corp首席架构师Gavin的更多信息,并且帮助Sarah基于她的日历,Gavin的时区等自动建议了三个可能的时间段,生成了会议邀请邮件并且自动发送。这只需要几秒钟,无需Sarah打开邮件甚至敲下一个单词。

这个演示展示了生成式AI的强大力量,更主要的是与企业级典型工作和典型业务结合带来的生产力增长,原来需要半天甚至多天完成的工作,只需要几分钟即可完成。

2、生成式AI基本概念和应用场景

Greg接下来简单介绍了上面演示中使用的生成式AI的工作原理并结合示例介绍了应用场景。

经典机器学习模型通过识别模式,实现预测,分类和解释,生成式AI不仅识别模式,而且更进一步,能够利用学习的知识来创造内容,就像孩子一样,孩子能够识别出狗的图片,甚至能画出一幅新的,这就是生成式AI的工作方式。

现在从业务角度,大家关注和投资的方向是大语言模型。简单来说,大语言模型就像根据前文自动完成句子,通过用人类语言编写战略指示和文本,人们给它提示,模型使用自动完成功能来解决您要求它解决的问题。过去的自动完成模型有限在于缺失上下文,没有足够能力将情景化组合在一起,因为需要模型创建的不仅仅是完成一个单词,而是创建句子、段落和结构。2017年发表了一篇论文《Attention is All You Need》,它是Transformer机器学习架构的开端,是大语言模型获得高速发展的基石。借助Transformer的注意力机制,模型能够跟踪上下文,并且能够实现比以往任何时候都更先进的自动完成技术。事实证明,这是一个非常强大的技术,能够完成复杂的任务。

模型实际上不是直接使用文字,它们使用的数据称为嵌入(Embeddings,对于文字的数字表示)。它被编码在一个多维矢量中。这样我们就可以将单词表示为概念,将模型用于推理它们在概念之间的关系。事实证明嵌入模型越好,生成式AI对自然语言处理的效果就越好。

生成式AI模型能够完成各种工作,包括内容生成,改进编辑,聊天和问题解答,概括汇总,语义搜索,实体抽取,毒性检测,情感分析等,这里列出了一些实际的示例。很多示例都可以在现实的商业环境中使用,用来解决几乎每个大型企业都会遇到的基本问题。

但是有关生成式AI的新闻或正在发生的事情几乎总是关于消费者案例,到目前为止,我们还没有看到有公司专注于确保生成式AI技术为企业级客户构建和针对性调整。因此,Oracle没有局限在利用庞大的互联网公司的原始信息集方面,而是采取一种非常不同的方法,满足企业在现实世界问题的直接情境下成功应用生成式AI的需求。

3、Oracle在生成式AI方面的战略、服务和优势

Oracle致力于将生成式AI直接应用于企业情境中已经超过一年多,专注于转化企业使用生成式AI的业务体验,主要投资在三个方面:

一、在CPU基础架构方面,OCI超级集群通过高速网络将大量GPU组合在一起工作,支持高效地训练大规模的大语言模型。这已经成为行业某种标准,是互联网或者行业中的优选。例如Cohere,MosaicML,Adept,Character.ai,NVIDIA都在OCI之上构建了它们的模型。

二、推出OCI生成式AI服务,支持在企业情境下进行模型的训练和高质量执行。

三、在Oracle应用组合中应用生成式AI技术,包括融合应用、套件、NetSuite 和所有垂直业务部门。SaaS的完整产品组合将嵌入生成式AI,使它立即可用,适用于在这些应用程序中加快客户所做的工作,正如前面示例。

Greg提到本周正式发布了Oracle 生成式AI服务的测试版。服务使用起来非常简单。它有一个图形用户界面,可以在其中剪切和粘贴提示模型的自然语言指令,查看结果的类型和可以执行的工作负载。它还具有允许您将其集成到工作流和应用程序中的API。 

Oracle生成式AI的优势在于: 

一、专注于为企业设计,选择的模型经过在业务数据上的实际训练,以解决特定的业务问题,确保这些模型可以微调,适应数据集和行业或单个企业拥有的问题域。

二、支持针对数据进行裁剪,OCI 生成式 AI 服务允许用户对模型进行微调。用户可以采用一个基础模型,通过简单的 API 使用该服务,并使用企业的数据来制作更适合自身业务的模型,以便企业可以拥有特定业务的自定义模型。

三、Oracle保护企业数据的安全性和隐私性。用户提交数据时会提示数据是用户私有,我们不会查看用户的数据。我们和模型端使用的合作伙伴都不会触及用户的数据。我们还允许用户将模型发布到私有网络端点,以便它们可以完全受保护且完全由企业专用。

四、我们甚至可以提供这些定制模型的专用部署,这样企业就可以拥有单个租户和专有AI集群,模型不仅对企业来说是专用的,而且支付独立的费用。如果企业希望根据使用量付费,可以基于处理的单词或令牌数,服务没有任何隐藏的费用,性能也可预测。我们确保这对于企业来说真正是一个可靠、安全的技术。

Oracle在启动服务方面采取的战略之一是与Cohere公司建立了非常密切的伙伴关系,因为Cohere一直是大型语言模型的领先提供商之一,是生成式AI领域的许多核心技术的主要创作者,从一开始,他们的公司一直在解决业务问题,而不是消费者领域。 

对于Cohere的生成式AI模型我们可以深入了解一下。这是斯坦福大学的HELM(语言模型全面评估)研究报告。它是用于客观评估大型语言模型的性能的一种标准。Cohere始终在排名顶部,无论是基础模型还是Command模型(后者是接受用户个性化命令训练的文本生成模型)。Cohere模型有 520亿个参数,算是这些模型中的小模型,但小模型在三个基本特征上有独特优势:

1、效率,它们能够比大型模型更快地处理数据并让您更快地获得答案。 

2、适应性,当您进行微调时,将自己的数据集添加到模型训练中,小型模型受数据影响较大,因此更适合应用于特定行业和垂直行业,应用于您的业务。我们使它们更易于定制,作为服务的一部分以及我们提供的API的一部分。 

3、成本,较小的模型可以低成本运行,它们需要更少的GPU来完成训练和推理。 

因此,Oracle和Cohere是一种伟大的合作伙伴关系,我们合力将生成式AI应用于企业,可以为您的业务提供有效和高效的模型。 

4、与Cohere创始人Aidan畅谈企业生成式AI的不同

演讲过程中,Greg邀请了Cohere CEO和创始人之一,Aidan Gomez,和他一起畅谈Oracle生成式AI。Aidan也是前文提到的有关Transformer的论文《Attention is All You Need》作者之一。

Aidan这部分谈话的主要内容概括如下:

Cohere创建4年,是大规模语言模型开发商,明确专注于企业领域。Cohere构建了两种不同类型的模型。第一种类型是人们在使用聊天机器人时熟悉的生成式模型,第二种类型是企业可以引入的嵌入模型。该模型将文本转换为数字向量,然后企业可以将其提供给下游系统以执行搜索或内容分类等操作。

Cohere非常高兴能够与 Oracle 合作在 OCI 上构建生成式AI服务,首先Oracle 构建了业界领先的超级计算机,这是Cohere构建非常高质量模型的能力中的一部分。其次是进入市场,以一种完全值得信赖的方式将这些模型提供给企业。数据隐私对企业至关重要。以前某些公司使用生成式AI时出现过数据泄漏问题。现在双方合作,完全私密地在客户的租户环境中部署,Cohere都看不到数据,真正是企业自己的知识产权和环境。

Aidan特别提到了检索增强生成(retrieval-augmented generation,以下简称RAG)对于生成式AI和企业的重要性。它最初是由Patrick Lewis在Meta和团队发表,现在Patrick任职于Cohere,领导相关工作。生成式AI局限性之一就是幻觉(hallucination),它会混淆资料,损害信任,降低可靠性。RAG是解决这一问题的有效方法。它可以通过允许大型语言模型 (LLM) 在无需重新训练的情况下利用额外的数据资源来提高生成式AI的质量。RAG可以让生成式AI查询数据库或知识来源,获得检索的文档,然后用作响应的一部分。这样的好处是:1、模型展示知识来源,用户得到回应时会获得一些引文,说明它为什么会这样回答,用户可以单击引文验证模型的回答,提升了可信度和可靠性。2、RAG 模型支持生成式AI不仅基于互联网公开数据,而且可以基于企业私有的数据构建知识存储库,例如访问专有信息的系统(例如内部电子邮件和文档),并且存储库可以不断更新,以帮助生成式 AI 提供及时的上下文答案。

(编者注:训练广义LLM的过程既耗时又昂贵,但RAG模型可以动态更新。新数据可以加载到嵌入式语言模型中,并以连续、增量的方式转换为向量。通过使用向量数据库,生成式人工智能可以提供其答案中引用的特定数据源,针对生成人工智能不准确的快速识别和纠正信息,也可以输入矢量数据库,确保其回答的准确性和及时性,简而言之,RAG 为生成人工智能提供了基于证据的及时性、上下文和准确性,具体可参照https://www.oracle.com/artificial-intelligence/generative-ai/retrieval-augmented-generation-rag/)

Adian认为未来生成式AI类似知识助手,将来企业能够将许多研究过程外包给可以阅读文档、理解文档、提取文档、即时总结文档的模型,将几个月的研究转化为毫秒内即可查询的内容。企业中的知识工作者能够编写查询,模型可以访问该企业的整个内部知识库,也可以通过网络,查询公共领域的最新报告,阅读和提取这些信息来构成答案。麦肯锡和摩根斯坦利正在做类似工作。

Adian还提到今天非常兴奋地宣布了新的嵌入模型,嵌入对搜索至关重要,对RAG技术至关重要。当模型查询数据库时,响应需要返回高质量的结果,因此嵌入影响质量。发布的新的嵌入模型,性能比竞争的异构数据集要高出两倍(后者有噪音数据),嵌入模型正在改变世界,而且非常重要的是可扩展性。嵌入模型支持训练时进行压缩,使用30多倍的压缩,仍然保留 95% 的准确性。很高兴看到OCI生成式AI服务面向企业推出,非常兴奋能把它交到客户手中,并让人们开始使用它。生成式AI模型也会在 Oracle Fusion Cloud 应用程序上部署。

5、生成式AI在工程建筑方面的应用示例

Greg还邀请了Oracle产品战略高级总监Joshua Kanner介绍生成式AI在工程建筑方面的应用。Joshua也是 Oracle Primavera 云产品的工程设计总监,他提到计划是资本项目交付的关键部分。Oracle Primavera 云是资本项目行业计划软件的领先提供商。每个项目的核心都是时间表。它不仅是活动,包括开始时间和结束时间,还有资源,有依赖性,有任务管理,有合规性等等。客户经常需要几小时甚至几天的时间来制定计划以保证工程顺利推进。

Joshua演示了与客户合作构建的,嵌入到 Oracle Primavera 云中的生成式AI助手,如何自动化创建计划。客户向AI助手提交了需求应答方案书(RFPs),这里有构建计划的大量信息,包括开始和结束时间,建筑类型,概要描述,价格和交付方法等,AI助手调用生成式AI服务,自动对文档进行总结,提取关键数据,而不需要客户进行提示。当AI助手发现还需要更多信息时,它会询问用户使用什么建筑材料,获得相关信息后,AI助手自动生成了工程计划表,包括活动、关系和依赖关系(这些关系和依赖关系可以基于客户在Promavera中大量的历史数据来微调模型并构建),也可以后期进行编辑。这一切都通过 API 使用客户数据调用 OCI生成式AI 服务来完成,在充分保证了客户数据的安全性和私密性前提下,将几小时甚至几天的计划制定工作缩短到几分钟,大大提升了效率。 

6、总结

演讲最后,Greg总结到Oracle将生成式AI直接引入Oracle产品套件来解决核心业务问题。我们会持续化在基础设施层面进行投资。我们投资于数据,我们有垂直化数据,我们开放这些模型来处理您的数据。我们也将提供像 OCI 生成式AI服务这样的其他AI 服务,以便您可以直接在您的业务中安全地使用这些模型,并在我们的SaaS 产品组合中激活此技术,从而在整体上获得新的体验和新的效率。对于 Oracle 而言,我们将持续关注企业。我们将为企业提供使用生成式AI的完整解决方案,并将确保您对此技术的私密性和安全性。 

Oracle 生成式AI服务是AI功能和数据管理功能完整组合的一部分。因此您可以将其与数据结合使用。您可以将生成式AI用于语言(Language Service),与其他强大的AI服务一起使用。例如,我们经常看到人们使用OCI 语音AI服务从音频中获取文本,提取录音或某种交互等,然后将这些内容输入到生成式AI中以获取摘要,获取洞察,或者使用它来回答问题。我们的服务组合也设计为可以集成一起使用。您也可以将 Oracle 数据仓库内的数据集,Oracle 数据湖内的数据集作为一个融合的整体使用。因此,如果您对OCI生成式AI测试版有兴趣,可以扫描二维码加入。我们欢迎听到您的反馈。

以上就是Greg的演讲内容,后续我们还会为您带来更多OCW2023精彩资讯,感谢您的关注,谢谢!

编辑:殷海英

相关文章

Oracle如何使用授予和撤销权限的语法和示例
Awesome Project: 探索 MatrixOrigin 云原生分布式数据库
下载丨66页PDF,云和恩墨技术通讯(2024年7月刊)
社区版oceanbase安装
Oracle 导出CSV工具-sqluldr2
ETL数据集成丨快速将MySQL数据迁移至Doris数据库

发布评论