OCI的Generative AI Service

2024年 6月 14日 67.9k 0

OCI(Oracle Cloud Infrastructure)提供的Generative AI Service是完全管理的服务,提供一组可定制的LLM、用户可以通过一个API构建生成式AI应用程序。用户可以选择来自Meta和Cohere的预训练基础模型,通过微调等方式创建自己的数据集,并将其托管在专用的GPU AI集群。Generative AI Service用于大规模地理解、生成和处理人类语言。例如,生成文本、摘要、数据提取、分类、对话等等。

OCI的Generative AI Service-1

图片来自Oracle官网

预训练的模型分为三类,文本生成、文本摘要,及嵌入。

  • 文本生成类的模型包含cohere的command、command-light和llama 2-70b-chat,用于生成文本和指令跟随。

    • command:高性能、指令跟随的会话模型。模型的参数为52B,上下文窗口(模型处理文本时能够考虑的前文的范围)为4096标记(token,模型可以理解和生成的最小意义单位)

    • command-light:command的小型、快速版本。模型的参数为6B,上下文窗口为4096标记(token)。

    • llama 2-70b-chat:高性能的开源模型,针对会话方式进行优化。模型参数为70B,上下文窗口为4096标记(token)。

      生成模型的参数包括:

      • Maximum Output token:模型对于每个应答生成的最大标记(token)数量。

      • Temperature:决定模型具有多大的创造性。数值越小越具有确定性和准确性,数值越大越具有创造性。

      • Top p、Top k:两种选择词汇的分布方法,排名前p/排名和为k。

      • Presence/Frequency Penalty:当一个标记(token)频繁出现并且产生较少重复的文本时,分配一个惩罚。

      • Show Likelihoods:确定标记(token)跟随当前生成的标记(token)的可能性有多大。

  • 文本摘要类模型包括cohere的command,用于将文本汇总为用户指定的格式、长度,及语气。

    • 生成原始文本的简洁版本,传达最重要的信息。

    • 与预训练的文本生成模型相同,但是用户可以为文本摘要指定的参数。

      摘要类模型参数包括:

      • Temperature:决定模型具有多大的创造性。默认值为1,最大值为5。

      • Length:摘要的近似长度,参数值包括,Short, Medium,Long。

      • Format:摘要显示为自由段落与序号列表格式。

      • Extractiveness:输入的重用程度。值越高越倾向于逐字重复使用句子。

  • 嵌入模型包含cohere的embed-english-v3.0, embed-multilingual-v3.0, embed-english-light-v3.0, embed-multilingual-light-v3.0,及embed-english-light-v2.0,用于将文本转换为向量嵌入,进行语义检索。

    • embed-english-v3.0:将英语文本转换为向量嵌入。模型为每个嵌入创建1024维度向量,最大512标记。

    • embed-english-light-v3.0:小型快速的英语文本转换向量嵌入。模型为每个嵌入创建384维度向量,最大512标记。

    • embed-multilingual-v3.0:将100多种语言转换为向量嵌入。模型为每个嵌入创建1024维度向量,最大512标记。

微调与推理

微调功能用于对预训练的基础模型在指定的数据集上进行优化,以改善模型在特定任务上的性能和效率。当预训练的基础模型无法按预期执行任务时可以通过微调进行优化。OCI Generative AI Service使用T-Few fine tuning进行快速高效的定制。T-Few是一种高效的参数微调技术,是附加的Few-Shot Parameter-Efficient Fine-Tuning,仅更新模型的一部分权重(参数)可以以更低的成本获得更准确的结果。它在模型中添加额外的层,占基线模型大小的0.01%,在微调的过程中仅更新该层的权重(参数)。与更新全部的权重相比,将权重更新隔离到T-Few层显著减少了训练时间和成本。

OCI的Generative AI Service-2

T-Few Fine-tuning过程

在机器学习中,推理是指使用经过训练的ML模型根据新的输入数据做出预测或决策的过程。在语言模型中,推理是指模型接收新的文本作为输入,基于训练和微调所学习的内容生成文本。

OCI的Generative AI Service-3

OCI Generative AI Service的微调工作流程

OCI的Generative AI Service-4

OCI Generative AI Service的推理工作流程

专用AI集群

专用AI集群是基于GPU的计算资源,用于托管用户的微调和推理的工作负载。OCI Generative AI Service建立一个专用AI集群,包括专用的GPU和专用的RDMA集群网络用以连接这些GPU。GPU被分配用户的生成式AI服务后将与其他的GPU隔离。集群的类型分为微调和托管。

微调:用以训练预训练的基础模型。

托管:托管用户定制的推断模型端点。

OCI的Generative AI Service-5

降低推理成本

推理的计算成本非常昂贵,每次发送请求时,都会收到回复,这会产生相关的成本。每个AI托管集群可以托管一个基础模型端点和高达50个经过微调的定制化端点。它们可以同时处理请求。这些模型共享同一GPU资源,可以将其理解为多租户,从而减少推理的相关成本。定制化的端点可以停用,之后可以再度开启。GPU由于其超强的并行处理能力,特别适合深度学习任务,但GPU的内存是有限的,当用户在模型之间切换时,由于需要重新加载完整的GPU内存才能开始处理数据,会带来巨大的开销,开销包括将模型从系统内存传输到GPU内存所需的时间和计算资源,以及准备使用新模型处理GPU所需的初始化设置任务。

在OCI Generative AI Service中,由于使用了T-Few技术,这些模型共享大部分的权重,它们之间只有轻微的变化,因此,它他们可以在专用的AI集群中相同的GPU上部署,模型中的公用部分仅需加载到内存中一次,当发生模型切换时,产生的开销非常小。

以上内容是关于OCI Generative AI Service的简介,感谢关注“MySQL解决方案工程师”!

相关文章

Oracle如何使用授予和撤销权限的语法和示例
Awesome Project: 探索 MatrixOrigin 云原生分布式数据库
下载丨66页PDF,云和恩墨技术通讯(2024年7月刊)
社区版oceanbase安装
Oracle 导出CSV工具-sqluldr2
ETL数据集成丨快速将MySQL数据迁移至Doris数据库

发布评论