vLLM LLM 推理和服务库

2023年 11月 3日 67.0k 0

vLLM 是一个快速且易于使用的 LLM 推理和服务库。

vLLM 的速度很快:

  • 最先进的服务吞吐量
  • 使用 PagedAttention 高效管理 attention key 和 value memory
  • 连续批处理传入请求
  • 优化的 CUDA 内核

vLLM 灵活且易于使用:

  • 与流行的 Hugging Face 模型无缝集成
  • 高吞吐量服务与各种解码算法,包括并行采样、波束搜索等
  • 对分布式推理的张量并行支持
  • 流输出
  • 兼容 OpenAI 的 API 服务器

vLLM 无缝支持许多 Hugging Face 模型,包括以下架构:

  • Aquila & Aquila2 (BAAI/AquilaChat2-7BBAAI/AquilaChat2-34BBAAI/Aquila-7BBAAI/AquilaChat-7B, etc.)
  • Baichuan (baichuan-inc/Baichuan-7Bbaichuan-inc/Baichuan-13B-Chat, etc.)
  • BLOOM (bigscience/bloombigscience/bloomz, etc.)
  • Falcon (tiiuae/falcon-7btiiuae/falcon-40btiiuae/falcon-rw-7b, etc.)
  • GPT-2 (gpt2gpt2-xl, etc.)
  • GPT BigCode (bigcode/starcoderbigcode/gpt_bigcode-santacoder, etc.)
  • GPT-J (EleutherAI/gpt-j-6bnomic-ai/gpt4all-j, etc.)
  • GPT-NeoX (EleutherAI/gpt-neox-20bdatabricks/dolly-v2-12bstabilityai/stablelm-tuned-alpha-7b, etc.)
  • InternLM (internlm/internlm-7binternlm/internlm-chat-7b, etc.)
  • LLaMA & LLaMA-2 (meta-llama/Llama-2-70b-hflmsys/vicuna-13b-v1.3young-geng/koalaopenlm-research/open_llama_13b, etc.)
  • Mistral (mistralai/Mistral-7B-v0.1mistralai/Mistral-7B-Instruct-v0.1, etc.)
  • MPT (mosaicml/mpt-7bmosaicml/mpt-30b, etc.)
  • OPT (facebook/opt-66bfacebook/opt-iml-max-30b, etc.)
  • Qwen (Qwen/Qwen-7BQwen/Qwen-7B-Chat, etc.)

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论