serving-每日运维

首页
热点
系统
数据
开发
应用
云运维
自动化
linux中国
更多
- 桌面
- 网络
- 安全
- 教程
- Linux命令查询

当前标签 serving

LLM Serving有效吞吐量的最大化实现

如今的LLM应用具有多样化的时延要求。例如，聊天机器人可能需要快速的初始响应（例如，少于0.2秒），但在解码速度上只需要匹配人类阅读速度，而代码补全则需要快速的端到端生成时间，以实现实时代码建议。本文说明了优化吞吐量（throughput）的现有serving系统，在时延标准下并不是最优选择。作者主张使用有效吞吐量（goodput），即符合服务等级目标（SLO）的每秒完成请求数量，作为衡量LLM

运维资讯 2024-05-31 剑圣无痕

LLM Serving有效吞吐量的最大化实现

站点声明：本站部分内容转载自网络，作品版权归原作者及来源网站所有，任何内容转载、商业用途等均须联系原作者并注明来源。

相关侵权、举报、投诉及建议等，请发邮件至E-mail：service@mryunwei.com

Copyright 每日运维浙ICP备2022017665号-3 基于WordPress | 由七牛云提供 CDN 加速

回到顶部