首页
热点
系统
数据
应用
网络
云运维
开发
linux中国
更多
自动化
安全
桌面
教程
Linux命令查询
话题
热点
系统
数据
应用
网络
云运维
开发
自动化
linux中国
注册登录
更多
安全
桌面
教程
linux命令查询
serving
LLM Serving有效吞吐量的最大化实现
如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码补全则需要快速的端到端生成时间,以实…
运维资讯
2024年 5月 31日
75.9k
llm
serving
吞吐量