vLLM推理速度最快

分类

适应场景

批处理需最大传输速度,与OpenAI API兼容,推理速度最快

 

缺点

缺乏LoRA、QLoRA适配器支持,缺乏权重量化,支持模型有限

 

https://github.com/vllm-project/vllm