分类 模型评估 适应场景批处理需最大传输速度,与OpenAI API兼容,推理速度最快 缺点缺乏LoRA、QLoRA适配器支持,缺乏权重量化,支持模型有限 https://github.com/vllm-project/vllm