OpenLLM

适应场景

需适配器连接核心模型并使用HuggingFace Agents,支持bitsandbytes、GPTQ 量化及LangChain 集成

缺点

缺乏批处理和分布式推理支持

URL
https://github.com/bentoml/OpenLLM