CTranslate2

适应场景

利用CPU高速推理,具备并行和异步执行,缓存提示,模型精度损失最小且轻量级

缺点

缺乏LoRA、QLoRA适配器支持,未内置REST服务

URL

https://github.com/OpenNMT/CTranslate2