Triton:推理服务器为服务器启动时指定的一个或多个模型存储库中的模型提供服务。

Triton 推理服务器为服务器启动时指定的一个或多个模型存储库中的模型提供服务。 当 Triton 运行时,可以按照模型管理中的描述修改所服务的模型。

https://github.com/openai/triton