Llumnix:针对大型语言模型(LLM)多实例服务的高效且易于使用的请求调度层,它支持动态调度、内存碎片化减少、加载均衡优化,并且易于与现有的多实例部署平台集成

  • 爱可可-爱生活
  • 2024-10-11 15:52:16
【Llumnix:针对大型语言模型(LLM)多实例服务的高效且易于使用的请求调度层,它支持动态调度、内存碎片化减少、加载均衡优化,并且易于与现有的多实例部署平台集成】'Efficient and easy multi-instance LLM serving' GitHub: github.com/AlibabaPAI/llumnix 多实例调度 大型语言模型 负载均衡 内存优化
Llumnix:针对大型语言模型(LLM)多实例服务的高效且易于使用的请求调度层,它支持动态调度、内存碎片化减少、加载均衡优化,并且易于与现有的多实例部署平台集成