vLLM:加州大学伯克利分校开源的高性能大语言模型推理与部署框架

vLLM是加州大学伯克利分校 Sky Computing Lab 开源的高性能大语言模型(LLM)推理与部署框架,核心目标是为用户提供低延迟、高吞吐量、低成本的大模型服务。

加州大学智能推理框架
SGLang:一款面向大语言模型与多模态模型的开源高性能推理框架

SGLang是一款面向大语言模型与多模态模型的开源高性能推理框架,该框架兼容Llama、Qwen、DeepSeek等主流模型及NVIDIA、AMD GPU、CPU、TPU等多类硬件平台,依托先进的推理优化技术与活跃社区支持,助力大模型高效落地于各类实际应用场景。

智能推理框架
xLLM:京东开源的国产芯片适配型高效智能推理框架

xLLM可广泛适配大语言模型、多模态模型及生成式推荐等多类场景,能够提供高性能、低成本的推理服务,助力智能客服、实时推荐、内容生成等业务高效落地,推动大语言模型在国产芯片生态上的规模化应用。

京东AI智能推理框架