TensorRT LLM是NVIDIA推出的大型语言模型(LLM)推理性能优化框架,专为NVIDIA GPU量身打造,基于PyTorch架构构建,提供简洁易用的Python API,可无缝适配从单GPU轻量部署到大规模分布式集群推理的全场景需求。