TensorRT LLM是NVIDIA推出的大型语言模型(LLM)推理性能优化框架,专为NVIDIA GPU量身打造,基于PyTorch架构构建,提供简洁易用的Python API,可无缝适配从单GPU轻量部署到大规模分布式集群推理的全场景需求。
OmniVinci是NVIDIA推出的新一代全模态大语言模型,专注于视觉、听觉、语言与推理的跨模态协同任务。该模型依托独创的`OmniAlignNet`跨模态语义对齐技术、`Temporal Embedding Grouping`时序同步机制与`Constrained Rotary Time Embedding`时间感知优化方案