TensorRT LLM:专为NVIDIA GPU量身打造的推理性能优化框架

TensorRT LLM是NVIDIA推出的大型语言模型(LLM)推理性能优化框架,专为NVIDIA GPU量身打造,基于PyTorch架构构建,提供简洁易用的Python API,可无缝适配从单GPU轻量部署到大规模分布式集群推理的全场景需求。

AI推理架构nvidiaNVIDIA开源
Gemini 3:谷歌推出的新一代旗舰级多模态AI模型与推理AI模型

用户可通过Google AI Studio、Vertex AI、Gemini CLI及全新智能体开发平台Google Antigravity调用Gemini 3;同时模型已打通Cursor、GitHub、JetBrains等第三方平台,为开发者提供灵活丰富的开发选择。

AI推理架构多模态AI模型谷歌开源
Claude 3.7 Sonnet:一款出自Anthropic的AI推理与编程能力的全新突破

Claude 3.7 Sonnet 通过其混合推理能力和强大的编程工具,为 AI 领域带来了新的突破。它不仅在推理和编程方面表现出色,还提供了灵活的思考预算控制和经济高效的使用方案。

AI推理架构Anthropic
FlashMLA:DeepSeek专为Hopper GPU优化的高效解码内核,助力AI推理性能飞跃

FlashMLA 是一款专为高性能 AI 推理任务设计的优化工具,通过针对 H800 GPU 的深度优化,显著提升了大语言模型的解码效率和性能。它不仅支持 BF16 精度和分页 KV 缓存,还通过动态调度和内存优化,进一步提升了 GPU 的利用率。

AI推理架构DeepSeek
OctoTools:斯坦福大学研发的无需训练的高效工具框架,助力复杂任务推理与执行

OctoTools 通过其创新的工具卡系统、多级规划和执行机制,显著提升了复杂任务的推理效率和准确率。它无需额外训练,易于扩展,适用于多种领域,是解决复杂推理任务的强大工具。

AI推理架构AI框架斯坦福大学
腾讯混元T1

一款由腾讯推出的深度思考推理模型,具备强大的分析和推理能力,能够清晰、有依据地回答复杂问题。该模型已于2025年2月全面开放,用户可以无限量免费使用。

AI推理架构腾讯AI
Athena:世界上首个具有先进认知架构和类人推理能力的自主通用人工智能

Athena AI是一款创新的人工智能平台,旨在通过强大的 AI 技术增强学习、生产力和决策效率。它结合了自然语言处理、计算机视觉和机器学习等技术,支持多种应用场景,包括教育、商业、网络安全、军事和个人发展。

AI推理架构DeepSeek