TangoFlux是由新加坡科技设计大学与 NVIDIA 联合研发的先进文本到音频生成模型。模型搭载约5.15亿参数,具备高效生成能力——在单张A40 GPU上,仅需3.7秒即可生成一段长达30秒的44.1kHz立体声音频。