Fish Audio的核心产品是Fish Speech,这是一个开源的文本转语音模型,基于VQ-GAN、Llama和VITS等前沿AI技术开发。该平台由一群开源SVC/TTS项目的开创者组成,其项目在GitHub上获得了超过70,000星标的认可。
MVSEP是一款基于人工智能技术的音频分离工具,其主要功能是将音频文件中的音乐和人声部分进行分离。该工具使用先进的算法,能够有效地将音频中的语音和音乐部分隔离出来,并且可以提取出音频中的文本信息。
Scribe 是由 ElevenLabs 开发的最新语音转文本模型,以其卓越的转录准确率(英语高达96.7%,意大利语高达98.7%)和强大的多语言支持脱颖而出。它能够识别多达32位不同说话者,并检测非语言事件,如笑声和背景噪音。