
CLaMP 3是由清华大学人工智能学院朱文武教授团队推出的一个多模态、多语言的音乐信息检索框架。它基于对比学习技术,将乐谱(如ABC符号)、音频(如MERT特征)和表演信号(如MIDI文本格式)与多种语言的文本描述对齐到一个共享的表示空间中。CLaMP 3 支持27种语言,并能泛化到100种语言,适用于跨模态检索任务,如文本到音乐、图像到音乐检索,零样本音乐分类和音乐语义相似性评估。

CLaMP 3功能特点:
1、跨模态音乐检索:
– 文本到音乐检索:根据文本描述(支持100种语言)检索与之语义匹配的音乐。
– 图像到音乐检索:通过图像生成的描述(如BLIP模型生成的caption)检索与之匹配的音乐。
– 跨模态音乐检索:在不同音乐表示形式(如乐谱、MIDI、音频)之间进行检索。
2、零样本音乐分类:
– 基于语义相似性将音乐分类到特定类别(如风格、情绪等),无需标注数据。
3、音乐推荐:
– 基于语义相似性进行音乐推荐,支持同一模态内的推荐(如音频到音频)。
4、多模态数据对齐:
– 将不同模态的音乐数据(如乐谱、MIDI、音频)和多语言文本统一到一个共享的语义空间。
5、多语言支持:
– 基于XLM-R实现多语言文本嵌入,支持27种语言的训练,并泛化到100种语言。
6、大规模数据集训练:
– 在大规模数据集(如M4-RAG)上进行训练,包含231万对高质量的音乐-文本对,覆盖27种语言和194个国家。
CLaMP 3相关网址:
1、CLaMP3项目官网:https://sanderwood.github.io/clamp3/
2、GitHub仓库:https://github.com/sanderwood/clamp3
3、HuggingFace模型库:https://huggingface.co/sander-wood/clamp3
4、arXiv技术论文:https://arxiv.org/pdf/2502.10362
5、在线体验Demo:https://huggingface.co/spaces/sander-wood/clamp3
DreamID-Omni虚拟数字人模型,清华 × 字节跳动统一可控以人为中心音视频生成框架
Ctrl-World模型使用入口,厘米级轨迹精度、0.986的策略评估一致性及0.93的深度准确性
AgentCPM-Report:清华大学等联合研发的本地化深度调研智能体
上面是“一款由清华大学团队开发的音乐信息检索框架——CLaMP 3”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。
当前网址:https://m.ipkd.cn/webs_17389.html
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

Pic Answer:可以拍照解题,支持数学、科学、历史等多个学科
FluentRead(流畅阅读)
手游《王者荣耀》中的西施最强出装推荐(2024年最新版)
发文鸭官网:一款专注于多平台文章自动排版的创作工具
MedGemma 1.5:谷歌开源多模态医学AI模型,赋能临床实践与医学研究
Giphy官网:一个专注于提供高质量的GIF动图资源,被誉为“表情包界的谷歌”