微软在2025年2月24日凌晨3点正式在官网开源了Magma模型。Magma是一个多模态AI代理基础模型,旨在实现跨数字和物理世界的多模态能力。它能够处理图像、视频、文本等多种类型的数据,并在多个领域中展现出强大的应用潜力。
Magma模型功能特点:
1、多模态能力:
– Magma能够同时处理图像、视频、文本等不同类型的数据,具备跨数字和物理世界的多模态能力。
– 它结合了视觉和语言处理能力,可以理解屏幕上的内容并直接操控软件和物理机器人。
2、任务执行能力:
– Magma能够根据描述性目标制定计划并执行任务。例如,它可以自动下电商订单、查询天气,或者操作实体机器人。
– 它内置了心理预测功能,能够增强对未来视频帧中时空动态的理解能力,准确推测视频中人物或物体的意图和未来行为。
3、技术架构:
– 基于Transformer架构,Magma利用大规模数据训练,能够更好地理解自然语言指令和视觉信息。
– 核心技术包括Set-of-Mark(用于识别操作对象)和Trace-of-Mark(用于学习物体移动模式),使其能够在动态环境中执行复杂任务。
4、应用场景:
– Magma在UI操作方面表现出色,能够识别屏幕上的元素并执行复杂的操作。
– 它在VQAV2视觉问答基准测试中取得了80.00分,超越了众多竞品,展示了其在视觉理解和自然语言处理方面的强大能力。
5、训练数据:
– Magma通过一个包含3,900万个样本的多样化数据集进行训练,包括图像、视频和机器人动作轨迹。
6、开源与社区支持:
– 微软在GitHub上发布了Magma的训练代码和推理代码,鼓励外部研究人员推动行业进步。
– 目前,Magma社区已有超过5000名活跃成员,覆盖全球100多个国家或地区和地区,形成了一个庞大而紧密的技术交流平台。
一款可以将手绘草图秒变HTML代码的微软AI编程工具——Sketch2Code
Memobase:为AI应用打造的用户画像记忆系统,让智能交互更有温度
Muse架构:一款由微软发布创新大模型,只需一张图片就能生成游戏
上面是“Magma:一款出自微软开源的多模态AI基础模型”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。
当前网址:https://m.ipkd.cn/webs_18089.html
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!