Magma:一款出自微软开源的多模态AI基础模型

86 ℃

微软在2025年2月24日凌晨3点正式在官网开源了Magma模型。Magma是一个多模态AI代理基础模型,旨在实现跨数字和物理世界的多模态能力。它能够处理图像、视频、文本等多种类型的数据,并在多个领域中展现出强大的应用潜力。

Magma:一款出自微软开源的多模态AI基础模型

Magma模型功能特点:

1、多模态能力

– Magma能够同时处理图像、视频、文本等不同类型的数据,具备跨数字和物理世界的多模态能力。

– 它结合了视觉和语言处理能力,可以理解屏幕上的内容并直接操控软件和物理机器人。

2、任务执行能力

– Magma能够根据描述性目标制定计划并执行任务。例如,它可以自动下电商订单、查询天气,或者操作实体机器人。

– 它内置了心理预测功能,能够增强对未来视频帧中时空动态的理解能力,准确推测视频中人物或物体的意图和未来行为。

3、技术架构

– 基于Transformer架构,Magma利用大规模数据训练,能够更好地理解自然语言指令和视觉信息。

– 核心技术包括Set-of-Mark(用于识别操作对象)和Trace-of-Mark(用于学习物体移动模式),使其能够在动态环境中执行复杂任务。

4、应用场景

– Magma在UI操作方面表现出色,能够识别屏幕上的元素并执行复杂的操作。

– 它在VQAV2视觉问答基准测试中取得了80.00分,超越了众多竞品,展示了其在视觉理解和自然语言处理方面的强大能力。

5、训练数据

– Magma通过一个包含3,900万个样本的多样化数据集进行训练,包括图像、视频和机器人动作轨迹。

6、开源与社区支持

– 微软在GitHub上发布了Magma的训练代码和推理代码,鼓励外部研究人员推动行业进步。

– 目前,Magma社区已有超过5000名活跃成员,覆盖全球100多个国家或地区和地区,形成了一个庞大而紧密的技术交流平台。

进入微软开源Magma官网入口

一款可以将手绘草图秒变HTML代码的微软AI编程工具——Sketch2Code

Memobase:为AI应用打造的用户画像记忆系统,让智能交互更有温度

Muse架构:一款由微软发布创新大模型,只需一张图片就能生成游戏

标签: AI代理, 微软AI

上面是“Magma:一款出自微软开源的多模态AI基础模型”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。

当前网址:https://m.ipkd.cn/webs_18089.html

声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!

对接浙江政务服务网(浙里办)需要注意什么
wordpress如何屏蔽/移除内联样式
帝国CMS 6.5支持一键设置关闭前台所有动态页面功
一款由Iconscout推出的高质量、一致性的SVG和Web字体图标库—— Unicons
百度echarts图表样式设置介绍