Magma:微软推出的多模态AI代理基础模型,可实现多场景代理
作者:啊哈哈哈 来源:08论坛 时间:2025-04-16 17:06:48
Magma是什么?
Magma 是微软推出的一款多模态 ai 代理基础模型,能够处理虚拟和现实环境中的复杂交互,实现图像字幕和问答、视频字幕和问答、UI导航、机器人操作等多种任务。
Magma功能特点
多模态能力:支持图像字幕和问答、视频字幕和问答、UI 导航、机器人操作等任务。
数字与物理世界的交互:能够处理虚拟和现实环境中的任务。
多功能性:单一模型具备通用的图像和视频理解能力,同时能生成目标驱动的视觉计划和动作。
先进性能:在多模态任务上表现出色,特别是在空间理解和推理方面。
可扩展的预训练策略:能够从未标记的视频中学习,具有很强的泛化能力。
Magma的技术原理
多模态预训练:结合图像、视频和动作数据,通过统一框架进行大规模预训练,学习跨模态的连接。
Set-of-Mark (SoM):标记图像中的可操作对象,帮助模型实现动作落地。
Trace-of-Mark (ToM):标记视频中物体的运动轨迹,增强时间动态理解能力。
视觉与语言结合:使用卷积网络将视觉信息编码为标记序列,与语言模型结合,生成动作或语言描述。
泛化与微调:预训练后的模型具备零样本泛化能力,可通过微调进一步提升性能。
跨任务适应:适用于多种任务(如UI导航、机器人操作、图像和视频理解),展现出强大的泛化能力。
安装与使用
克隆项目:
gitclonehttps://github.com/microsoft/Magma.gitcdMagma安装依赖:
condacreate-nmagmapython=3.10-ycondaactivatemagmapipinstall--upgradepippipinstall-e.推理例子
fromPILimportImageimporttorchfromtransformersimportAutoModelForCausalLM,AutoProcessormodel=AutoModelForCausalLM.from_pretrained("microsoft/Magma-8B",trust_remote_code=True)processor=AutoProcessor.from_pretrained("microsoft/Magma-8B",trust_remote_code=True)model.to("cuda")image=Image.open("example.jpg").convert("RGB")convs=[{"role":"system","content":"Youareanagentthatcansee,talkandact."},{"role":"user","content":" Whatisintheimage?"}]prompt=processor.tokenizer.apply_chat_template(convs,tokenize=False,add_generation_prompt=True)inputs=processor(images=[image],texts=prompt,return_tensors="pt").to("cuda")withtorch.inference_mode():generate_ids=model.generate(**inputs)response=processor.decode(generate_ids[0],skip_special_tokens=True).strip()print(response)Magma的应用领域
智能监控与安防:实时分析视频流,预测行为,提升安全监控能力。
自动驾驶:处理多模态数据,辅助自动驾驶系统。
机器人操作:指导机器人完成复杂任务,适应不同硬件。
UI导航与交互:高效完成网页或设备界面的多步骤操作。
教育与个性化学习:分析学生表现,提供定制化教学方案。
医疗诊断:结合影像和病历,辅助医生制定诊疗方案。
内容创作:结合图像生成和文本创作,提供创意灵感。
智能助手:为虚拟助手提供任务导航,指导复杂操作。
视频分析与预测:描述视频内容,预测下一步动作。
智能家居与自动化:帮助家庭机器人学习新任务,提升自动化水平。
Magma GitHub 仓库:https://github.com/microsoft/Magma
Magma项目官网:https://microsoft.github.io/Magma/
MagmaArxiv论文:https://www.arxiv.org/pdf/2502.13130
更多资讯
热门文章
推荐对话
换一换- 人气排行
- 1 Magma:微软推出的多模态AI代理基础模型,可实现多场景代理
- 2 OpenAI发布 Responses API 和 Agents SDK,增强智能体的开发流程
- 3 AkashChat:基于去中心化云计算平台 Akash Network的AI聊天工具
- 4 给大模型持久记忆!GitHub 2万星向量数据库云服务升级,国内云产品7月上线
- 5 OpenManus-RL:一个提升LLM智能体的推理与决策能力开源项目
- 6 DeepSeek R2或在3月17日发布,更好的编码、多语言推理、更低成本
- 7 老黄现场演示与游戏NPC聊天!大模型开口建议玩家去找犯罪头目,网友:西部世界成真
- 8 DeepSeek R2、Kimi K1.5、DeepSeek V3、DeepSeek R1与ChatGPT的比较分析
- 9 LanPaint:适用于Stable Diffusion模型的无需额外训练的高质量图像修复工具
- 10 美图大模型发布!一口气上新7款产品,股价暴涨21.28%