免费GPT
AI大模型平台
ChatGPT
ChatGPT指南
ChatGPT Prompts
ChatGPT API
进阶到大神
书籍
ChatGpt账号
Midjourney
Midjourney指南
进阶教程
prompt词库
提示词工具
AI写作工具
写作工具
写作提示
内容检测
AI绘画工具
绘画生成
背景替换
图片修复
头像生成
图像设计
绘图社区
LOGO生成
AI-3D生成
AI视频工具
视频生成
文字生成视频
图片生成视频
数字人
制作长视频
视频后期
制作广告视频
AI办公工具
AI办公工具
AI自动生成PPT
AI思维导图
AI智能翻译
AI语音合成
AI好玩有趣
AI社区
算力平台
AI音乐制作
AI游戏应用
AI学习平台
AI装修设计
AI常用工具
AI辅助提示
AI辅助编程
AI流量优化
AI竞赛平台
开放平台
AI优质博文
博客
AI交流社群
商务合作
ChatGPT plugins
文章
首页
•
AI行业动态
•
罕见!苹果开源图片编辑神器MGIE,要上iPhone?
罕见!苹果开源图片编辑神器MGIE,要上iPhone?
AI行业动态
10个月前发布
ainavi
6,776
0
800
拍张照片,输入文字指令,手机就开始自动修图?
这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。
把背景中的人移除
在桌子上添加披萨
最近一段时间,AI 在图片编辑这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLLM)可以自然地将图像视为输入,并提供视觉
感知
响应。另一方面,基于指令的编辑技术可以不依赖于详细描述或区域掩码,而是允许人类下达指令,直接表达如何编辑以及编辑图像的哪个方面。这种方法极具实用性,因为这种引导更符合人类的直觉。
基于上述技术的启发,苹果提出了 MGIE(MLLM-Guided Image Editing),将 MLLM 用于解决指令引导不足的问题。
论文标题:Guiding Instruction-based Image Editing via Multimodal Large Language Models
论文链接:https://openreview.net/pdf?id=S1RKWSyZ2Y
项目主页:https://mllm-ie.github.io/
如图 2 所示,MGIE 由 MLLM 和扩散模型组成。MLLM 通过学习获得简明的表达指令,并提供明确的视觉相关引导。通过端到端训练,扩散模型会同步更新,并利用预期目标的潜在想象力执行图像编辑。这样,MGIE 就能从固有的视觉推导中获益,并解决模糊的人类指令,从而实现合理的编辑。
在人类指令的引导下,MGIE 可进行 Photoshop 风格的修改、全局照片优化和局部对象修改。以下图为例,在没有额外语境的情况下,很难捕捉到「健康」的含义,但 MGIE 可以将「蔬菜配料」与披萨精确地联系起来,并按照人类的期望进行相关编辑。
这让我们想起,库克前不久在财报电话会议上表达的「雄心壮志」:「我认为苹果在生成式 AI 方面存在着巨大的机会,但我不想谈更多细节。」他透露的信息包括,苹果正在积极开发生成式 AI 软件功能,且这些功能在 2024 年晚些时候就能向客户提供。
结合苹果在近段时间发布的一系列生成式 AI 理论研究成果,看来我们期待一下苹果接下来要发布的新 AI 功能了。
论文细节
该研究提出的 MGIE 方法能够通过给定的指令 X 将输入图片 V 编辑为目标图片
。对于那些不精确的指令,MGIE 中的 MLLM 会进行学习推导,从而得到简洁的表达指令 ε。为了在语言和视觉模态之间架起桥梁,研究者还在 ε 之后添加了特殊的 token [IMG],并采用编辑头(edit head)
对它们进行转换。转换后的信息将作为 MLLM 中的潜在视觉想象,引导扩散模型
实现预期的编辑目标。然后,MGIE 能够理解具有视觉
感知
的模糊命令,从而进行合理的图像编辑(架构图如上图 2 所示)。
简洁的表达指令
通过特征对齐和指令调整,MLLM 能够跨模态
感知
提供与视觉相关的响应。对于图像编辑,该研究使用提示「what will this image be like if [instruction]」作为图像的语言输入,并导出编辑命令的详细解释。然而,这些解释往往过于冗长、甚至误导了用户意图。为了获得更简洁的描述,该研究应用预训练摘要器让 MLLM 学习生成摘要输出。这一过程可以总结为如下方式:
通过潜在想象进行图片编辑
该研究采用编辑头
将 [IMG] 转化为实际的视觉引导。其中
是一个
序列到序列
模型,它将来自 MLLM 的连续视觉 tokens
映射
到语义上有意义的潜在 U = {u_1, u_2, …, u_L} 并作为编辑引导:
为了实现通过视觉想象 U 引导图像编辑这一过程,该研究考虑使用扩散模型
,该模型在包含变分自动编码器(VAE)的同时,还能解决潜在空间中的去噪扩散问题。
算法 1 展示了 MGIE 学习过程。MLLM 通过指令损失 L_ins 导出简洁指令 ε。借助 [IMG] 的潜在想象,
转变其模态并引导
合成结果图像。编辑损失 L_edit 用于扩散训练。由于大多数
权重
可以被冻结(MLLM 内的
自注意力
块),因而可以实现
参数
高效的端到端训练。
实验评估
对于输入图片,在相同的指令下,不同方法之间的比较,如第一行的指令是「把白天变成黑夜」:
表 1 显示了模型仅在数据集 IPr2Pr 上训练的零样本编辑结果。对于涉及 Photoshop 风格修改的 EVR 和 GIER,编辑结果更接近引导意图(例如,LGIE 在 EVR 上获得了更高的 82.0 CVS)。对于 MA5k 上的全局图片优化,由于相关训练三元组的稀缺,InsPix2Pix 很难处理。LGIE 和 MGIE 可以通过 LLM 的学习提供详细的解释,但 LGIE 仍然局限于其单一的模态。通过访问图像,MGIE 可以得出明确的指令,例如哪些区域应该变亮或哪些对象更加清晰,从而带来显著的性能提升(例如,更高的 66.3 SSIM 和更低的 0.3 拍照距离),在 MagicBrush 上也发现了类似的结果。MGIE 还从精确的视觉想象中获得最佳性能,并修改指定目标作为目标(例如,更高的 82.2 DINO 视觉相似度和更高的 30.4 CTS 全局字幕对齐)。
为了研究针对特定目的的基于指令的图像编辑,表 2 对每个数据集上的模型进行了微调。对于 EVR 和 GIER,所有模型在适应 Photoshop 风格的编辑任务后都获得了改进。MGIE 在编辑的各个方面始终优于 LGIE。这也说明了使用表达指令进行学习可以有效地增强图像编辑,而视觉
感知
在获得最大增强的明确引导方面起着至关重要的作用。
α_X 和 α_V 之间的权衡。图像编辑有两个目标:操作作为指令的目标和保留作为输入图像的剩余部分。图 3 显示了指令 (α_X) 和输入一致性 (α_V) 之间的权衡曲线。该研究将 α_X 固定为 7.5,α_V 在 [1.0, 2.2] 范围内变化。α_V 越大,编辑结果与输入越相似,但与指令的一致性越差。X 轴计算的是 CLIP 方向相似度,即编辑结果与指令的一致程度;Y 轴是 CLIP 视觉编码器与输入图像的特征相似度。通过具体的表达指令,实验在所有设置中都超越了 InsPix2Pix。此外, MGIE 还能通过明确的视觉相关引导进行学习,从而实现全面提升。无论是要求更高的输入相关性还是编辑相关性,这都支持稳健的改进。
消融研究
除此以外,研究者还进行了消融实验,考虑了不同的架构 FZ、FT 以及 E2E 在表达指令上的性能 。结果表明,在 FZ、FT、E2E 中,MGIE 持续超过 LGIE。这表明具有关键视觉
感知
的表达指令在所有消融设置中始终具有优势。
为什么 MLLM 引导有用?图 5 显示了输入或 ground-truth 目标图像与表达式指令之间的 CLIP-Score 值。输入图像的 CLIP-S 分数越高,说明指令与编辑源相关,而更好地与目标图像保持一致可提供明确、相关的编辑引导。如图所示,MGIE 与输入 / 目标更加一致,这就解释了为什么其表达性指令很有帮助。有了对预期结果的清晰叙述,MGIE 可以在图像编辑方面取得最大的改进。
人工评估。除了自动指标外,研究者还进行了人工评估。图 6 显示了生成的表达指令的质量,图 7 对比了 InsPix2Pix、LGIE 和 MGIE 在指令遵循、ground-truth 相关性和整体质量方面的图像编辑结果。
推理效率。尽管 MGIE 依靠 MLLM 来推动图像编辑,但它只推出了简明的表达式指令(少于 32 个 token),因此效率与 InsPix2Pix 不相上下。表 4 列出了在英伟达 A100 GPU 上的推理时间成本。对于单个输入,MGIE 可以在 10 秒内完成编辑任务。在数据并行化程度更高的情况下,所需的时间也差不多(当批大小为 8 时,需要 37 秒)。整个过程只需一个 GPU(40GB)即可完成。
定性比较。图 8 展示了所有使用数据集的可视化对比,图 9 进一步对比了 LGIE 或 MGIE 的表达指令。
在项目主页中,研究者还提供了更多 demo(https://mllm-ie.github.io/)。更多研究细节,可参考原论文。
# AI行业动态
©
版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
上一篇
2亿参数时序模型替代LLM?谷歌突破性研究被批「犯新手错误」
下一篇
王长虎:PixVerse 实测效果已超过 Pika,抖音经验让我们有足够优势
相关文章
春节大礼包!OpenAI首个视频生成模型发布,60秒高清大作,网友已叹服
全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容
中国电动汽车百人会2024丨毫末顾维灏:自动驾驶3.0时代,大模型重塑汽车智能化路线
Midjourney恢复免费试用!玩疯了!
把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star
大幅提升用户行为表征通用性,蚂蚁新模型获CIKM 2023最佳应用论文奖
暂无评论
暂无评论...
相关文章
UC伯克利探索GPT-5:使用当前模型预测未来模型的潜力
AI现场发了2万红包,打开了大模型Act时代
诺奖得主哈萨比斯新研究发表于Nature,AlphaQubit解码更稳定量子计算机
训练GPT-2只需5分钟,Andrej Karpathy也为此点赞
室温超导学术不端、多次Nature撤稿,这位印度裔学者被大学解雇
热门标签
Chatgpt
(21)
ai
(20)
AI绘画
(13)
AI应用
(11)
ai画画
(10)
AI游戏
(10)
人工智能
(9)
chatgpt
(9)
Midjourney
(8)
自动生成视频
(7)
AI写作
(6)
算力平台
(6)
AI行业动态
(6)
AI科研
(6)
AI文本写作
(5)
openai
(5)
AI写作助手
(5)
chatgpt-api
(5)
Ai视频生成
(5)
聊天机器人
(5)
广告位
常用
搜索
工具
社区
生活
常用
百度
Google
站内
淘宝
Bing
搜索
百度
Google
360
搜狗
Bing
神马
工具
权重查询
友链检测
备案查询
SEO查询
关键词挖掘
素材搜索
大数据词云
社区
知乎
微信
微博
豆瓣
搜外问答
生活
淘宝
京东
下厨房
香哈菜谱
12306
快递100
去哪儿
热门推荐:
AI交流社群
AI最新资讯
ChatGPT指南
Midjourney指南