免费GPT
AI大模型平台
ChatGPT
ChatGPT指南
ChatGPT Prompts
ChatGPT API
进阶到大神
书籍
ChatGpt账号
Midjourney
Midjourney指南
进阶教程
prompt词库
提示词工具
AI写作工具
写作工具
写作提示
内容检测
AI绘画工具
绘画生成
背景替换
图片修复
头像生成
图像设计
绘图社区
LOGO生成
AI-3D生成
AI视频工具
视频生成
文字生成视频
图片生成视频
数字人
制作长视频
视频后期
制作广告视频
AI办公工具
AI办公工具
AI自动生成PPT
AI思维导图
AI智能翻译
AI语音合成
AI好玩有趣
AI社区
算力平台
AI音乐制作
AI游戏应用
AI学习平台
AI装修设计
AI常用工具
AI辅助提示
AI辅助编程
AI流量优化
AI竞赛平台
开放平台
AI优质博文
博客
AI交流社群
商务合作
ChatGPT plugins
文章
首页
•
AI行业动态
•
MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
AI行业动态
1年前 (2023)发布
ainavi
15,200
0
1600
MiniGPT-v2 将大
语言模型
作为视觉语言
多任务学习
的统一接口。
几个月前,来自 KAUST(沙特阿卜杜拉国王科技大学)的几位研究者提出了一个名为
MiniGPT-4
的项目,它能提供类似 GPT-4 的图像理解与对话能力。
例如 MiniGPT-4 能够回答下图中出现的景象:「图片描述的是生长在冰冻湖上的一株仙人掌。仙人掌周围有巨大的冰晶,远处还有白雪皑皑的山峰……」假如你接着询问这种景象能够发生在现实世界中吗?MiniGPT-4 给出的回答是这张图片在现实世界中并不常见,并给出了原因。
短短几个月过去了,近日,KAUST 团队以及来自 Meta 的研究者宣布,他们将 MiniGPT-4 重磅升级到了 MiniGPT-v2 版本。
论文地址:https://arxiv.org/pdf/2310.09478.pdf
论文主页:https://minigpt-v2.github.io/
Demo: https://minigpt-v2.github.io/
具体而言,MiniGPT-v2 可以作为一个统一的接口来更好地处理各种视觉 – 语言任务。同时,本文建议在训练模型时对不同的任务使用唯一的识别符号,这些识别符号有利于模型轻松的区分每个任务指令,并提高每个任务模型的学习效率。
为了评估 MiniGPT-v2 模型的性能,研究者对不同的视觉 – 语言任务进行了广泛的实验。结果表明,与之前的视觉 – 语言通用模型(例如 MiniGPT-4、InstructBLIP、 LLaVA 和 Shikra)相比,MiniGPT-v2 在各种
基准
上实现了 SOTA 或相当的性能。例如 MiniGPT-v2 在 VSR
基准
上比 MiniGPT-4 高出 21.3%,比 InstructBLIP 高出 11.3%,比 LLaVA 高出 11.7%。
下面我们通过具体的示例来说明 MiniGPT-v2 识别符号的作用。
例如,通过加 [grounding] 识别符号,模型可以很容易生成一个带有空间位置
感知
的图片描述:
通过添加 [detection] 识别符号,模型可以直接提取输入文本里面的物体并且找到它们在图片中的空间位置:
框出图中的一个物体,通过加 [identify] ,可以让模型直接识别出来物体的名字:
通过加 [refer] 和一个物体的描述,模型可以直接帮你找到物体对应的空间位置:
你也可以不加任何任务识别符合,和图片进行对话:
模型的空间
感知
也变得更强,可以直接问模型谁出现在图片的左面,中间和右面:
方法介绍
MiniGPT-v2 模型架构如下图所示,它由三个部分组成:视觉主干、线性投影层和大型
语言模型
。
视觉主干:MiniGPT-v2 采用 EVA 作为主干模型,并且在训练期间会冻结视觉主干。训练模型的图像分辨率为 448×448 ,并插入位置编码来扩展更高的图像分辨率。
线性投影层:本文旨在将所有的视觉 token 从冻结的视觉主干投影到
语言模型
空间中。然而,对于更高分辨率的图像(例如 448×448),投影所有的图像 token 会导致非常长的序列输入(例如 1024 个 token),显着降低了训练和推理效率。因此,本文简单地将嵌入空间中相邻的 4 个视觉 token 连接起来,并将它们一起投影到大型
语言模型
的同一特征空间中的单个嵌入中,从而将视觉输入 token 的数量减少了 4 倍。
大型
语言模型
:MiniGPT-v2 采用开源的 LLaMA2-chat (7B) 作为
语言模型
主干。在该研究中,
语言模型
被视为各种视觉语言输入的统一接口。本文直接借助 LLaMA-2 语言 token 来执行各种视觉语言任务。对于需要生成空间位置的视觉基础任务,本文直接要求
语言模型
生成边界框的文本表示以表示其空间位置。
多任务指令训练
本文使用任务识别符号指令来训练模型,分为三个阶段。各阶段训练使用的数据集如表 2 所示。
阶段 1:预训练。本文对弱标记数据集给出了高采样率,以获得更多样化的知识。
阶段 2:多任务训练。为了提高 MiniGPT-v2 在每个任务上的性能,现阶段只专注于使用细粒度数据集来训练模型。研究者从 stage-1 中排除 GRIT-20M 和 LAION 等弱监督数据集,并根据每个任务的频率更新数据采样比。该策略使本文模型能够优先考虑高质量对齐的图像文本数据,从而在各种任务中获得卓越的性能。
阶段 3:多模态指令调优。随后,本文专注于使用更多多模态指令数据集来微调模型,并增强其作为
聊天机器人
的对话能力。
最后,官方也提供了 Demo 供读者测试,例如,下图中左边我们上传一张照片,然后选择 [Detection] ,接着输入「red balloon」,模型就能识别出图中红色的气球:
感兴趣的读者,可以查看论文主页了解更多内容。
# AI行业动态
©
版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
上一篇
周鸿祎:将推出Agent框架 解决大模型可控问题
下一篇
ChatGPT重压下,Stack Overflow裁员28%,为自家生成式AI工具开源节流
相关文章
字节旗下火山引擎数智平台发布AI助手
DeepMind联合创始人:生成式AI只是一个阶段 接下来是交互式AI
福布斯发布2023云计算100强榜单 OpenAI位列第一
爆火“视频版ControlNet”开源了!靠提示词换画风,全华人团队出品
英伟达:限制对华芯片出口将令美国芯片业“永久丧失机会”
数字大脑持续提升AIGC能力,加速行业智能化变革
暂无评论
暂无评论...
相关文章
ChatGPT 的 AI 搜索正式上线!即将免费可用,实测后我们发现了这些细节
不出所料!Jürgen又站出来反对Hinton得诺奖,Nature也炮轰提名过程不透明
万字实录 | 杨植麟、姜大昕、朱军现场激辩!国产 AI 巨头对 o1 模型和行业的深度思考
ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略
昂贵LLM的救星?Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
热门标签
Chatgpt
(21)
ai
(20)
AI绘画
(12)
AI应用
(11)
ai画画
(10)
AI游戏
(10)
人工智能
(9)
chatgpt
(9)
Midjourney
(8)
自动生成视频
(7)
AI写作
(6)
算力平台
(6)
AI行业动态
(6)
AI科研
(6)
AI文本写作
(5)
openai
(5)
chatgpt-api
(5)
Ai视频生成
(5)
聊天机器人
(5)
AI音乐
(5)
广告位
常用
搜索
工具
社区
生活
常用
百度
Google
站内
淘宝
Bing
搜索
百度
Google
360
搜狗
Bing
神马
工具
权重查询
友链检测
备案查询
SEO查询
关键词挖掘
素材搜索
大数据词云
社区
知乎
微信
微博
豆瓣
搜外问答
生活
淘宝
京东
下厨房
香哈菜谱
12306
快递100
去哪儿
热门推荐:
AI交流社群
AI最新资讯
ChatGPT指南
Midjourney指南