AI修复了谷歌的验证码,最新的多模态模型比GPT-4V空间理解更准确
日期:2023-10-17 18:30:58 / 人气:236

量子比特|微信官方账号QbitAI
谷歌人机验证已经停AI了!
最新的多模态大型模型可以轻松找到图片中的所有红绿灯,并准确圈出具体位置。
性能直接超过GPT-4V。
这是苹果公司和哥伦比亚大学的研究团队带来的多模态大型模型“Ferret”。
具有更强的图文关联能力,提高了大模型在“看、说、答”任务中的准确率。
比如下图中很小的部分(区域1)也可以区分为减震器。
GPT-4V未能答对,在小零件上表现不佳。
那么,雪貂是怎么做到的?
我理解“一点一滴”形象的大模型。
Ferret解决的核心问题是让参照和接地的空间理解能力更接近。
引用是指模型能够准确理解给定区域的语义,即能够知道一个位置是什么。
定位就是给出语义,让模型在图中找到对应的目标。
对于人类来说,这两种能力是天然结合在一起的,但是现有的很多多模态大模型只是单独使用了参考和定位。
因此,Ferret提出了一种新的混合区域表示方法,可以结合离散坐标和连续特征来表示图像中的区域。
通过这种方式,模型可以区分具有几乎相同边界框的对象。
比如下图中两个物体的情况,如果只使用离散的包围盒,模型会感觉很混乱。而连续自由形式的混合表示可以很好的解决这个问题。
为了提取不同区域的连续特征,提出了一种空间感知的视觉采样器,能够处理不同形状之间的稀疏性差异。
因此,Ferret可以接受各种区域输入,如点、包围盒和自由形状,并理解它们的语义。
在输出中,它可以根据文本自动生成每个定位对象的坐标。
为了实现这一目标,Ferret模型的架构包括图像编码器、空间感知视觉采样器和语言模型(LLM)。
Ferret将离散坐标和连续特征相结合,形成混合区域表示。
这种表示方法旨在解决表示各种形状和格式的区域的挑战,包括点、边界框和自由形状。
离散坐标中的每个坐标都被量化为目标帧的离散坐标,保证了模型对不同图像尺寸的鲁棒性。
空间感知视觉采样器提取连续特征,利用二值掩模和特征图对感兴趣区域内的点进行随机采样,通过双线性插值获得特征。
在经过受3D点云模型启发的空间感知模块处理后,这些特征被压缩成单个向量,并映射到大型语言模型(LLM)进行进一步处理。
为了增强Ferret的能力,论文还创建了一个名为GRIT的数据集。
该数据集包含110万个样本,涵盖四个主要类别:单个对象、对象之间的关系、特定区域的描述和基于区域的复杂推理。
GRIT数据集包括从公共数据集转换的数据,ChatGPT和GPT-4生成的指令调整数据,并提供了95K额外的困难负样本以提高模型的鲁棒性。
实验结果表明,该模型不仅在经典的参照和定位任务中表现出优越的性能,而且在基于区域和需要定位的多模态对话中也远远优于现有的MLLM模型。
此外,还提出了Ferret-Bench,可以评估图像局部区域的参考/定位、语义、知识和推理能力。
在LLaVA-Bench和Ferret-Bench上对Ferret模型进行了评测,在所有任务中表现良好,尤其是在三个需要参考和视觉基础的新任务中。
而且对图像细节的描述有了明显的提升,错觉明显减少。
全中国队
Ferret model是苹果AI/ML和哥伦比亚大学研究团队带来的,而且是全中国阵容。
有郝轩和张浩天担任联合工作。
游浩轩现在是哥伦比亚大学计算机科学博士,毕业后将加入苹果AI/ML团队。2018年西安电子科技大学毕业。
他的主要研究方向是视觉语言理解、文本图像生成和视觉语言。
张浩天现在是苹果人工智能/人工智能团队的视觉智能研究员。
在加入苹果公司之前,张浩天在华盛顿大学获得博士学位,毕业于上海交通大学,获得学士学位。
他是GLIP/GLIPv2的主要作者之一,GLIP获得了CVPR2022最佳论文奖的提名。
此外,团队成员还包括甘哲、、曹、杨等多位前谷歌、微软的优秀多模态大模型研究人员。
地址:https://arxiv.org/abs/2310.07704".
作者:杏耀娱乐平台
新闻资讯 News
- Netflix造梦,爱腾优渡劫:长视...12-10
- 亲历币圈杀猪盘:我是如何从“喝...12-10
- 香港街头的竹棚在消失?一座老城...12-10
- 汉堡里的虫子与上市梦:塔斯汀的...12-10

