何明凯的队伍又是新来的。
这一次,他们的成就围绕着最热门的aigc背后的剪辑。
——只是在模型的极简结构上,应用了简单的蒙版,使得新模型的速度快了3.7倍。
同时,性能可以提高而不是降低。
该团队表示,希望他们的工作能够帮助未来的视觉语言模型实现规模化。
这一波,让大家大呼:是何明凯,还是熟悉的味道~
没错,也是《大道至简》的手感。
就连论文也一如既往的只有12页,没有一个公式。
让我们一起阅读。
介绍mae—like面膜
本文提出了一种快速,简单,有效的训练clip的方法。
快速的语言图像预训练也很直接。
简单来说,就是基于原有的clip架构,随机屏蔽输入图像边上的图像块,然后只对可见块进行编码。
原始剪辑架构
说白了就是把类似mae的思想引入到了clip架构中,于是flip架构就变成了这样。
这样可以减少计算量,提高训练效率,同时学习更多的图文样本,每次迭代可以比较更多的样本,但保持相似的内存使用。
具体来说,本文使用vit作为图像编码器。
首先将图像划分成一个不重叠的网格,随机覆盖大部分块本文采用的遮阳比例为50%和75%然后vit只对块进行编码,时间复杂度降低到二分之一或四分之一
同样的方法也可以用于文本屏蔽但研究人员认为,由于文本编码器相对较小,加速效果无法带来整体增益
可是,与mae不同的是,这次flip没有重建被阻止的图像内容,也没有解码器。
mae建筑
因为他们发现放弃解码和重构可以产生更好的速度虽然编码器是在蒙版图像上预先训练的,但它可以直接应用于完整的图像
相同的性能,3.7倍的速度
总的来说,与clip相比,带掩膜机制的flip在精度和训练时间上取得了平衡,即在训练时间大幅减少的情况下,性能不降反升。
——尤其是当面膜程度高达50%,75%的时候。
其中,当mask=75%时,当flip的性能与基线模型剪辑相同时,训练速度为3.7x
这意味着这个夹子大约需要2500 tpu日培训完成后,flip可以节省大约1800 tpu日
这个结果是在imagenet—1k验证集上的零炮传递任务中得到的每个具有不同掩码比例的模型都在laion—400m上进行了6.4,12.8或32个历元的训练,包含4亿个图文对
然后,在imagenet—1k分类数据集的三个主要指标上,采用64k批量,50%掩码比和无掩码微调的flip也取得了比clip更好的性能。
注:比他们复制的片段好,比原片段差一点当然,两个片段的数据集是不同的
但在大量基于各种数据集的下游任务中,flip也显示出了优势,基本全线碾压clip。
最后,翻转模型的放大也是一大亮点,效果显著。
可以看出,当flip的模型规模和数据规模增大时,flip继续上升,尤其是模型规模增大时但是单纯增加训练时长基本没用
从下表也可以看出,模型规模和数据规模一起增加,效果达到了一个新的高度证明大模型 大数据好
何明凯担任通讯员。
三个人一起工作,都是公平研究工程师。其中包括:
李,本硕毕业于北京大学计算机专业,发表过多篇顶级会议,
齐昊,毕业于cmu机器人学院,
胡荣航2020年毕业于清华大学学士,加州大学伯克利分校博士。
何明凯和他的同事克里斯托弗费希滕霍费尔有同样的指导贡献。
还有一点
值得一提的是,有细心的网友统计了近三年cvpr被引用次数最高的论文,分别是moco,simsiam和mae。
这三篇文章唯一的合著者是何,还有两篇还是著作,都是和自我监督学习有关的根据谷歌的学术统计,目前,他们的引用分别为5224,1374和834
大神明凯还是一如既往的稳扎稳打~
你认为他们队的最新杰作怎么样。
比如,为什么随机遮罩图像面片,反而让模型性能不降反升。
纸质链接:
参考链接:
。