时间:2022-11-04 12:22:24
然后,为了进一步提高ViT的泛化能力,我们分别设计了结合对抗学习、信息论和自监督学习的三种泛化能力提升的ViT。通过研究这三种类型的泛化增强ViT,我们观察到了ViT模型针对梯度的敏感性,并设计了一个更平滑的学习策略,以实现稳定的训练过程。通过修改的训练方案,我们实现了相较于原始ViT在OOD数据下的泛化性能4%左右的提升。通过将这三种泛化增强的ViT与它们对应的CNN模型进行综合比较,得到以下结论:

从单个特征图构建多尺度特征图的策略与SSD的策略有关。然而,本文的场景涉及从深度、低分辨率的特征图进行上采样,而SSD利用了较浅的特征图。在分层主干中,上采样通常由横向连接辅助;在普通的ViT主干中,作者凭实验发现这不是必需的,简单的反卷积就足够了。作者认为这是因为ViT可以依赖位置嵌入来编码位置,并且还因为高维ViT补丁嵌入不一定会丢弃信息。
在本文的研究中,作者的目标不是开发新组件。相反,作者进行了足以克服上述挑战的最小调整。特别是,本文的检测器仅从普通ViT主干的最后一个特征图构建一个简单的特征金字塔(见上图)。这放弃了FPN设计并放弃了分层主干的要求。为了有效地从高分辨率图像中提取特征,本文的检测器使用简单的非重叠窗口注意力。少量的跨窗口块(例如4个)可能是全局注意力或卷积,用于传播信息。这些调整仅在微调期间进行,不会改变预训练。
在这项工作中,作者追求不同的方向:探索仅使用普通、非分层主干的目标检测器。如果这个方向成功,它将能够使用原始ViT主干进行目标检测;这将使预训练设计与微调需求脱钩,保持上游与下游任务的独立性,就像基于ConvNet的研究一样。这个方向也部分遵循了ViT在追求通用特征时“减少归纳偏置”的哲学。由于非局部自注意力计算可以学习平移等变特征,它们还可以从某些形式的监督或自监督预训练中学习尺度等变特征。
*摘要:在本文中,我们提出了转换图像和视觉变压器(VIT)模型的组合使用,该模型用秘密键转换。我们首次展示了经过普通图像训练的模型可以直接转换为根据VIT体系结构训练的模型,并且使用测试图像时,转换模型的性能与经过纯图像训练的模型相同用钥匙加密。此外,提出的方案不需要任何特殊准备的数据进行培训模型或网络修改,因此它还使我们可以轻松更新秘密密钥。在实验中,在CIFAR-10数据集中的图像分类任务中,根据性能降解和模型保护性能评估了提出方案的有效性。
ViTDet这个工作系统地探讨了如何将ViT更好地应用在下游检测任务,它不直接对改变原生ViT的预训练过程,而是在适应下游任务上做适当地改进,并实现了和层级ViT模型类似甚至更好的性能,而且也证明了MAE预训练对性能的提升所起到的巨大作用。
综上所述张融亿总结:黄金承压回撤,运行在区间震荡中,下周操作上考虑高空低多策略,上方关注2020-2030美元阻力,下方关注2000-1996美元支撑。原油周四开盘在80.319美元/桶,开盘后出现了区间震荡走势,低点在...
前言:生活有进有退,不要轻易暴露内心的脆弱,岁月永远年轻,我们慢慢老去,你会发现,童心未泯,是一件值得骄傲的事情。与其诅咒黑暗,不如燃起蜡烛。没有人能给你光明,除了你自己。 黄金资讯—— 周一(4月17日),国际金价反...
金价周二上涨,因为美债收益率急剧下降,抵消了美元走强带来的压力,同时投资者在等待本周晚些时候公布的一系列美国经济数据,这些数据可能会影响美联储的加息立场。据了解,汽油价格通常在5月到6月之间达到峰值,他写道:“随着石油市...
我们复盘一下本周黄金的一个走势,由于周一是五一假期,黄金于1990开盘走跌,于欧盘在1977附近走强冲高2005后回落,在美联储利率决议的影响下,黄金周二与周三的走势相同,都是白盘震荡然后美盘拉涨,且幅度不小,在周四加息...