ImageNet预训练的非鲁棒性及解决方案研究

释放双眼,带上耳机,听听看~!
本文研究了ImageNet预训练的非鲁棒性问题,以及针对性的解决方案,旨在探讨深度学习模型在微调过程中鲁棒性下降的原因,并提出了简单的鲁棒 ImageNet 预训练解决方案。

ImageNet预训练的非鲁棒性及解决方案研究

开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 1 天,arxiv.org/abs/2106.10…
代码链接:github.com/jiamingzhan…
作者单位:北京交通大学、鹏城实验室、北京师范大学

会议介绍:AAAI(Association for the Advance of Artificial Intelligence)是由人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。

深度学习方法中使用ImageNet预训练模型目前已经是很多视觉任务上的基本手段,有很多研究表明,加载ImageNet预训练模型可以帮助新模型在新任务上得到更好的泛化能力。但是这种方式有没有缺陷呢,毕竟ImageNet数据库的数量也是有限的,而且其也具有数据类别不平衡等问题。本文针对ImageNet预训练展开了研究,作者发现ImageNet预训练会在下游任务迁移知识的同时带来一定的非鲁棒性。作者首先对各种数据集和网络主干进行了实验,以揭示微调模型中的非鲁棒性。并通过进一步的分析实验,证明这种非鲁棒性的来源就是ImageNet的预训练模型中。为了减少这种迁移的负面影响,作者分析了预训练模型对于特征学习的偏好,探索了影响鲁棒性的因素,并介绍了一种简单的鲁棒 ImageNet 预训练解决方案。本文代码已开源。

1.引言

使用预训练模型是目前人工智能技术视觉和自然语言理解等领域的基石。很多模型和框架离不开大规模预训练模型的支持。但是预训练中存在哪些问题呢?随着预训练模型在解决现实世界任务中的逐渐普及,实验数据的安全性是至关重要的,特别是对于具有高可靠性要求的任务。 如下图所示,作者发现经过微调的模型在鲁棒性方面的表现往往不尽如人意,这里的鲁棒性特指对抗鲁棒性。经过预训练微调后的模型会对数据的扰动非常敏感,并且错误地对对抗性输入进行分类。但是近几年来,由于预训练模型在模型泛化性方面的优势将这一缺陷掩盖了。

ImageNet预训练的非鲁棒性及解决方案研究

那么微调后模型鲁棒性下降的原因是什么呢?作者发现,尽管微调模型和标准模型的目标任务相同,但是它们在知识的学习方面有很大不同。此外,作者还分析了模型学习的哪些特征导致了差异,以及这些特征如何影响鲁棒性。微调模型中的非稳健特征被证明主要是从预训练模型(即 ImageNet 模型)迁移而来

2.ImageNet预训练的非鲁棒性实验

2.1 预训练任务设置

通常来说,预训练会根据目标任务对新网络进行初始化。**这里将目标任务的网络分解为两部分:带有参数 θftheta_{f} 的特征提取器 ff 和带有参数 θgtheta_{g} 的分类器 gg。**给定原始输入 xxf(x;θf)f (x; theta_{f}) 表示从 xx 到其嵌入表示 exe_x 的映射,g(ex;θg)g(e_x;theta_{g}) 表示从 exe_x 到其预测标签的映射。典型的预训练涉及两种微调设置:(1)部分微调,其中仅更新对应于分类器 g(ex;θg)g(e_x;theta_{g}) 的全连接层;(2)全微调,其中预训练模型的f(x;θf)f (x; theta_{f})g(ex;θg)g(e_x;theta_{g})都在目标数据集上微调,f(x;θf)f (x; theta_{f})通常被分配一个较小的学习率。

2.2 对抗鲁棒性设置

对抗鲁棒性是为了衡量模型在对原始输入添加小扰动时对对抗样本的稳定能力。为了生成对抗样本,这里给定原始输入 xx 和相应的真实标签 yy,目标是最大化输入 xx 的损失 L(x+δ,y)L(x+delta, y),生成的对抗样本 x′=x+δx^{prime}=x+delta 看起来应该与原始输入 xx 在视觉上相似并且保证 g(f(x′))≠ygleft(fleft(x^{prime}right)right) neq y

2.3 实验

作者选取了几个被广泛使用的图像分类数据集进行鲁棒性实验,包括Pets、NICO、Flowers 、Cars、Food和CIFAR10,此外还自行整理了一个Alphabet数据集作为比较示例,其具有低语义复杂性和相对充足的训练数据。Alphabet数据集是通过扰动 26 个英文字母并添加随机噪声来构建的,每个字母类产生 1, 000 个训练图像和 200 个测试图像,这些数据集中的图像示例如下。

ImageNet预训练的非鲁棒性及解决方案研究

为了测试与训练模型的非鲁棒性传递,作者在这里比较了标准模型、部分微调模型和完全微调模型的性能。关于对抗性鲁棒性,这里使用下降率(decline ratio,DR)作为附加评估指标。给定原始输入(accuracy of original inputs,AOI)和对抗性输入(adversarial inputs,AAI)的识别精度,DR 定义为 DR = (AOI-AAI)/AOI。 与 AAI 相比,DR 可以作为模型稳健性的更平衡指标,尤其是当两个模型在原始输入(即 AOI)上的表现完全不同时。较大的 DR 表示在输入扰动的情况下精度急剧下降,因而鲁棒性较差。实验结果如下表所示。

ImageNet预训练的非鲁棒性及解决方案研究

根据上表我们可以得到,对于大多数数据集,微调模型通常比标准模型实现更好的泛化(AOI),但鲁棒性(AAI 和 DR)更差。这表明预训练不仅提高了识别目标任务原始输入的能力,而且传递了非鲁棒性,使微调后的模型对对抗性扰动更加敏感。此外在两个预训练设置中,完全微调比部分微调设置获得了更好的鲁棒性和泛化能力。这表明在实际应用中采用预训练以减轻鲁棒性下降时,最好进行全面微调。

3. 微调模型与标准模型的区别

为了探索微调模型和标准模型之间的性能差异,作者从它们学习到的知识开始入手。首先作者对模型知识含量进行计算,采用了一个公认的指标,典型相关分析 (Canonical Correla- tion Analysis,CCA),以量化两个网络之间的表示相似性。CCA是一种基于统计的手段,目的在于确定来自网络的两个层L1、L2L_1、L_2 之间的表征相似性。在具体操作时,令 L1,L2L_1 , L_2i×ji×j (i 是图像数量,j 是神经元数量) 维矩阵。随后在 Rimathbb{R}^{i} 中找到向量 z、sz、s,使得相关系数 ρrho 最大化:

ρ=⟨zTL1,sTL2⟩∥zTL1∥⋅∥sTL2∥rho=frac{leftlangle z^{T} L_{1}, s^{T} L_{2}rightrangle}{left|z^{T} L_{1}right| cdotleft|s^{T} L_{2}right|}

随后使用上述指标对微调模型和标准模型进行对比,实验结果如下图所示,微调模型与预训练模型相比与标准模型更相似,对于大多数数据集的底层和全层特征都是如此。由于预训练模型和标准模型是分别在源数据集和目标数据集上训练的,这个结果似乎表明在微调模型中学到的更多知识是从源任务数据转移的,而不是从微调目标任务转移的。 通过进一步比较图 3(a) 和图 3(b),可以发现微调模型和标准模型的底层特征相对于全层特征更相似,表明底层特征 (例如,边缘、简单纹理)提取源任务和目标任务之间的一些共享语义。这证明了预训练初始化的作用及其对泛化改进的贡献。

ImageNet预训练的非鲁棒性及解决方案研究

4.鲁棒的ImageNet预训练方法

通过上述实验和分析,作者认为特征空间陡度(Steepness of Feature Space)是影响微调模型鲁棒性的一个主要因素,因此作者首先引入了一个度量来量化目标任务和源任务之间的差异,然后提出一种称为差异缓解(Discrepancy Mitigating) 的方法来规范两个阶段特征空间的陡度,经过实验,DM方法优于迁移学习中的大多数现有方法。特征空间陡度的衡量指标为局部Lipschitzness(LL):

LL(f(X))=1n∑i=1nmax⁡xi′∈B∞(xi,ϵ)∥f(xi)−f(xi′)∥1∥xi−xi′∥∞mathrm{LL}(f(X))=frac{1}{n} sum_{i=1}^{n} max _{x_{i}^{prime} in mathbb{B}_{infty}left(x_{i}, epsilonright)} frac{left|fleft(x_{i}right)-fleft(x_{i}^{prime}right)right|_{1}}{left|x_{i}-x_{i}^{prime}right|_{infty}}

由于预训练本质上是作为目标任务的特征提取器,所以通过检查从预训练模型中提取的特征如何适合目标任务的图像来衡量差异。随后可以通过降低目标样本上预训练特征空间的陡度来缓解微调模型中的非鲁棒性,具体表现为减轻目标和源任务之间差异的影响,称为差异缓解。操作时,在传统的fine-tuning loss之外,加入LLF正则化项,推导出如下目标函数:

min⁡θf,θg1m∑i=1mC(y,g(f(xi)))+λ⋅LL⁡(f(X))min _{theta_{f}, theta_{g}} frac{1}{m} sum_{i=1}^{m} mathcal{C}left(y, gleft(fleft(x_{i}right)right)right)+lambda cdot operatorname{LL}(f(X))

为了评估差异缓解方法对于微调模型稳定性保持的作用,作者选用了了几个基线进行比较。基本上来说,提高微调模型的鲁棒性涉及微调和预训练两个阶段。本文提出的鲁棒预训练解决方案(表示为 DM@stage-1&2)结合了两个阶段:在预训练阶段,采用[1]中的对抗性训练来获得鲁棒的预训练模型,在微调阶段,我们根据上式目标数据集进行微调,以减少由目标任务和源任务之间的差异引起的特征空间陡度

ResNet-18 backbone 的实验结果如下表所示。可以观察到:(1)关于鲁棒性,MD@stage-1&2 在大多数数据集中实现了更高的 AAI 和 DR; (2) 关于泛化性,MD@stage-1&2 保证了与原始微调模型相比的性能,并且达到了与基线方法相当甚至更好的性能。

ImageNet预训练的非鲁棒性及解决方案研究

参考

[1] Salman, H.; Ilyas, A.; Engstrom, L.; Kapoor, A.; and Madry, A. 2020. Do Adversarially Robust ImageNet Models Transfer Better? In Proceedings of the International Conference on Neural Information Processing Systems.

往期回顾

顶刊TPAMI2022|高效解决跨域行人ReID中域内和域间的双重差异,中科院自动化所出品

西交人机所提出视频全景分割新基线IMTNet,发表在图像领域顶级期刊TIP上

AAAI 2023|香港大学提出Glance-and-Focus网络,有效提升弱监督视频异常检测性能

顶刊TIP 2022|双管齐下,中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

顶刊TIP 2022|武汉大学遥感国重团队提出二元变化引导的高光谱遥感多类变化检测网络BCG-Net

顶刊TIP 2023|Rethinking无监督行人Re-ID,中科院研究团队表明采样策略是重中之重

顶刊TPAMI2022|复旦大学研究团队提出基于贝叶斯理论的图像超分辨率网络BayeSR

顶刊TCYB 2022|遥感显著目标检测新基线ACCoNet,南洋理工IEEE Fellow团队出品

顶刊TPAMI2023|港中文提出基于自适应视角的APD知识蒸馏框架,有效提高现实场景语义分割性能

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

CLIP模型解读与应用

2023-12-6 10:59:14

AI教程

使用PyTorch实现GCN

2023-12-6 11:02:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索