在IEEE Transactions on Pattern Analysis and Machine Intelligence上,跨维智能的算法研究团队提出了一种新的结构正则深度聚类混合模型(H-SRDC)以揭示无监督域适应的内在数据结构,并通过丰富结构相似性假设,将模型扩展到语义分割的像素级无监督域适应任务。
通过对图像分类和语义分割的七个无监督域适应基准数据集进行实验,H-SRDC在无监督域适应的归纳设置和传统直推设置下均比现有方法表现更佳。
研究动机
无监督域适应(UDA),即利用源域的有标签数据帮助训练机器学习模型,以迁移到无标签目标域。主流方法力争通过学习两个域之间对齐的特征以最小化域差异,但是这些方法存在破坏目标固有数据结构的潜在风险,尤其在归纳无监督域适应任务中更为严重。
为解决上述问题,研究人员基于源域与目标域之间的结构相似性假设,提出了一个集成正则区分聚类和正则生成聚类的结构正则深度聚类混合模型(A Hybrid Model of Structurally Regularized Deep Clustering),称作H-SRDC。
▲ H-SRDC的示意图
方法描述
在各类基于深度网络的聚类算法中,研究人员选择一种通过最小化网络预测的标签分布和引入的辅助分布之间的KL散度来进行聚类的框架。对于混合模型的区分部分,结构源正则简单地通过使用有标签源数据训练相同的分类器网络层来得到,即联合网络训练。对于生成部分,为了启用概率数据建模,研究者在深度特征空间学习簇中心,而结构源正则通过源域和目标域共用这些簇中心来实现。
结构源正则深度区分目标聚类
1)首先引入一个辅助分布,然后通过优化深度区分聚类目标函数,交替更新分布,并用更新的分布作为标签去训练网络更新参数。
2)基于结构相似性这一无监督域适应假设,使用有标签源数据训练相同的网络来约束目标数据的聚类。对于有标签源数据,使用其真值标签形成的分布作为辅助分布,得到通过交叉熵最小化的有监督网络训练。
3)域间结构相似性假设的类间邻近性概念暗示着不同源实例的正则效果也许不同,可基于不同样本各自到相应目标簇的距离给它们加权。对任意源样本,基于其特征和目标簇中心之间的余弦相似度来计算它的软挑选权重。然后,使用计算的权重去加权上述的有监督训练损失。注意,在网络训练期间,目标簇中心的更新和源样本权重的计算是迭代进行的(实际上每个训练周期),这使得软挑选随着特征学习不断进化。
4)组合上述的目标聚类损失和源正则损失即可得到结构正则深度区分聚类的目标函数。
基于自注意特征交互生成学习调制固有目标结构
从特征嵌入函数学习一个含有 K 个两个域共有的簇中心的集合,来进一步从生成的角度调制特征空间学习。
1)假设有一个参数映射,它从特征空间Z中的 n 个 d 维实例特征学习,去产生一个含有 K 个簇中心的集合。使用一个可训练的前馈子网络实现,如下图所示。
▲ 自注意簇中心学习子网络示意图
2)计算簇分配概率,类似于深度区分聚类的目标函数,引入一个辅助分布,再次通过交替更新分布和用更新的分布作为标签训练网络,更新参数进行优化。
3)基于之前假设的类间邻近性,通过使得簇中心的学习与有标签源数据共有来约束生成目标聚类,组合源正则产生结构正则深度生成聚类的目标函数。
自注意特征交互生成学习
研究人员基于Multihead Attention(MA)映射构造了的Multihead Attention Block (MAB),输出一个与Z相同大小的特征矩阵,其包含Z中元素之间的成对交互信息。通过堆叠多个这样的模块,也能够编码关于高阶交互的信息。各个种子通过自注意力交互聚合实例特征,随着学习的进行最终得到簇中心。
语义分割域适应扩展
在此工作中,研究人员还提出扩展H-SRDC到无监督域适应设置下的图像语义分割任务,即将输入图像中的每个像素分类到各语义类别中的一个。H-SRDC的动机来自源域和目标域之间的结构相似性假设,它包括域内区分性和类间邻近性两个概念。对于跨域适应语义分割这个任务,其输出是有空间结构的。对此研究人员增加第三个概念到结构相似性假设中,也就是布局一致性——语义分割图的空间布局在源域和目标域之间是一致的。布局一致性起着空间正则的作用,它约束像素层级的数据分布,因此有效地减小了搜索空间。下图展示了修改后的网络结构。
▲ 扩展H-SRDC用于无监督域适应图像语义分割的示意图
实验结果
归纳设置域适应实验
数据集
图像分类基准数据集Office-31、ImageCLEF-DA、Office-Home、VisDA-2017和Digits;
语义分割基准数据集GTA5、SYNTHIA和Cityscapes。
消融研究
对结构正则(SR)、深度区分聚类(DisC)、深度生成聚类(GenC)和源样本软挑选方案(S4)这四个主要成分进行细致的切片分析,结果如下所示。可以观察到,去掉任何一个成分都会导致性能退化,表明该方法设计的有效性和合理性。
▲ 细粒度消融研究H-SRDC的四个关键成分
H-SRDC模型学习行为诊断
下图中展示了单个实例到学到的簇中心的距离(Instance-to-Centroid)、实例类中心到学到的簇中心的距离(InsMean-to-Centroid)和源实例类中心到目标实例类中心的距离(SrcInsMean-to-TgtInsMean)。可以观察到,对于源域和目标域,Instance-to-Centroid距离和InsMean-to-Centroid距离随着训练的进行先减小或增大,然后稳定在一定水平,表明该方法没有迫使源或目标实例塌陷到学到的簇中心;MCD的SrcInsMean-to-TgtInsMean距离随着训练的进行线性减小,而H-SRDC没有这样,表明H-SRDC确实在调制特征空间学习,促使其揭开目标数据的固有区分,而不是对齐两个域之间的特征。
▲ 对H-SRDC使用的SRGenC目标函数进行学习诊断
收敛和泛化分析
根据以下收敛和泛化分析的结果,可以观察到H-SRDC有明显的优势。
▲ 收敛和泛化分析
图像分类任务的不同方法对比
在Office-31、ImageCLEF-DA、Office-Home、VisDA-2017和Digits这五个图像分类基准数据集上,比较结果分别如下所示,可以看到H-SRDC表现得比其他方法好。
▲ Office-31基准归纳设置的比较结果
▲ ImageCLEF-DA基准归纳设置的比较结果
▲ Office-Home基准归纳设置的比较结果
▲ VisDA-2017基准归纳设置的比较结果
▲ Digits基准归纳设置的比较结果
目标域测试数据特征分布的t-SNE可视化(W→A)如图14所示,可以看到H-SRDC学到了更具可区分性的特征空间。
▲ 目标域测试数据特征分布的t-SNE可视化(W→A)
语义分割域适应任务上的不同方法对比
根据以下结果可以观察到,H-SRDC的性能超过了其他参与比较的方法,表明该方法在除了图像分类任务以外的任务上的有效性。
▲ GTA5→Cityscapes基准归纳设置的比较结果
▲ SYNTHIA→Cityscapes基准归纳设置的比较结果
▲ GTA5→Cityscapes基准归纳设置的定性结果
直推设置域适应实验
数据集
Office-31、ImageCLEF-DA、Office-Home和VisDA-2017
图像分类任务的不同方法对比
如下图所示,H-SRDC取得了最好的性能,表明不管是在更具挑战性的归纳设置上,还是在更简单的直推设置上,该方法都有效。比起归纳设置下的对应实验结果,直推设置的实验结果要好很多,说明未来应该花费更多精力来解决归纳设置域适应问题。
▲ 直推设置的比较结果
论文链接:https://arxiv.org/abs/2012.04280
代码链接:https://github.com/huitangtang/H-SRDC