Ensembling disentangled domain-specific prompts for domain generalization

Fangbin Xu, Shizhuo Deng, Tong Jia, Xiaosheng Yu, Dongyue Chen

Abstract

域泛化(DG)是一个具有挑战性的问题,因为我们在训练过程中无法访问任何看不见的目标域数据。最近出现的视觉语言模型 (VLM) 激发了研究人员利用语言模态提高视觉模型的 DG 性能,这通常涉及利用手工制作的提示模板或提示调整。然而,手工制作的提示模板不灵活,而提示调整方法很容易过度拟合训练数据。在本文中,我们建议整合提示调整和提示集成的优点,并减轻过度拟合问题。为了实现这一目标,我们引入了一种新颖的提示学习框架,称为解缠结的特定领域提示学习(DDSPL) 具体来说,我们建议学习特定领域的提示(DSP)而不是单个统一的提示,以促进可推广的零样本推理。此外,我们提出了解缠结的提示学习,它采用两种正则化损失来鼓励领域上下文提示之间的多样性,以及领域和类别提示之间的不相关性。此外,我们开发了一种视觉引导的提示加权方法,该方法训练域归因模块(DAM)来动态构建集成分类器,以获得更好的 DG 性能。我们通过对四个 DG 基准数据集进行大量实验来验证我们方法的有效性和优越性


Method