新智元报道
编辑:LRS 【新智元导读】人民大学最新研究指出,更好的数据增强虽然可以提升其在下游任务的泛化能力,但也会减弱对比学习的上游性能。近年来,由于数据规模的增大以及标签信息的缺失,自监督方法的使用逐渐广泛。
由于在图结构数据中可以轻松的利用边以及节点的drop进行增强,对比学习成为了天然的自监督范式。 图对比学习在数据增强后,得到两个视图,两视图中的对应节点作为正样本,其余节点作为负样本。 过去的研究者一般认为最优的对比学习需要进行完美的正样本对齐(正样本的表征一致),以及负样本表征在特征空间的均匀分布。 同类节点的表征在经过数据增强后的特征空间可能存在交集(augmentation overlap),假如对于两个同类节点,数据增强将其映射为同一个节点,由于对比学习需要将正样本拉近,则最优的表征应当是,因此,通过一个较强的数据增强,正样本对齐可以一定程度上拉近同类样本距离。 近日,来自中国人民大学的研究人员指出,正样本对齐或许不能帮助提升对比学习性能,甚至会损害其泛化能力。而数据增强应当在尽可能保留原始信息的情况下更强,例如drop更多的边以及节点。
背景与动机
一般来说,随着数据增强幅度的变化,对比学习在下游任务的表现也会出现明显的改变。由此可见数据增强在对比学习中起到了至关重要的作用,但如今对其的理解仍然存在偏差。
过去的研究往往认为通过augmentation overlap以及正样本对齐、负样本均匀分布就可以得到一个优异的对比学习模型。 但实际上,随着数据增强变强,augmentation overlap会变得更多但正样本的对齐也会变得更难。 因此augmentation overlap与正样本对齐很难同时达到最优。 与此同时,也有其他研究者指出对比学习中的augmentation overlap实际上非常稀少,因此数据增强可能并不是通过augmentation overlap帮助下游任务。 为此需要进一步探究数据增强在对比学习中起到什么样的作用。数据增强如何影响下游任务?
研究者假设经过数据增强后节点的标签信息不变,即原始节点与增强节点仍属于同一个类别。 并且经过GNN编码后原始节点与增强节点的表征区别会随着数据增强幅度的增加而增加,即drop的边越多越大。 由此,可以分析节点经过GNN编码后与其类别中心的相似程度。
寻求更优的数据增强
信息论角度
公式(3)中的可以表示为互信息,其余项可以使用进行表示,由此可以得到如下公式:
实验部分
实验利用三种基础的图对比学习方法GRACE、GCA以及AD GCL进行实验,GRACE+I代表GRACE与提出的信息论方法耦合,GRACE+S代表GRACE与提出的谱增强方法耦合。可以看到两种优化方法在3种不同的对比学习方法以及6个数据集上都取得了性能提升。
由上图可见,两者优化方法在提升了的同时保留了互信息,因此得到了更优的下游任务表现。
参考资料:
https://arxiv.org/abs/2310.03977v1

