Delving into Deep Imbalanced Regression笔记


DIR

#难点:

  • 现实中,数据不平衡随处可见,通常是带长尾的偏态分布,其中某些标签的值很少。

  • 解决不平衡的分类任务的方法具有局限性,它们只适合分类任务,主要关注于类别的不平衡,直接用于连续数据会产生歧义以及忽略了连续数据中每个数据周围的信息。

  • 解决不平衡的回归任务没有很好的探索过,没有考虑目标间的信息,同时对于极高维度的数据来说,线性插值不会产生有意义的样本

#解决方法:

  • 提出了LDS

    1. 由“Figure 2.” [Yang 等。, 2021, p. 3] 可以看出分类和连续的区别

    2. 原因是所有不平衡学习方法是通过改善经验标签密度分布的不平衡来进行的,没有学习到临近标签的数据样本间的依赖性

    3. 因此提出LDS,它提倡使用核密度估计来学习连续标签的不平衡区域

    4. 由“Figure 3.” [Yang 等。, 2021, p. 3] 可以看出连续问题可能转化成分类问题,因此可以使用不平衡的分类方法,如重加权、重采样

  • 提出了FDS

    1. 作者认为有目标空间的连续性,应该也有特征空间的连续性

    2. 首先从“Figure 4.” [Yang 等。, 2021, p. 4] 可以看出在样本很多的区域,它们的均值和方差的余弦相似度相似且高,但是在少样本区域也表现得很高(因为数据不平衡,它们从数据量大的区域学习它们学习到的值)

    3. 因此提出FDS,它通过对称核来平衡目标的均值和方差,进行特征空间分布平滑

    4. 它可以整合到任何神经网络和改善标签不平衡的工作中来提升性能。

  • 整理出五个DIR基准数据集。

#实验及结果

  • 应用不平衡回归任务的方法在高维数据上时性能不好,vanilla模型在manyshot区域易过拟合

  • 添加了LDS+FDS取得最好结果,并且提高了all-, many-, medium-, few-shot区域的性能

  • LDS和FDS在有数据区域和无数据区域都取得收益,具体来说,内插和外插都有提升,内插最多。

  • “Figure 8” [Yang 等。, 2021, p. 8] 表明了FDS可以很好的校准统计数据,使得尽在其周围具有高相似度,并随着目标值变大,相似度下降。此外运行统计数据和平滑统计数据的L1距离随训练进行而减少。

  • Gaussian核带来最优结果

  • LDS和FDS对不同的损失函数具有鲁棒性

  • 核大小最好为5,标准差最好为2,且都不同的超参数大小都有鲁棒性

  • LDS和FDS对不同偏态标签密度的鲁棒性好

  • 另外发现了不平衡的分类方法在回归上应用不好的原因:首先,忽略了连续目标周围数据的相似性;其次,分类无法在连续空间内进行外插和内插,因此无法处理缺失数据

其他博客介绍