Google Research|数据集均衡化可能会影响模型性能(数据集对模型的影响)

Dataset balancing can hurt model performance

R. Channing Moore, Daniel P. W. Ellis, Eduardo Fonseca, Shawn Hershey, Aren Jansen, Manoj Plakal

[Google Research]

数据集均衡化可能会影响模型性能

动机:在机器学习中,如果训练数据的类别分布不均,可能会导致模型偏向于常见类别的性能,而忽视了稀有类别的性能。因此,许多研究者使用数据集平衡技术来改善模型的性能。然而,本文发现,虽然平衡可以提高公开的 AudioSet 评估数据的性能,但同时也会损害在相同条件下收集的未公开评估集的性能。 方法:通过改变平衡的程度,展示了其优势的脆弱性以及对评估集的依赖性。同时,没有发现证据表明平衡可以改善稀有类别相对于常见类别的性能。 优势:本文的研究结果提醒了我们,不能盲目地应用平衡技术,也不能过分关注公开评估集上的小幅度改进。这对于机器学习模型的训练和评估具有重要的参考价值。

通过实验发现,数据集平衡技术并不总是能提高模型性能,其效果可能与评估集的类别先验分布有关,因此不能盲目地应用平衡技术。

https://arxiv.org/abs/2307.00079 

Google Research|数据集均衡化可能会影响模型性能

Google Research|数据集均衡化可能会影响模型性能

0
分享到:
没有账号? 忘记密码?