数据不平衡

内容纲要

定义

训练数据中某些类别的数据会特别少或者特别难采集.

这样会导致训练时候因为数据量少得不到模型足够的重视,因为就算无视可能也不会影响多少结果的损失.

方法

数据重采样

  • 复制数据: 和其他类别数量差不多
  • 采样频率: 给小批量的更高的采样频率

调整损失权重

增大小批量类别的损失权重.

SMOTE算法

发表评论