Cách xử lý trong trường hợp tập dữ liệu là không cân bằng (imbalanced dataset)?

  1. Trí tuệ nhân tạo

Từ khóa: 

trí tuệ nhân tạo

Data augmentation:

  • Oversampling -> Tạo thêm dữ liệu cho phần dữ liệu bị thiếu
  • Down sampling -> Bỏ bớt dữ liệu cho phần dữ liệu đang dư
Optimization:
  • Classweighting -> Tăng weight cho phần dữ liệu thiếu cao lên
  • Training -> Tăng xác suất phần dữ liệu thiếu được sử dụng trong quá trình training
  • Ngoài ra còn một số phương pháp khác mời các chuyên gia khác thêm vào

Trả lời

Data augmentation:

  • Oversampling -> Tạo thêm dữ liệu cho phần dữ liệu bị thiếu
  • Down sampling -> Bỏ bớt dữ liệu cho phần dữ liệu đang dư
Optimization:
  • Classweighting -> Tăng weight cho phần dữ liệu thiếu cao lên
  • Training -> Tăng xác suất phần dữ liệu thiếu được sử dụng trong quá trình training
  • Ngoài ra còn một số phương pháp khác mời các chuyên gia khác thêm vào

Mình cũng đang thắc mắc câu hỏi này mà chưa có lời giải tốt. Following
Mình comment để follow câu hỏi này. Thực sự trong cuộc số có nhiều tập dữ liệu bị lệch chẳng hạn bài toán phát hiện gian lận trong giao dịch. Mình cũng chưa tìm được phương pháp ổn cho bài toán này^^