Xử lý bộ dữ liệu?

  1. Trí tuệ nhân tạo

Mình có một bộ dữ liệu gồm 2000 mẫu và 30 đặc trưng. Tuy nhiên có khoảng 900 mẫu không có đủ các giá trị cho cả 30 đặc trưng đó. Mình định dùng hồi quy tuyến tính, nhưng phải làm thế nào với bộ dữ liệu này?

Từ khóa: 

trí tuệ nhân tạo

Vấn đề này có tên là Handling missing values, cách giải quyết thường là Drop hoặc Impute. Đây là các keywords để bạn có thể google thêm nhé ;)

Trả lời

Vấn đề này có tên là Handling missing values, cách giải quyết thường là Drop hoặc Impute. Đây là các keywords để bạn có thể google thêm nhé ;)

Mình nghĩ không có hướng giải quyết đơn giản cho vấn đề này:

- Bạn có thể xóa những mẫu không đủ các đặc trưng, hoặc loại bỏ những đặc trưng mà khuyết nhiều trong các mẫu, rồi thử xem chất lượng có đạt như mong muốn.

- Đối với mỗi đặc trưng, nếu số mẫu bị khuyết không quá nhiều, bạn có thể đặt một giá trị mặc định cho các mẫu đó là giá trị trung bình hoặc trung vị của các mẫu còn lại. Tuy nhiên cách này có thể không chính xác và bạn cũng cần thử xem chất lượng thế nào.

- Với mỗi đặc trưng bị thiếu mẫu, bạn có thể coi đó là một bài toán hồi quy và dùng các phương pháp như hồi quy tuyến tính chẳng hạn để đoán các giá trị còn thiếu.

- Có một bài báo về vấn đề này (

http://dspace.mit.edu/bitstream/handle/1721.1/7202/AIM-1509.pdf?sequence=2
). Nói thật mình cũng chưa đọc :D, bạn có thể tham khảo thêm.