Thống kê và Machine learning khác nhau ở điểm gì?

  1. Trí tuệ nhân tạo

Có ý kiến cho rằng chúng không hề có sự khác biệt gì, mà chúng là một. Sự có mặt của machine learning nói riêng và khoa học máy tính nói chung tập trung vào khía cạnh giải thuật và cải thiện hiệu quả tính toán. Đó là 1 điểm thiếu xót trong thống kê cổ điển, bởi vậy mà các sản phẩm của nó thường không chứa đựng nhiều tính chất về mặt tính toán. Về sau, Machine learning và thống kê dường như đã có tác động tích cực đến nhau, mang những đặc trưng vốn là điểm mạnh của mình vào bổ sung, bù đắp thêm cho những thiếu xót của ngành kia, khiến cho cả 2 dần hoàn thiện hơn. Rồi dần dần chúng ta thấy các nhà thống kê học nói nhiều hơn đến "algorithms" và "data structure", còn dân khoa học máy tính sẽ nói nhiều đến "statistical analysis".

Vậy ý kiến chủ quan của bạn về vấn đề này ra sao ???

Từ khóa: 

trí tuệ nhân tạo

Quan điểm của mình về chủ đề này là: thống kê và học máy là hai mảng riêng biệt nhưng chúng bổ sung cho nhau. Đối với học máy, thống kê là phần cung cấp các thông tin để học, đối với thống kê học máy là phần sử dụng các thông tin mình thụ thập và xử lý được. Khi kết hợp học máy với thông kê, ta có một lĩnh vực mới đó là "Học máy thống kê" hay "Statistical machine learning".

Theo wiki: Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán.

Trả lời

Quan điểm của mình về chủ đề này là: thống kê và học máy là hai mảng riêng biệt nhưng chúng bổ sung cho nhau. Đối với học máy, thống kê là phần cung cấp các thông tin để học, đối với thống kê học máy là phần sử dụng các thông tin mình thụ thập và xử lý được. Khi kết hợp học máy với thông kê, ta có một lĩnh vực mới đó là "Học máy thống kê" hay "Statistical machine learning".

Theo wiki: Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán.

Theo em, Statistics hướng đến giải thích, còn Machine Learning tập trung vào dự đoán. Tức là điểm khác biệt mấu chốt nằm ở mục tiêu ứng dụng.

Cụ thể hơn, trong chương trình giảng dạy các chuyên ngành về kinh tế, Xác suất thống kê và Kinh tế lượng là hai bộ môn quen thuộc. Tại đây, các bài toán đặt ra thường theo phong cách: Cho một biến phụ thuộc (giá nhà) và các biến độc lập (diện tích, số phòng ngủ, ...), chạy các loại kiểm định thống kê để tìm ra được mối liên hệ giữa chúng. Từ đó trả lời câu hỏi: Đâu là yếu tố có tác động lớn tới sự thay đổi của giá nhà?

Cùng bộ dữ liệu này, nhưng mình dùng Machine Learning khi mục tiêu chính là độ chính xác. Điều này thể hiện ở việc người ta sẵn sàng sử dụng những thuật toán phức tạp, những black-box models miễn sao tối ưu được kết quả dự báo. Ngay cả khi cùng sử dụng một dạng statistical modeling cơ bản là Hồi quy tuyến tính (Linear Regression), các kĩ thuật học máy như L2-regularization thường tập trung cải thiện dự báo, theo đó chấp nhận đánh đổi khả năng giải thích của các biến độc lập.

Một paper khá hay về chủ đề này để anh tham khảo thêm:

To Explain or to Predict?