Sự khác biệt giữa phương pháp học có giám sát và học không giám sát trong Machine Learning?
Với những ai đã từng tiếp cận tới lĩnh vực Machine Learning hẳn đã nghe tới những từ khóa như supervised learning (Học có giám sát) và unsupervised learning (Học không giám sát). Vậy thế nào là học có giám sát, học không giám sát và giữa chúng có gì khác biệt?
Ở một khía cạnh nào đó, việc huấn luyện cho máy để thực hiện một công việc nào đó (học máy) khá tương đồng với việc dạy dỗ con cái. Những đứa trẻ cần được dạy dỗ, chỉ bảo bằng kiến thức, cũng giống như trí tuệ nhân tạo cần được huấn luyện bằng dữ liệu để thực hiện các công việc. Lấy ví dụ về việc nhận dạng chữ cái. Nếu bạn đưa cho bọn trẻ hình ảnh của từng mặt chữ và chỉ ra từng chữ cái tương ứng thì một thời gian sau chúng sẽ có khả năng nhận diện mặt chữ qua hình ảnh của chữ cái. Với cách học này, bạn đưa ra một đầu vào - hình ảnh và chỉ dẫn đến một đầu ra tương ứng - chữ cái, từ đó bọn trẻ sẽ có khả năng suy luận những hình ảnh mới chưa gặp nhưng có sự tương đồng nhất định với những hình ảnh đã được gặp và đưa về chữ cái tương ứng. Đây chính là cách học có giám sát. Bây giờ giả sử bạn đưa cho chúng hình ảnh của từng mặt chữ nhưng lần này không nói cho chúng biết hình ảnh này tương ứng với chữ cái nào nữa. Bọn trẻ chắc hẳn sẽ gặp khó khăn trong việc nói ra đó là chữ cái nào vì chúng chỉ được cung cấp đầu vào - hình ảnh mà lại không có đầu ra. Thay vì vậy, ta sẽ yêu cầu chúng phân nhóm các hình ảnh sao cho mỗi nhóm biểu diễn một chữ cái khác nhau theo sự hiểu biết của chúng. Đây chính là cách học không giám sát.
Học có giám sát vs Học không giám sát
Quay lại với Machine Learning, ta có sự so sánh giữa 2 phương pháp học:
Học có giám sát: Là cách huấn luyện một mô hình trong đó dữ liệu học có đầu vào và đầu ra tương ứng đầu vào đó. Mô hình được huấn luyện bằng cách giảm thiểu sai số lỗi (loss) của các dự đoán tại các vòng lặp huấn luyện. Sau quá trình huấn luyện. mô hình sẽ có khả năng đưa ra dự đoán về đầu ra với một đầu vào mới gặp (không có trong dữ liệu học). Nếu không gian đầu ra được biểu diễn dứới dạng rời rạc, ta gọi đó là bài toán phân loại (classification). Nếu không gian đầu ra được biểu diễn dưới dạng liên tục, ta gọi đó là bài toán hồi quy (regression).
Học không giám sát: Là cách huấn luyện một mô hình trong đó dữ liệu học chỉ bao gồm đầu vào mà không có đầu ra. Mô hình sẽ được huấn luyện cách để tìm cấu trúc hoặc mối quan hệ giữa các đầu vào. Một trong những phương pháp học không giám sát quan trọng nhất là phân cụm (clustering): Tạo các cụm khác nhau với mỗi cụm biểu diễn một đặc trưng nào đó của dữ liệu và phân các đầu vào mới vào các cụm theo các đặc trưng của đầu vào đó. Các phương pháp học không giám sát khác có thể kể đến như: phát hiện điểm bất thường (anomaly detection), Singular-value decomposition, ...
Như trên là các điểm khác biệt cơ bản về 2 phương pháp học có giám sát và học không giám sát. Có một phương pháp học rơi vào giữa 2 phương pháp này là học bán giám sát (semi-supervised learning) khi dữ liệu học chỉ có một phần nhỏ là có đầy đủ cặp đầu vào - đầu ra tương ứng và phần dữ liệu còn lại chỉ có đầu vào. Phương pháp này phù hợp trong trường hợp việc gắn đầu ra cho từng đầu vào là không khả thi hoặc tốn rất nhiều tài nguyên và việc sử dụng dữ liệu không được gắn đầu ra sẽ hiệu quả hơn.
trí tuệ nhân tạo
nói tóm lại là machine learning tùy thuộc vào đặc tính của data, cái quan trọng rằng trước kia AI phải xây dựng bằng đệ quy hoàn toàn, còn khoảng từ năm 2015 thì được xây dựng bằng dự án vét cạn trên một loạt các ID có logic, vậy phương pháp thứ ba mà bạn kể nó sẻ ứng dụng nhiều hơn, nói cách khác AI hiện nay không giống như thời xưa, thuật toán lõi càng ngày càng tốn ít tài nguyên của hệ thống, bạn hiểu ngay cả chiếc điện thoại nhỏ cũng có thể chạy AI
Nguyễn Hữu Duyến
nói tóm lại là machine learning tùy thuộc vào đặc tính của data, cái quan trọng rằng trước kia AI phải xây dựng bằng đệ quy hoàn toàn, còn khoảng từ năm 2015 thì được xây dựng bằng dự án vét cạn trên một loạt các ID có logic, vậy phương pháp thứ ba mà bạn kể nó sẻ ứng dụng nhiều hơn, nói cách khác AI hiện nay không giống như thời xưa, thuật toán lõi càng ngày càng tốn ít tài nguyên của hệ thống, bạn hiểu ngay cả chiếc điện thoại nhỏ cũng có thể chạy AI