Các phương pháp nhận diện và phân loại ảnh
Có 4 phương pháp trong lĩnh vực Computer vision cho việc phân loại ảnh đó là:
- Semantic segmentation: gom các pixel ảnh có ngữ cảnh như đường phố, xe cộ, cây cối, con người,…thành 1 nhóm màu sắc riêng biệt và phân biệt với các đối tượng còn lại. Cách này chỉ dùng cho ảnh có duy nhất 1 đối tượng chính.
- Classification + localization: Vẽ một vùng giới hạn (hình chữ nhật) bao quanh khi phát hiện đối tượng gọi là bounding box. Nhưng cách này chỉ dùng trong ảnh có duy nhất 1 đối tượng chính
- Object Detection: Vẽ nhiều vùng giới hạn (hình chữ nhật) bao quanh khi phát hiện nhiều đối tượng gọi là các bounding box. Cách này dùng cho ảnh có nhiều đối tượng.
- Instance segmentation: gom các pixel ảnh của các đối tượng chính và khoanh vùng chi tiết bao quanh các đối tượng đó. Cách này có thể phân loại nhiều đối tượng trong 1 ảnh.
Sự khác nhau giữa instance segmentation và semantic segmentation?
Segmentation nghĩa là phân nhóm, phân đoạn.
Instance segmentation, mục tiêu là phát hiện các đối tượng cụ thể trong ảnh vào tạo ra các “marks” bao quanh chi tiết xung quanh đối tượng quan tâm.
sematic segmentation, cố gắng phân đoạn từng pixel trong ảnh không nhằm mục đích gán nhãn cho mỗi pixel trong ảnh.
Ví dụ: Ứng dụng splash of color trong bài toán phân loại màu sắc bóng bay
1. Classification + localization: Nhận diện thấy trong ảnh có 1 đối tượng duy nhất là quả bóng bay
2. Sematic segmentation: Nhận diện thấy trong ảnh có 1 đối tượng duy nhất là quả bóng bay và khoanh vùng chi tiết cho đối tượng quả bóng bay
3. Object detection: Do bản chất là multi object detection nên đã phân biệt được trong ảnh có 7 quả bóng bay đồng thời vẽ được một hộp giới hạn bao quanh đối tượng có vị trí riêng biệt (location), tuy nhiên các đối tượng chồng chéo lên nhau.
4. Instance Segmentation (= Semantic segmentation + Object detection): Nhận diện được 7 quả bóng bay và vẽ khoanh vùng chi tiết các pixel của từng đối tượng bóng bay có màu sắc khác nhau.
Một số thuật toán phân loại ảnh phổ biến cho 4 phương pháp trên:
Nguồn: