Với việc thiếu dữ liệu được gắn nhãn và rất nhiều dữ liệu chưa được gắn nhãn, những thuật toán unsupervised/semi-supervised learning nào có thế sử dụng được trong các bài toán NLP?

  1. Trí tuệ nhân tạo

Với việc thiếu dữ liệu được gắn nhãn và rất nhiều dữ liệu chưa được gắn nhãn, những thuật toán unsupervised/semi-supervised learning nào có thế sử dụng được trong các bài toán NLP?

Từ khóa: 

trí tuệ nhân tạo

Mình thấy cách đơn giản để mở rộng tập dữ liệu là dùng học máy có giám sát xây dựng ra một mô hình học từ tập dữ liệu gán nhãn đã có, sau đó sử dụng mô hình này gán nhãn cho dữ liệu mới. Tiếp theo ta lại đi rà lại dữ liệu mới này và lặp lại qúa trình trên để có được một tập dữ liệu đủ lớn.

Trả lời

Mình thấy cách đơn giản để mở rộng tập dữ liệu là dùng học máy có giám sát xây dựng ra một mô hình học từ tập dữ liệu gán nhãn đã có, sau đó sử dụng mô hình này gán nhãn cho dữ liệu mới. Tiếp theo ta lại đi rà lại dữ liệu mới này và lặp lại qúa trình trên để có được một tập dữ liệu đủ lớn.