NLP cho Tiếng Việt khó hơn Tiếng Anh?

  1. Trí tuệ nhân tạo

Cho em hỏi một câu hơi ngơ chút. Em thử google một vài kết quả và thấy điểm F1 cho các bài toán NLP (như POS tagging, chunking, NER) cho tiếng việt đều thấp hơn tiếng anh. Điều gì khiến cho tiếng việt đạt kết quả không cao bằng? Các thuật toán state of the art cho tiếng anh đều được public, tại sao chúng ta không thể áp dụng nhưng phương pháp này với độ hiệu quả tương đương?

Từ khóa: 

trí tuệ nhân tạo

Theo mình thì có những vấn đề căn bản như:

  • Dữ liệu NLP cho tiếng Việt rất ít
  • Đại học ko giảng dạy, sinh viên trong nước cũng ít người biết đến mà chủ yếu quan tâm đến code thuần.
  • Các SV giỏi ra nước ngoài thì làm cho các ông lớn Google cũng ko ngu gì đi làm cho 1 nước còn kém phát triển như mình bây giờ

=> vấn đề là tiền đầu tư & nguồn nhân lực

Trả lời

Theo mình thì có những vấn đề căn bản như:

  • Dữ liệu NLP cho tiếng Việt rất ít
  • Đại học ko giảng dạy, sinh viên trong nước cũng ít người biết đến mà chủ yếu quan tâm đến code thuần.
  • Các SV giỏi ra nước ngoài thì làm cho các ông lớn Google cũng ko ngu gì đi làm cho 1 nước còn kém phát triển như mình bây giờ

=> vấn đề là tiền đầu tư & nguồn nhân lực

Vì mấy lý do:

  • Quan trọng nhất là cộng đồng xây dựng cho tiếng việt quá ít. Tiếng anh thì nhiều, rất nhiều luôn.
  • Tiếng việt ít được đầu tư, ứng dụng tiếng việt vào đời sống trong nước hạn chế. Tiếng anh có nhiều ứng dụng hơn.
  • Tiếng việt có dấu và đa nghĩa. Tiếng anh thì dùng Space làm ngăn cách nghĩa.
  • Tiếng anh nhiều quy luật tổng quát hơn tiếng việt
  • Tiếng anh lưu trữ tiết kiệm và quy tắc phát âm cũng dễ hơn tiếng việt. Nên các lĩnh vực NLP, Speech-To-Text, Text-To-Speech phát triển hơn
  • ....