Dự đoán emoji sử dụng Time Embeddings
Với sự phổ biến của mạng xã hội, hình thức giao tiếp bằng các icon biểu cảm (emojis) cũng rất được ưa chuông như một cách diễn đạt cảm xúc mà không cần phải viết thành lời. Bài viết này sẽ phân tích về cách sử dụng của emoji và những ý nghĩa chúng qua thời gian, từ đó xây dựng một mô hình dự đoán emoji sử dụng các thông tin về thời gian.
Mối liên hệ giữa emoji và thời gian
Đã có nhiều bài báo khoa học nghiên cứu về các phương pháp dự đoán emoji trong quá khứ, tuy nhiên chưa có bài báo nào sử dụng các thông tin về thời gian. Sự tương quan về thời gian giữa emoji và các sự kiện thực sẽ được khám phá và sử dụng để phân tích ý nghĩa đằng sau các emoji.
Lấy ví dụ về emoji cỏ ba lá: 🍀 thường được sử dụng như một biểu tượng chúc may mắn ở mọi thời điểm trong năm trừ tháng 3, khi mà trong thời gian này nó được sử dụng như một hình ảnh liên quan tới tiệc tùng do ngày Ngày thánh Patriciô (St. Patrick day) xảy ra vào tháng 3.
Dữ liệu
Dữ liệu về Twitter được sử dụng 100 triệu các tweet đến từ Mỹ và được sắp xếp như sau:
- Dữ liệu emoji theo mùa: Được chia thành 4 phần tương ứng: Xuân - Hạ - Thu - Đông
- Dữ liệu dự đoán emoji: Gồm những tweet có chứa 1 emoji thuộc về 300 emoji xuất hiện nhiều nhất.
Phân tích tác dụng và ý nghĩa của emoji
Mô hình Skip-gram embeddings được huấn luyện sử dụng 4 phần của tập dữ liệu emoji theo mùa. Mô hình này sẽ cung cấp những thông tin về độ tương đồng trong ngữ nghĩa của các emoji. Bằng các so sánh top 10 emoji có độ tương đồng cao nhất của từng emoji trong không gian embedding, ta khám phá được rằng những emoji liên quan đến những chủ đề như: âm nhạc, động vật và cảm xúc sẽ không bị ảnh hưởng bởi thời gian. Ngược lại, những emoji có liên quan đến thể thao có ý nghĩa bị ảnh hưởng khá nhiều bởi thời gian. Những emoji có liên quan đến trường học cũng tương tự: Trong mùa xuân nó thường mang ý nghĩa tiệc tùng, còn trong mùa thu thì quay về ý nghĩa vốn có là học tập. Một trường hợp rất thú vị là emoji cây thông 🌲 có ý nghĩa thay đổi khá nhiều phụ thuộc vào thời gian. Hình dưới là top 10 những emoji tương đồng nhất với emoji cây thông theo 4 mùa:
Dự đoán emoji
Tập dữ liệu emoji thứ hai gồm 300 emoji và khoảng 900,000 tweet với tỷ lệ 3,000 tweet/emoji. Kiến trúc của mô hình dự đoán emoji như sau: Đầu tiên là các lớp embedding gồm character embedding, word embedding và date embedding. Chúng sẽ được kết hợp với nhau theo 2 cách tiếp cận: kết hợp sớm(Early) và kết hợp muộn(Late) tại 2 giai đoạn tạo thành 2 mô hình khác nhau. Một mô hình thứ 3(W/O) được huấn luyện với dữ liệu date embedding được cố định. Về chi tiết từng thành phần của mô hình, các bạn có thể tham khảo tại
Kết quả
Mô hình được đánh giá qua những thông số về Precision, Recall và điểm F1 như sau:
Có thể thấy được rằng mô hình sử dụng cách tiếp cận kết hợp sớm các thông tin về thời gian cho kết quả tốt hơn 2 mô hình còn lại. Các emoji có chỉ số F1 cao được biểu diễn bằng hình dưới đây:
Có thể thấy được rằng nhiều emoji (🍀) đều thuộc những khoảng thời gian cụ thể, từ đó cho thấy sự quan trọng của những thông tin về thời gian đối với ý nghĩa của các emoji.