Mong được cộng đồng khai sáng về khái niệm decay trong các đồ thị learning curve? :3?

  1. Trí tuệ nhân tạo

Từ khóa: 

trí tuệ nhân tạo

Theo hiểu biêt của mình thì learning rate decay là 1 phương pháp điều chỉnh learning rate qua mỗi bước update các tham số của mô hình. Thay vì fix giá trị learning rate đồng nghĩa với việc coi mỗi bước update đều có đóng góp tương đương nhau tới mô hình cuối, ta có thể điều chỉnh giá trị của nó đề điều chỉnh mức độ đóng góp của từng bước update. Ví dụ như ta thường muốn các gradient ở những bước đầu tiên có giá trị lớn (learning rate lớn) để mô hình nhanh hội tụ nhưng khi đã tiến gần hơn đến điểm tối ưu, ta lại muốn các gradient này có giá trị nhỏ đi (learning rate nhỏ) để tiến dần dần tới điểm tối ưu mà không vượt quá nó. Một cách để thực hiện điều này là tại mỗi bước update, ta sẽ cập nhật lại learning rate dựa theo số lượt update đã hoàn thành theo một tỷ lệ nào đó. Tỷ lệ này được gọi là decay rate và sẽ đóng góp trực tiếp vào quá trình cập nhật learning rate. Chi tiết hơn bạn có thể tham khảo video của giáo sư Andrew Ng nhé :D


Trả lời

Theo hiểu biêt của mình thì learning rate decay là 1 phương pháp điều chỉnh learning rate qua mỗi bước update các tham số của mô hình. Thay vì fix giá trị learning rate đồng nghĩa với việc coi mỗi bước update đều có đóng góp tương đương nhau tới mô hình cuối, ta có thể điều chỉnh giá trị của nó đề điều chỉnh mức độ đóng góp của từng bước update. Ví dụ như ta thường muốn các gradient ở những bước đầu tiên có giá trị lớn (learning rate lớn) để mô hình nhanh hội tụ nhưng khi đã tiến gần hơn đến điểm tối ưu, ta lại muốn các gradient này có giá trị nhỏ đi (learning rate nhỏ) để tiến dần dần tới điểm tối ưu mà không vượt quá nó. Một cách để thực hiện điều này là tại mỗi bước update, ta sẽ cập nhật lại learning rate dựa theo số lượt update đã hoàn thành theo một tỷ lệ nào đó. Tỷ lệ này được gọi là decay rate và sẽ đóng góp trực tiếp vào quá trình cập nhật learning rate. Chi tiết hơn bạn có thể tham khảo video của giáo sư Andrew Ng nhé :D