Data Science mini-course (1)

  1. Giáo dục

Chia sẻ với các bạn khóa học nhỏ cơ bản về Data Science từ elitedatascience.com, đây là một khóa học nhỏ khá cơ bản và dễ hiểu về công việc Data Science và học máy :).

Học máy # Giải thuật

Đầu tiên chúng ta cần làm rõ với nhau học máy không phải là thứ chỉ bao gồm giải thuật. Học máy là một phương thức tổng thế được sử dụng để giải quyết bài toán, và trong đó các thuật toán chỉ là các miếng lắp ghép trong tổng thể, phần còn lại phụ thuộc vào các bạn áp dụng nó theo một cách đúng đắn.

No to grocery lists

Điều gì khiến cho học máy trở lên đặc biệt?

Học máy là cách thức dạy cho máy tính học các khuôn mẫu (patterns) từ dữ liệu, thông thường dùng để ra quyết định hay dự đoán. Để học máy thực sự, máy tính phải có khả năng học các mẫu mà nó không được lập trình rõ ràng để xác định.

Ví dụ: Đứa trẻ tò mò

Đứa trẻ nhỏ chơi trong nhà và thấy một cây nến đang cháy. Nó tò mò chạm tay vào ngọn lửa và "Á", nó kêu đau và rụt tay lại "Thứ đỏ và sáng này làm đau!".

Ooh a candle!

Hai ngày sau, cậu bé chơi trong nhà bếp và nhìn thấy cái mặt bếp. Tò mò cậu bé lại muốn đặt bàn tay lên trên, nhưng đột nhiên nó nghĩ thứ này cũng đỏ và sáng. Cậu bé quyết định là không chạm vào nó nữa, cậu đã nhớ được rằng đỏ và sáng có nghĩa là đau.

Nope to stovetop

Như vậy, có thể thấy rằng cậu bé đã trải qua quá trình "học máy", học được mẫu từ ngọn nến, cậu bé biết rằng "đỏ và sáng là sẽ bị đau". Mặt khác, nếu cậu ta bỏ qua mặt bếp đơn giản chỉ vì cha mẹ cậu cảnh báo, đó sẽ là "lập trình rõ ràng" thay vì học máy.

Một số thuật ngữ chính

  • Model - một tập hợp các mẫu đã được học từ dữ liệu.
  • Algorithm - một quá trình học máy cụ thể sử dụng để huấn luyện mô hình.
  • Training data - tập dữ liệu (dataset) để từ giải thuật (algorithm) có thể học được thành mô hình (model)
  • Test data - một tập dữ liệu khác có thể tin cậy được để đánh giá mô hình.
  • Features - Các biến (các cột) trong tập dữ liệu sử dụng để huấn luyện mô hình.
  • Target variable - Một biến cụ thể mà bạn muốn dự đoán.
  • Observations - Các điểm dữ liệu - data points (hay các hàng) trong tập dữ liệu.

Ví dụ: Tập dữ liệu học sinh tiểu học

Primary School Example Terminology

Như ví dụ, bạn có tập dữ liệu gồm thông tin của 150 học sinh, và bạn muốn dự đoán chiều cao của học sinh dựa trên tuổi, giới tínhcân nặng ...

  • Bạn có 150 observations...
  • 1 target variable (Chiều cao)...
  • 3 features (Tuổi, Giới tính, Cân nặng)...
  • Bạn có thể chia tập dữ liệu ra thành 02 tập con:
  1. Tập gồm 120 học sinh sử dụng để huấn luyện (training set)
  2. Tập gồm 30 học sinh sử dụng để kiểm thử mô hình nào tốt nhất (test set)

(Còn nữa)

Từ khóa: 

data mining

,

giáo dục