Các khái niệm Generalization, Overfitting, Underfitting và Trade-Off trong Machine Learning

Trong Supervised Machine Learning, chúng ta cố gắng đi tìm mô hình dự đoán chính xác nhất có thể dựa trên dữ liệu thu thập được trong quá khứ để có thể đoán được chính xác kết quả của dữ liệu mới, chưa từng gặp trong tương lai.

1.Generalization

Nếu một mô hình dự đoán được chính xác phần lớn các trường hợp của dữ liệu mới thì ta gọi đó là mô hình đạt được độ khái quát hóa (generalization).

2. Overfitting

Trong thực tế có rất nhiều biến số trong cuộc sống, việc đi tìm các mô hình không đơn giản, không phải lúc nào cũng tìm được generalization. Ví dụ: 01 công ty kinh doanh du thuyền muốn dự đoán một khách hàng nào có khả năng mua du thuyền cao nhất dựa trên dữ liệu về khách hàng đã mua du thuyền được thu thập và phân tích đặc tính trước đó.

Tuổi Số ô tô sở hữu Có nhà riêng Số người con Tình trạng hôn nhân Có nuôi chó Có mua du thuyền
66 1 2 Góa chồng Không
52 2 3 Đã cưới Không
22 0 Không 0 Đã cưới Không
25 1 Không 1 Độc thân Không Không
44 0 Không 2 Li dị Không
39 1 2 Đã cưới Không
26 1 Không 2 Độc thân Không Không
40 3 1 Đã cưới Không
53 2 2 Li dị Không
64 2 3 Li dị Không Không
58 2 2 Đã cưới
33 1 Không 1 Độc thân Không Không

Sau khi phân tích dữ liệu, một số nhà phân tích ít kinh nghiệm đưa ra quy tắc: “Nếu khách hàng trên 45, có nhỏ hơn 03 con hoặc chưa từng li dị thì có khả năng mua du thuyền”. Họ cho rằng quy tắc này đúng 100%. Quy tắc trên là khá phức tạp nhiều biến số dựa trên lượng dữ liệu quá ít làm cho các nhà phân tích trẻ chủ quan rằng quy tắc quá hoàn hảo. Khi đó, chúng ta gọi mô hình này xảy ra là overfitting. Overfitting xảy ra khi xây dựng một mô hình quá phức tạp để khớp với một lượng dữ liệu training không đủ, dẫn tới mô hình này lại không thể khớp với dữ liệu mới trong thực tế.

3. Underfitting

Ngược lại với Overfitting là khi cảm thấy quá phức tạp, chúng ta bỏ bớt các biến số, đơn giản hóa mô hình nhưng đơn giản quá đến mức không bao quát được hết các biến số trong thực tế. Khi đó ta gọi mô hình này xảy ra underfitting. Ví dụ: “Những ai mua nhà thì sẽ mua du thuyền”.

4. Trade-Off

Có một điểm vàng (sweet spot) ở giữa Overfitting và Underfitting, ở đó chúng ta đạt mức độ generalization cao nhất. Điểm này gọi là điểm thỏa thuận, chấp nhận được (Trade – Off). Điểm này nhắc cho chúng ta nhân sinh quan trong cuộc sống, cái gì nhiều quá cũng không tốt mà ít quá cũng không được, cần nỗ lực không ngừng nhưng cần biết điểm dừng vừa đủ mới là tốt. Đó cũng là triết lý của tự nhiên.

0 Comments