Các khái niệm Generalization, Overfitting, Underfitting và Trade-Off trong Machine Learning

Trong Supervised Machine Learning, chúng ta cố gắng đi tìm mô hình dự đoán chính xác nhất có thể dựa trên dữ liệu thu thập được trong quá khứ để có thể đoán được chính xác kết quả của dữ liệu mới, chưa từng gặp trong tương lai.

1.Generalization

Nếu một mô hình dự đoán được chính xác phần lớn các trường hợp của dữ liệu mới thì ta gọi đó là mô hình đạt được độ khái quát hóa (generalization).

2. Overfitting

Trong thực tế có rất nhiều biến số trong cuộc sống, việc đi tìm các mô hình không đơn giản, không phải lúc nào cũng tìm được generalization. Ví dụ: 01 công ty kinh doanh du thuyền muốn dự đoán một khách hàng nào có khả năng mua du thuyền cao nhất dựa trên dữ liệu về khách hàng đã mua du thuyền được thu thập và phân tích đặc tính trước đó.

TuổiSố ô tô sở hữuCó nhà riêngSố người conTình trạng hôn nhânCó nuôi chóCó mua du thuyền
6612Góa chồngKhông
5223Đã cướiKhông
220Không0Đã cướiKhông
251Không1Độc thânKhôngKhông
440Không2Li dịKhông
3912Đã cướiKhông
261Không2Độc thânKhôngKhông
4031Đã cướiKhông
5322Li dịKhông
6423Li dịKhôngKhông
5822Đã cưới
331Không1Độc thânKhôngKhông

Sau khi phân tích dữ liệu, một số nhà phân tích ít kinh nghiệm đưa ra quy tắc: “Nếu khách hàng trên 45, có nhỏ hơn 03 con hoặc chưa từng li dị thì có khả năng mua du thuyền”. Họ cho rằng quy tắc này đúng 100%. Quy tắc trên là khá phức tạp nhiều biến số dựa trên lượng dữ liệu quá ít làm cho các nhà phân tích trẻ chủ quan rằng quy tắc quá hoàn hảo. Khi đó, chúng ta gọi mô hình này xảy ra là overfitting. Overfitting xảy ra khi xây dựng một mô hình quá phức tạp để khớp với một lượng dữ liệu training không đủ, dẫn tới mô hình này lại không thể khớp với dữ liệu mới trong thực tế.

3. Underfitting

Ngược lại với Overfitting là khi cảm thấy quá phức tạp, chúng ta bỏ bớt các biến số, đơn giản hóa mô hình nhưng đơn giản quá đến mức không bao quát được hết các biến số trong thực tế. Khi đó ta gọi mô hình này xảy ra underfitting. Ví dụ: “Những ai mua nhà thì sẽ mua du thuyền”.

4. Trade-Off

Có một điểm vàng (sweet spot) ở giữa Overfitting và Underfitting, ở đó chúng ta đạt mức độ generalization cao nhất. Điểm này gọi là điểm thỏa thuận, chấp nhận được (Trade – Off). Điểm này nhắc cho chúng ta nhân sinh quan trong cuộc sống, cái gì nhiều quá cũng không tốt mà ít quá cũng không được, cần nỗ lực không ngừng nhưng cần biết điểm dừng vừa đủ mới là tốt. Đó cũng là triết lý của tự nhiên.