Thống kê dữ liệu trong Data Science

Phần lớn trong chúng ta đều biết não người khi tư duy có xu hướng chủ yếu sử dụng hình ảnh. Do đó, những ai giỏi sử dụng hình ảnh sẽ nhớ vấn đề rất lâu và tư duy nhanh nhạy. Nhà bác học Aristotle đã từng nói 03 cấp độ học “Bạn nói cho tôi, tôi sẽ không nhớ. Bạn chỉ cho tôi thấy, tôi sẽ nhớ. Bạn đưa tôi vào tình huống, tôi sẽ hiểu nó”. Chính vì vậy, một trong những công cụ hay được dùng để khai phá dữ liệu là biểu diễn nó dưới dạng hình ảnh, trong thống kê nó là các biểu đồ. Trong bài này, tôi sẽ giới thiệu với các bạn về phương pháp thống kê, cảm nhận chiều sâu của dữ liệu sử dụng các biểu đồ trong Business Intelligence Reporting.

Nhắc đến các biểu đồ thống kê, các bạn nghĩ ngay đến các biểu đồ hình cột, hình quạt để thống kê các số liệu theo nhóm chủ đề nào đó. Ví dụ, thống kê dân số, GDP của từng tỉnh/thành phố; thống kê số lượng dân số theo nhóm tuổi…v.v. Khi phân loại đo lường thống kê thì chia làm các loại sau:

  • Nhóm theo chất lượng (phân theo các nhóm chủ đề cụ thể):
    • Nominal: các chủ đề không sắp xếp theo thứ tự được như Đông, Xuân, Hạ, Thu…v.v)
    • Ordinal: các chủ đề có thể sắp xếp được như phân loại mức độ hài lòng (không hài lòng, bình thường, hài lòng, rất hài lòng)
  • Nhóm theo số lượng (phân theo khoảng giá trị nào đó):
    • Interval: khoảng giá trị trong đó không có giá trị 0 tuyệt đối (ví dụ: nhóm tuổi từ 01 tháng tuổi đến – 03 tuổi; 4 – 6; 7 – 12;….v.v)
    • Ratio: khoảng giá trị trong đó có giá trị 0 tuyệt đối (ví dụ: nhiệt độ Kevin). Thực ra chia 02 loại Interval với Ratio không mang nhiều ý nghĩa lắm.

  1. Các biểu đồ cơ bản:

03 biểu đồ cơ bản: Bars, Pie Chart và Pareto nêu trên biểu diễn thị phần của 03 hãng xe nổi tiếng của Đức (Audi, BMW, Mercedes).

  • Biểu đồ hình cột dễ hình dung nhất về quy mô, so sánh thị phần giữa các hãng xe.
  • Biểu đồ hình quạt (Pie chart) cho thấy miếng bánh của thị trường chia như nào.
  • Biểu đồ Pareto về cơ bản là kết hợp của 02 biểu đồ cột và đường lũy kế các tỷ lệ. Lưu ý trong Pareto thì trước khi vẽ các cột thì phải sắp xếp theo thứ tự giảm dần, đồng thời tính tỷ lệ phần trăm tương ứng. Khi phân tích Pareto cần đặc biệt chú ý nguyên tắc 80 – 20 (20% người làm phần việc của 80% người còn lại hay 20% công ty chiếm 80% doanh thu), theo đó kẻ 01 đường ngang từ 80% sẽ thấy cắt ở cột Audi. Một hãng xe nào đó muốn chiếm lĩnh thị trường, hay chính phủ muốn áp đặt chính sách nào đó, chỉ cần áp đặt lên hãng Audi sẽ có hiệu quả cao.

2. Biểu đồ Histogram:

Bao gồm các cột hiển thị tần suất xuất hiện liên tục của một nhóm đại lượng nào đó. Rất hữu ích trong trường hợp cần phát hiện, phân tích sự phân bố tập trung, cường độ xuất hiện của một nhóm đại lượng. Ví dụ: trong các phần mềm chụp ảnh, xử lý ảnh các bạn đều thấy có biểu đồ Historgram mô tả sự phân bố điểm ảnh theo độ sáng.

Histogram biểu thị ánh sáng tăng dần từ trái qua phải. Trục dọc biểu diễn số lượng điểm ảnh, các đỉnh càng cao thì càng có nhiều điểm ảnh ở khu vực đó và độ chi tiết càng nhiều. Trục ngang tính từ trái qua phải với mốc giá trị từ 0 đến 255 biểu diễn độ sáng của mỗi khu vực ảnh. Gốc giá trị 0 được coi là tối nhất tương ứng màu đen trong khi càng dịch sang phải giá trị này càng tăng, ngọn sáng nhất của ánh sáng ở giá trị 255. Khu vực giữa hai giá trị này có độ sáng trung bình. 

Nếu một bức ảnh mà có nhiều điểm ảnh ở khu vực sáng (255) thì ảnh đó sáng quá, ngược lại nhiều điểm ảnh ở khu vực tối thì ảnh đó thiếu sáng, tối quá. Một bức ảnh có độ sáng chuẩn là bức ảnh có dạng hình quả núi đối xứng như hình vẽ ở trên.

3. Biểu đồ cross tables:

Trong trường hợp muốn so sánh giá trị của một số ít nhóm chủ đề trong một biểu đồ, chúng ta hay sử dụng biểu đồ gộp nhiều cột.

Ví dụ, cần so sánh lượng đầu tư của các nhà đầu tư vào các lĩnh vực bất động sản, cổ phiếu hay trái phiếu.

4. Biểu đồ Scater plot:

Trong trường hợp muốn xác định mối quan hệ giữa 02 đại lượng, nhóm chủ đề, chúng ta hay sử dụng biểu đồ Scater ví dụ: giá nhà có liên quan đến diện tích nhà hay không? rượu bia có liên quan đến tỷ lệ tai nạn giao thông hay không…v.v.