Tổng quan về Data Science

Bất kỳ phần mềm nào cũng đều có dữ liệu (dữ liệu đầu vào, dữ liệu đầu ra), các phần mềm quản lý thì đều có CSDL quản lý, quản trị; các trang web đều có dữ liệu nội dung trang web, bài viết; các mạng xã hội đều lưu trữ hàng tỷ petabytes nội dung mỗi ngày…v.v. Nói như vậy cho thấy tầm quan trọng của dữ liệu, tuy nhiên không dừng lại ở đó, khi con người không ngừng lưu trữ thu thập dữ liệu đến một ngày họ nhận ra rằng đó không chỉ là những con số nội dung thô sơ mà nó là những con số biết nói, chỉ cần tập trung một chút vào phân tích, biểu diễn dữ liệu sẽ có cái nhìn chiều sâu, phát hiện ra rất nhiều điều như vấn đề nội tại của một doanh nghiệp, quan hệ khách hàng ra sao, biết được điểm yếu, điểm mạnh thế nào từ đó có thể dự đoán khách quan được tình hình và đưa ra các chiến lược quyết sách trong tương lai…v.v. Có thể nói ngày nay có dữ liệu là có tất cả, hầu hết các phần mềm, phần cứng trên thế giới hiện nay đều thiết kế theo hướng dịch vụ và dữ liệu. Và dữ liệu nói chung, dữ liệu lớn (Big Data nói riêng) là một trong những trụ cột quan trọng của cuộc cách mạng công nghiệp 4.0 bên cạnh AI, Internet of Things, băng thông rộng. Chính vì vậy, những nghề liên quan đến dữ liệu là một trong những nghề IT hot nhất hiện nay và trong tương lai.

Chắc hẳn phần lớn trong chúng ta cảm thấy khá lạ lẫm, to tát khi nghe tới Data Science (khoa học về dữ liệu). Rốt cuộc nó có hoành tráng, phức tạp như cái từ nghĩa đen “khoa học dữ liệu” của nó không? Chúng ta từng nghe tới xác suất (Probability), thống kê (Statistic), Business Intelligence (BI), Data Warehouse rồi Big Data, Machine Learning, Deep Learning…v.v. Tất cả những lĩnh vực đó đều là phạm trù liên quan đến Data Science, điều này có nghĩa là để trở thành 01 data scientist thì bạn sẽ cần nắm được các lĩnh vực đó. Đến đây bạn đã thấy Data Science to tát và hấp dẫn chưa? Chúng ta bắt đầu khám phá về Data Science.

Hãy xem bức tranh toàn cảnh Infographic của Data Science:

Có tất cả 05 cột, trong đó 02 cột liên quan đến dữ liệu, 03 cột liên quan đến Data Science. Với mỗi cột ta sẽ đi trả lời các câu hỏi WHEN, WHAT, WHY, HOW, WHERE, WHO.

Đầu tiên, đối tượng chính của Data Science chính là dữ liệu, do đó ta cần hiểu data trong thế giới hiện nay là như thế nào. Dữ liệu hiện nay chia làm 02 loại: dữ liệu truyền thống và dữ liệu lớn.

  • Dữ liệu truyền thống: bao gồm dữ liệu các con số, văn bản biểu diễn dưới dạng các bảng trong CSDL quan hệ như CSDL người dùng – khách hàng, CSDL kho vật tư, CSDL lịch sử giá…v.v. Các phần mềm quản trị CSDL điển hình như SQL (Oracle, SQL Server, MySQL, DB2), Excel, IBM SPSS, ngôn ngữ lập trình: .NET, Java, C++, Python, Matlab…v.v. Những nghề nghiệp liên quan như: Data Engineer, Data Architect, Database Administration.
  • Dữ liệu lớn (Big Data): dữ liệu lớn lưu trữ và xử lý trong mạng xã hội, trong giao dịch tài chính bao gồm dữ liệu dạng số, dạng văn bản, dạng ảnh, dạng audio, dạng video. Dữ liệu lớn ở cả 03 cấp độ: dung lượng lớn (volume), tốc độ (velocity), sự đa dạng (varieties) . Các phần mềm quản lý và xử lý Big Data: Apache Hadoop, Escala, HBase, Python, R…v.v. Nghề nghiệp liên quan như Big Data Engineer, Big Data Architect.

Dữ liệu sau khi được tiền xử lý sẽ được đưa vào để phân tích. Đến đây bắt đầu là lĩnh vực của Data Science. Mục đích của Data Science là để phân tích dữ liệu trong quá khứ và nâng cao hơn 01 mức, dựa trên các phân tích đó để dự đoán được các kịch bản trong tương lai, dự đoán được hành vi bằng cách sử dụng các công nghệ của trí tuệ nhân tạo.

  • Business Intelligence: tập hợp các công cụ để phân tích dữ liệu trong quá khứ, biểu diễn dữ liệu dưới dạng biểu đồ, bảng điều khiển để thu được cái nhìn sâu sắc về những điều ẩn chứa bên trong dữ liệu (các chiều dữ liệu, thước đo về chỉ số hiệu năng KPI). BI thường được áp dụng trong phân tích tối ưu giá sản phẩm trong quan hệ khách hàng, quản lý kho vật tư, phân tích các dữ liệu về kinh tế. Các công cụ, phần mềm sử dụng trong BI: Datawarehouse (Oracle BI, Power BI), Tableau,  Excel, Python, R …v.v. Những nghề nghiệp liên quan bao gồm BI Analyst, BI Consultant, BI Developer.
  • Các công cụ, phương pháp dự đoán phân tích (ví dụ: phân tích thói quen người dùng để tự động gửi các quảng cáo, sản phẩm tương ứng; dự báo các mô hình kinh tế): bao gồm mô hình hóa dữ liệu đã phân tích theo hồi quy tuyến tính, phân loại chùm dữ liệu hay phân tích nhân tố. Các công cụ sử dụng như Python, R, Matlab, Eview, Escala, Stata. Những nghề nghiệp liên quan bao gồm Data Analyst, Data Scientist.
  • Sử dụng AI để đoán trước hành vi chưa từng xảy ra(ví dụ: tự động phát hiện gian lận trong các giao dịch tài chính, spam mail hay đưa ra các chiến lược giữ chân người dùng). Sử dụng các phương pháp của Machine Learning (học có giám sát, học không giám sát, học củng cố). Các công cụ sử dụng như Python, R, Matlab, …v.v. Những nghề nghiệp liên quan bao gồm: Data Scientist, Machine Learning Engineer.

Như vậy, bạn đã có cái nhìn tổng quan về ngành khoa học dữ liệu Data Science. Trong các phần tiếp theo, tôi sẽ đi sâu chi tiết vào từng lĩnh vực.

Thống kê dữ liệu trong Data Science

Phần lớn trong chúng ta đều biết não người khi tư duy có xu hướng chủ yếu sử dụng hình ảnh. Do đó, những ai giỏi sử dụng hình ảnh sẽ nhớ vấn đề rất lâu và tư duy nhanh nhạy. Nhà bác học Aristotle đã từng nói 03 cấp độ học “Bạn nói cho tôi, tôi sẽ không nhớ. Bạn chỉ cho tôi thấy, tôi sẽ nhớ. Bạn đưa tôi vào tình huống, tôi sẽ hiểu nó”. Chính vì vậy, một trong những công cụ hay được dùng để khai phá dữ liệu là biểu diễn nó dưới dạng hình ảnh, trong thống kê nó là các biểu đồ. Trong bài này, tôi sẽ giới thiệu với các bạn về phương pháp thống kê, cảm nhận chiều sâu của dữ liệu sử dụng các biểu đồ trong Business Intelligence Reporting.

Nhắc đến các biểu đồ thống kê, các bạn nghĩ ngay đến các biểu đồ hình cột, hình quạt để thống kê các số liệu theo nhóm chủ đề nào đó. Ví dụ, thống kê dân số, GDP của từng tỉnh/thành phố; thống kê số lượng dân số theo nhóm tuổi…v.v. Khi phân loại đo lường thống kê thì chia làm các loại sau:

  • Nhóm theo chất lượng (phân theo các nhóm chủ đề cụ thể):
    • Nominal: các chủ đề không sắp xếp theo thứ tự được như Đông, Xuân, Hạ, Thu…v.v)
    • Ordinal: các chủ đề có thể sắp xếp được như phân loại mức độ hài lòng (không hài lòng, bình thường, hài lòng, rất hài lòng)
  • Nhóm theo số lượng (phân theo khoảng giá trị nào đó):
    • Interval: khoảng giá trị trong đó không có giá trị 0 tuyệt đối (ví dụ: nhóm tuổi từ 01 tháng tuổi đến – 03 tuổi; 4 – 6; 7 – 12;….v.v)
    • Ratio: khoảng giá trị trong đó có giá trị 0 tuyệt đối (ví dụ: nhiệt độ Kevin). Thực ra chia 02 loại Interval với Ratio không mang nhiều ý nghĩa lắm.

  1. Các biểu đồ cơ bản:

03 biểu đồ cơ bản: Bars, Pie Chart và Pareto nêu trên biểu diễn thị phần của 03 hãng xe nổi tiếng của Đức (Audi, BMW, Mercedes).

  • Biểu đồ hình cột dễ hình dung nhất về quy mô, so sánh thị phần giữa các hãng xe.
  • Biểu đồ hình quạt (Pie chart) cho thấy miếng bánh của thị trường chia như nào.
  • Biểu đồ Pareto về cơ bản là kết hợp của 02 biểu đồ cột và đường lũy kế các tỷ lệ. Lưu ý trong Pareto thì trước khi vẽ các cột thì phải sắp xếp theo thứ tự giảm dần, đồng thời tính tỷ lệ phần trăm tương ứng. Khi phân tích Pareto cần đặc biệt chú ý nguyên tắc 80 – 20 (20% người làm phần việc của 80% người còn lại hay 20% công ty chiếm 80% doanh thu), theo đó kẻ 01 đường ngang từ 80% sẽ thấy cắt ở cột Audi. Một hãng xe nào đó muốn chiếm lĩnh thị trường, hay chính phủ muốn áp đặt chính sách nào đó, chỉ cần áp đặt lên hãng Audi sẽ có hiệu quả cao.

2. Biểu đồ Histogram:

Bao gồm các cột hiển thị tần suất xuất hiện liên tục của một nhóm đại lượng nào đó. Rất hữu ích trong trường hợp cần phát hiện, phân tích sự phân bố tập trung, cường độ xuất hiện của một nhóm đại lượng. Ví dụ: trong các phần mềm chụp ảnh, xử lý ảnh các bạn đều thấy có biểu đồ Historgram mô tả sự phân bố điểm ảnh theo độ sáng.

Histogram biểu thị ánh sáng tăng dần từ trái qua phải. Trục dọc biểu diễn số lượng điểm ảnh, các đỉnh càng cao thì càng có nhiều điểm ảnh ở khu vực đó và độ chi tiết càng nhiều. Trục ngang tính từ trái qua phải với mốc giá trị từ 0 đến 255 biểu diễn độ sáng của mỗi khu vực ảnh. Gốc giá trị 0 được coi là tối nhất tương ứng màu đen trong khi càng dịch sang phải giá trị này càng tăng, ngọn sáng nhất của ánh sáng ở giá trị 255. Khu vực giữa hai giá trị này có độ sáng trung bình. 

Nếu một bức ảnh mà có nhiều điểm ảnh ở khu vực sáng (255) thì ảnh đó sáng quá, ngược lại nhiều điểm ảnh ở khu vực tối thì ảnh đó thiếu sáng, tối quá. Một bức ảnh có độ sáng chuẩn là bức ảnh có dạng hình quả núi đối xứng như hình vẽ ở trên.

3. Biểu đồ cross tables:

Trong trường hợp muốn so sánh giá trị của một số ít nhóm chủ đề trong một biểu đồ, chúng ta hay sử dụng biểu đồ gộp nhiều cột.

Ví dụ, cần so sánh lượng đầu tư của các nhà đầu tư vào các lĩnh vực bất động sản, cổ phiếu hay trái phiếu.

4. Biểu đồ Scater plot:

Trong trường hợp muốn xác định mối quan hệ giữa 02 đại lượng, nhóm chủ đề, chúng ta hay sử dụng biểu đồ Scater ví dụ: giá nhà có liên quan đến diện tích nhà hay không? rượu bia có liên quan đến tỷ lệ tai nạn giao thông hay không…v.v.