Tổng quan về Data Science

Bất kỳ phần mềm nào cũng đều có dữ liệu (dữ liệu đầu vào, dữ liệu đầu ra), các phần mềm quản lý thì đều có CSDL quản lý, quản trị; các trang web đều có dữ liệu nội dung trang web, bài viết; các mạng xã hội đều lưu trữ hàng tỷ petabytes nội dung mỗi ngày…v.v. Nói như vậy cho thấy tầm quan trọng của dữ liệu, tuy nhiên không dừng lại ở đó, khi con người không ngừng lưu trữ thu thập dữ liệu đến một ngày họ nhận ra rằng đó không chỉ là những con số nội dung thô sơ mà nó là những con số biết nói, chỉ cần tập trung một chút vào phân tích, biểu diễn dữ liệu sẽ có cái nhìn chiều sâu, phát hiện ra rất nhiều điều như vấn đề nội tại của một doanh nghiệp, quan hệ khách hàng ra sao, biết được điểm yếu, điểm mạnh thế nào từ đó có thể dự đoán khách quan được tình hình và đưa ra các chiến lược quyết sách trong tương lai…v.v. Có thể nói ngày nay có dữ liệu là có tất cả, hầu hết các phần mềm, phần cứng trên thế giới hiện nay đều thiết kế theo hướng dịch vụ và dữ liệu. Và dữ liệu nói chung, dữ liệu lớn (Big Data nói riêng) là một trong những trụ cột quan trọng của cuộc cách mạng công nghiệp 4.0 bên cạnh AI, Internet of Things, băng thông rộng. Chính vì vậy, những nghề liên quan đến dữ liệu là một trong những nghề IT hot nhất hiện nay và trong tương lai.

Chắc hẳn phần lớn trong chúng ta cảm thấy khá lạ lẫm, to tát khi nghe tới Data Science (khoa học về dữ liệu). Rốt cuộc nó có hoành tráng, phức tạp như cái từ nghĩa đen “khoa học dữ liệu” của nó không? Chúng ta từng nghe tới xác suất (Probability), thống kê (Statistic), Business Intelligence (BI), Data Warehouse rồi Big Data, Machine Learning, Deep Learning…v.v. Tất cả những lĩnh vực đó đều là phạm trù liên quan đến Data Science, điều này có nghĩa là để trở thành 01 data scientist thì bạn sẽ cần nắm được các lĩnh vực đó. Đến đây bạn đã thấy Data Science to tát và hấp dẫn chưa? Chúng ta bắt đầu khám phá về Data Science.

Hãy xem bức tranh toàn cảnh Infographic của Data Science:

Có tất cả 05 cột, trong đó 02 cột liên quan đến dữ liệu, 03 cột liên quan đến Data Science. Với mỗi cột ta sẽ đi trả lời các câu hỏi WHEN, WHAT, WHY, HOW, WHERE, WHO.

Đầu tiên, đối tượng chính của Data Science chính là dữ liệu, do đó ta cần hiểu data trong thế giới hiện nay là như thế nào. Dữ liệu hiện nay chia làm 02 loại: dữ liệu truyền thống và dữ liệu lớn.

  • Dữ liệu truyền thống: bao gồm dữ liệu các con số, văn bản biểu diễn dưới dạng các bảng trong CSDL quan hệ như CSDL người dùng – khách hàng, CSDL kho vật tư, CSDL lịch sử giá…v.v. Các phần mềm quản trị CSDL điển hình như SQL (Oracle, SQL Server, MySQL, DB2), Excel, IBM SPSS, ngôn ngữ lập trình: .NET, Java, C++, Python, Matlab…v.v. Những nghề nghiệp liên quan như: Data Engineer, Data Architect, Database Administration.
  • Dữ liệu lớn (Big Data): dữ liệu lớn lưu trữ và xử lý trong mạng xã hội, trong giao dịch tài chính bao gồm dữ liệu dạng số, dạng văn bản, dạng ảnh, dạng audio, dạng video. Dữ liệu lớn ở cả 03 cấp độ: dung lượng lớn (volume), tốc độ (velocity), sự đa dạng (varieties) . Các phần mềm quản lý và xử lý Big Data: Apache Hadoop, Escala, HBase, Python, R…v.v. Nghề nghiệp liên quan như Big Data Engineer, Big Data Architect.

Dữ liệu sau khi được tiền xử lý sẽ được đưa vào để phân tích. Đến đây bắt đầu là lĩnh vực của Data Science. Mục đích của Data Science là để phân tích dữ liệu trong quá khứ và nâng cao hơn 01 mức, dựa trên các phân tích đó để dự đoán được các kịch bản trong tương lai, dự đoán được hành vi bằng cách sử dụng các công nghệ của trí tuệ nhân tạo.

  • Business Intelligence: tập hợp các công cụ để phân tích dữ liệu trong quá khứ, biểu diễn dữ liệu dưới dạng biểu đồ, bảng điều khiển để thu được cái nhìn sâu sắc về những điều ẩn chứa bên trong dữ liệu (các chiều dữ liệu, thước đo về chỉ số hiệu năng KPI). BI thường được áp dụng trong phân tích tối ưu giá sản phẩm trong quan hệ khách hàng, quản lý kho vật tư, phân tích các dữ liệu về kinh tế. Các công cụ, phần mềm sử dụng trong BI: Datawarehouse (Oracle BI, Power BI), Tableau,  Excel, Python, R …v.v. Những nghề nghiệp liên quan bao gồm BI Analyst, BI Consultant, BI Developer.
  • Các công cụ, phương pháp dự đoán phân tích (ví dụ: phân tích thói quen người dùng để tự động gửi các quảng cáo, sản phẩm tương ứng; dự báo các mô hình kinh tế): bao gồm mô hình hóa dữ liệu đã phân tích theo hồi quy tuyến tính, phân loại chùm dữ liệu hay phân tích nhân tố. Các công cụ sử dụng như Python, R, Matlab, Eview, Escala, Stata. Những nghề nghiệp liên quan bao gồm Data Analyst, Data Scientist.
  • Sử dụng AI để đoán trước hành vi chưa từng xảy ra(ví dụ: tự động phát hiện gian lận trong các giao dịch tài chính, spam mail hay đưa ra các chiến lược giữ chân người dùng). Sử dụng các phương pháp của Machine Learning (học có giám sát, học không giám sát, học củng cố). Các công cụ sử dụng như Python, R, Matlab, …v.v. Những nghề nghiệp liên quan bao gồm: Data Scientist, Machine Learning Engineer.

Như vậy, bạn đã có cái nhìn tổng quan về ngành khoa học dữ liệu Data Science. Trong các phần tiếp theo, tôi sẽ đi sâu chi tiết vào từng lĩnh vực.