Machine Learning and Data Mining

Chuỗi bài giảng này được ghi lại một phần từ khoá học Nhập môn Học máy và Khai phá dữ liệu (Introduction to Machine Learning & Data Mining), do thầy Thân Quang Khoát giảng dạy cho Chương trình tài năng tại Viện CNTT&TT, ĐH Bách Khoa Hà Nội.

Bài giảng cung cấp những khái niệm từ căn bản đến chuyên sâu, phù hợp với những người muốn tìm hiểu lĩnh vực này một cách bài bản mà chưa có nhiều kiến thức. Các tài liệu bài giảng và mã nguồn thực hành có thể lấy Tại đây.

Slides và video các bài giảng

Bài 1. Giới thiệu chung

Bài giảng này giới thiệu các khái niệm cơ bản nhất trong Học máy, bao gồm học, bản chất việc học, dữ liệu huấn luyện, các bài toán học, khả năng tổng quát hoá (generalization), vấn đề overfitting và underfitting, hiệu chỉnh (regularization), quy trình xây dựng ứng dụng dựa trên Học máy,…

Tải slides tại đây: PDF

Xem video:

Bài 2. Thu thập và tiền xử lý dữ liệu

Bài giảng này cung cấp các kiến thức về thu thập và tiền xử lý dữ liệu.
Tải slides tại đây: PDF

Bài 3. Hồi qui

Bài giảng này sẽ giới thiệu chi tiết về bài toán hồi quy và mô hình tuyến tính. Một số khái niệm cơ bản tiếp tục được giới thiệu, bao gồm hàm hồi quy, hàm lỗi (loss function), lỗi thực nghiệm, lỗi kỳ vọng. Một số phương pháp được giới thiệu gồm Bình phương tối thiểu, Ridge, và LASSO. Bài giảng cung cấp ví dụ trực quan về Hiệu chỉnh (regularization) và sự liên hệ của nó tới vấn đề overfitting và underfitting.

Tải slides tại đây: PDF

Xem video:

Bài 4. Phân cụm

Bài giảng này sẽ bàn luận về Phân cụm, thuật toán K-means, K-means++, và Online K-means dành cho dữ liệu lớn.

Tải slides tại đây: PDF

Xem video:

Bài 5. Phân cụm phân cấp

Học liệu sẽ được cập nhật sau.

Bài 6. Học dựa trên láng giềng (KNN)

Bài giảng này sẽ trình bày về phương pháp K-nearest neighbors dành cho bài toán Phân loại và Hồi quy. Vài tính chất lý thuyết rất thú vị được đưa ra bàn luận.

Tải slides tại đây: PDF

Xem video:

Bài 7. Cây quyết định và rừng ngẫu nhiên

Bài giảng này sẽ bàn luận về Cây quyết định (Decision tree) và Rừng ngẫu nhiên (Random forest).

Tải slides tại đây: PDF

Xem video phần 1:

Xem video phần 2:

Bài 8. Máy vectơ hỗ trợ (SVM)

Bài giảng này sẽ trình bày nội dung của mô hình Máy véctơ hỗ trợ (SVM) dành cho bài toán phân loại. Nội dung bài giảng chủ yếu bàn luận trường hợp học hàm phân loại dạng tuyến tính bằng Linear SVM. Bài giảng cũng mở rộng ý tưởng cho trường hợp học một hàm phi tuyến (nonlinear classifier).

Tải slides tại đây: PDF

Xem video phần 1:

Xem video phần 2:

Bài 9. Đánh giá hiệu quả của mô hình

Bài giảng này sẽ bàn luận việc làm thế nào để có thể đánh giá hiệu quả của một mô hình học máy (model assessment) một cách tin cậy. Đánh giá là một bước không thể thiếu khi xây dựng bất kỳ ứng dụng Học máy nào. Bài giảng cũng trình bày vấn đề lựa chọn (siêu) tham số (model selection), một bước không thể tránh nếu muốn việc đánh giá của ta là chuẩn và nếu ta muốn xây dựng một hệ thống có hiệu quả cao.

Tải slides tại đây: PDF

Xem video phần 1:

Xem video phần 2:

Bài 10. Mạng nơ-ron nhân tạo

Bài giảng này trình bày các kiến thức cơ bản nhất về mạng nơron, bao gồm kiến trúc, các hàm tác động, phương pháp huấn luyện, ý tưởng SGD, thuật toán lan truyền ngược,…

Tải slides tại đây: PDF

Xem video phần 1:

Xem video phần 2:

Bài 11. Mô hình xác suất

Bài giảng này trình bày các kiến thức cơ bản về mô hình xác suất, quá trình mô hình hoá, các bài toán suy diễn và học, mô hình Naive Bayes dành cho phân loại, mô hình Gauss hỗn hợp (GMM) dành cho phân cụm,… Một số phương pháp để suy diễn và học sẽ được giới thiệu, gồm MLE, MAP.

Tải slides tại đây: PDF1PDF2

Xem video:

Bài bổ sung. Hiệu chỉnh (regularization)

Bài giảng mở rộng này trình bày các kỹ thuật hiệu chỉnh mô hình học máy.

Tải slides tại đây: PDF