Học phần Khai phá dữ liệu
(Chương trình học và Hướng dẫn thực hành)
Tài liệu tham khảo
- Data Mining: Concepts and Techniques, 3rd Edition, (link).
- Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (link)
- Giáo trình Khai Phá Dữ Liệu của Nguyễn Hà Nam, Nguyễn Chí Thành, Hà Quang Thụy (link)
Nội dung học phần
Chủ đề 1: Dẫn nhập về Khai phá dữ liệu
- Bài giảng: slide
- Phần mềm: (1) Java; (2) WEKA; và (3) Netbeans.
- Hướng dẫn thực hành: (1) Cài đặt Java & Weka & Netbeans; (2) Giới thiệu phần mềm WEKA; (3) Giới thiệu cấu trúc tập tin ARFF.
- Hướng dẫn lập trình: (1) Thiết lập dự án với Weka; (2) Xuất - Nhập và Chuyển đổi dữ liệu.
- Tài liệu tham khảo: Cẩm nang hướng dẫn sử dụng Weka.
Chủ đề 2: Khai phá luật kết hợp
- Bài giảng: slide
- Dataset: (1) Supermarket (link); (2) weather.numeric (link); (3) weather.nominal (link).
- Bài thực hành: (1) Khai phá luật kết hợp bằng thuật toán Apriori; (2) Khai phá luật kết hợp bằng thuật toán FP-Growth.
- Hướng dẫn lập trình: (1) Lập trình sử dụng Apriori trong WEKA; (2) Lập trình sử dụng FP-Growth.
Chủ đề 3: Phân lớp - các phương pháp chuẩn bị dữ liệu
- Bài giảng: slide
- Dataset: labor (link)
- Bài thực hành: (1) Chuẩn bị train set và test set ; (2) Phương pháp Holdout; (3) Phương pháp Cross validation.
- Hướng dẫn lập trình: (1) Lập trình tạo train set và test set.
Chủ đề 4: Phân lớp - Cây quyết định
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link).
- Bài thực hành: (1) Xây dựng mô hình cây quyết định bằng phần mềm WEKA;
- Hướng dẫn lập trình: (1) Lập trình xây dựng mô hình cây quyết định bằng WEKA API; (2) Lập trình sử dụng mô hình cây quyết định để phân lớp.
Chủ đề 5: Phân lớp - Naive Bayes
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link).
- Bài thực hành: (1) Xây dựng mô hình Naive Bayes bằng phần mềm WEKA;
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình Naive Bayes.
Chủ đề 6: Phân lớp - Mạng nơ-ron
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link).
- Bài thực hành: (1) Xây dựng mô hình Mạng nơ-ron bằng phần mềm WEKA;
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình Mạng nơ-ron.
Chủ đề 7: Phân lớp - Support vector machines
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link).
- Bài thực hành: (1) Xây dựng mô hình SVM bằng phần mềm WEKA;
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình SVM.
Chủ đề 8: Phân lớp - phương pháp k-lân cận
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link).
- Bài thực hành: (1) Xây dựng mô hình k-NN bằng phần mềm WEKA; (2) Lựa chọn thông số tối ưu cho mô hình phân lớp (tuning model).
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình k-NN.
Chủ đề 9: Phân lớp - phương pháp kết hợp (Ensemble methods)
- Bài giảng: slide
- Dataset: (1) labor-train (link); (2) labor-test (link); (3) iris-train (link); (4) iris-test (link).
- Bài thực hành: (1) Phương pháp Bagging; (2) Phương pháp Boosting; (3) Phương pháp Vote; (4) Phương pháp Blending (Stacking); (5) Phương pháp MultiClassClassifier.
- Hướng dẫn lập trình: (1) Lập trình - Bagging; (2) Lập trình - Boosting; (3) Lập trình - Voting; (4) Lập trình - Stacking.
Chủ đề 10: Phân lớp - đánh giá và lựa chọn mô hình phân lớp
- Bài giảng: slide
- Bài đọc thêm: Hướng dẫn sử dụng Knowledge Flow của Weka.
- Data set: (1) labor-train (link); (2) diabetes (link).
- Bài thực hành: (1) Vẽ đường ROC; (2) Vẽ đường Precision - Recall; (3) So sánh các mô hình phân lớp bằng Experimenter; (4) Vẽ đường ROC bằng Knowledge Flow; (5) Vẽ đường ROC của nhiều bộ phân lớp bằng Knowledge Flow.
Chủ đề 11: Phân cụm - Dẫn nhập
- Bài giảng: slide
Chủ đề 12: Phân cụm - phương pháp k-means
- Bài giảng: slide
- Dataset: (1) diabetes (link); (2) credit (link).
- Bài thực hành: (1) Xây dựng mô hình k-means bằng phần mềm WEKA.
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình k-means.
Chủ đề 13: Phân cụm - phương pháp Expectation - Maximization
- Bài giảng: slide
- Dataset: (1) diabetes (link); (2) credit (link).
- Bài thực hành: (1) Xây dựng mô hình EM bằng phần mềm WEKA.
- Hướng dẫn lập trình: (1) Lập trình sử dụng mô hình EM.
Chủ đề 14: Bài tập lớn
- Bài toán
- Dataset
- Tham khảo
ko down được bài giảng ạ !
ReplyDeleteBạn có thể tải sách tham khảo Data Mining: Concepts and Techniques và Data Mining: Practical Machine Learning Tools and Techniques tại trang web http://gen.lib.rus.ec
ReplyDeleteChào thầy! Thầy có file excel Labor không thầy? em cảm ơn!
DeleteNếu thầy có! thầy gửi mail 14520189@gm.uit.edu.vn cho em nha! em cảm ơn thầy
DeleteAnh Cương cho em xin source code của các bài thực hành lập trình Data Mining của Anh nhé! Chân thành cám ơn! Email: router7200@gmail.com
ReplyDeleteAnh Cương cho em xin source code của các bài thực hành lập trình Data Mining của Anh nhé! Chân thành cám ơn! Email: hjhjcallme1@gmail.com
ReplyDeleteAnh Cương cho em xin source code của các bài thực hành lập trình Data Mining của Anh nhé! Chân thành cám ơn! Email: hjhjcallme1@gmail.com
ReplyDeleteAnh Cương ơi, anh có thể cho em xin source code của các bài tập thực hành lập trình Data Mining với được được không ạ! Email: tranjean19901@gmail.com
ReplyDeleteEm xin chân thành cảm ơn!
Thầy ơi có thể cho em xin source code phần k-mean không ạ, em đang làm đồ án có đính đên nó, em làm theo trên video nhưng ko chạy ạ, em cảm ơn anh. Email: n14dccn085@student.ptithcm.edu.vn
ReplyDeletecảm ơn anh Cương đã đăng các bài giảng hay và có ích
ReplyDeleteCảm ơn thầy vì bài giảng rất hay và hữu ích ạ. Thầy có thể cho em xin các Slide từ chủ đề 7 trở đi không ạ. Em cảm ơn thầy. Email của em: thieuns88@gmail.com
ReplyDeletecảm ơn thầy ví bài viết quá chi tiết
ReplyDeleteThầy cương cho em hỏi về tập dữ liệu data train và data test với ạ.
ReplyDeleteem thấy trong data train ở nhãn cuối cùng gán luôn cho là bad hoặc good để thuật toán hiểu
thế thì em tưởng là trong data test thì nhãn cuối cùng ko được phân loại để thuật toán tự phân loại chứ ạ, trong data test thì em thấy nhãn cuối vẫn được phân loại là good
em chào Thầy.
ReplyDeleteEm xem các bài giảng của Thầy rất hữu ích, em đang làm một bài tập với weka phân lớp bằng thuật toán Random Forest, nhưng khi em chạy bằng thuật toán này thì không thấy có cây quyết định, Thầy có thể hướng dẫn cho em được không ạ. Em cảm ơn Thầy. Chúc Thầy buổi tối vui vẻ.
mail của em: tamdmy@gmail.com số đt 0908199171. Em chân thành cảm ơn Thầy. Thầy có thể cho em số điện thoại em gọi xin Thầy hướng dẫn cho em hiểu.
em chào Thầy.
ReplyDeleteEm xem các bài giảng của Thầy rất hữu ích, em đang làm một bài tập với weka phân lớp bằng thuật toán Naive Bayes. Thầy có thể cho e xin source code để tham khảo không ạ. mail của e: phuongpm2709@gmail.com. E xin chân thành cảm ơn thầy