ĐỀ cƢƠng chi tiẾt hỌc phẦn khai phÁ dỮ liỆu data...
TRANSCRIPT
KHOA CÔNG NGHỆ THÔNG TIN
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU – DATA MINING
1. Thông tin về giáo viên
TT Họ tên giáo viên Học
hàm
Học vị Đơn vị công tác (Bộ môn)
1 Hồ Nhật Quang GV ThS Công nghệ phần mềm
Thời gian, địa điểm làm việc: Bộ môn CNPM – Khoa CNTT
Địa chỉ liên hệ:
Điện thoại, email: [email protected]
Các hướng nghiên cứu chính:
Khai phá dữ liệu
Kiểm thử phần mềm
2. Thông tin chung về học phần
- Tên học phần: Khai phá dữ liệu
- Mã học phần: 12557151
- Số tín chỉ: 3
- Cấu trúc học phần:
- Học phần (bắt buộc hay lựa chọn): Lựa chọn
- Các học phần tiên quyết:
Hệ quản trị CSDL
Các phương pháp tính toán số
Trí tuệ nhân tạo
- Các yêu cầu đối với học phần (nếu có):
- Giờ tín chỉ đối với các hoạt động:
Nghe giảng lý thuyết: 30
Làm bài tập trên lớp: 15
Thảo luận: 6
Thực hành, thực tập (ở PTN, nhà máy, thực tập...): 9
Hoạt động theo nhóm:
Tự học: 66
- Khoa/Bộ môn phụ trách học phần, địa chỉ: Bộ môn CNPM – Khoa CNTT
3. Mục tiêu của học phần
2
- Kiến thức:
Hiểu các bước trong quá trình khám phá tri thức
Mô tả các khái niệm cơ bản, công nghệ và ứng dụng của khai phá dữ
liệu
Mô hình và mẫu dữ liệu
Nắm được các vấn đề về dữ liệu trong giai đoạn tiền xử lý cho các tác vụ
khai phá dữ liệu
Dữ liệu và độ đo
Tìm hiểu các bài toán khai phá dữ liệu phổ biến như hồi qui, phân loại,
gom cụm, và khai phá luật kết hợp
Sử dụng các giải thuật và công cụ khai phá dữ liệu để phát triển ứng
dụng khai phá dữ liệu
Được chuẩn bị về kiến thức để có thể nghiên cứu trong lĩnh vực khai phá
dữ liệu.
- Kỹ năng:
Khả năng hiểu ý nghĩa và vai trò của khai phá dữ liệu trong giải quyết
các bài toán thực tế trong tình hình kinh tế- xã hội-khoa học-kỹ thuật
ngày nay
Khả năng nhận dạng và hiểu các vấn đề liên quan đến dữ liệu sẽ được
khai phá và quá trình khai phá dữ liệu
Khả năng ứng dụng của khai phá dữ liệu vào các hoạt động cụ thể của
các đơn vị, tổ chức
Khả năng phân tích và xử lý dữ liệu cho quá trình khai phá dữ liệu
Khả năng phát triển các kỹ thuật khai phá dữ liệu
Khả năng phát triển ứng dụng khai phá dữ liệu
Khả năng vận dụng các tiện ích hỗ trợ khai phá dữ liệu được cung cấp
phổ biến ngày nay như Weka, MS SQL Server….
Khả năng tham gia phân tích và xử lý dữ liệu cho quá trình khai phá dữ
liệu
Khả năng tham gia phát triển các kỹ thuật khai phá dữ liệu
Khả năng tham gia phát triển ứng dụng khai phá dữ liệu
- Thái độ, chuyên cần:
Học viên lên lớp đầy đủ
4. Tóm tắt nội dung học phần (khoảng 150 từ)
Giới thiệu các kiến thức cơ bản về khai phá dữ liệu và quá trình khám phá tri
thức, các giai đoạn chính của quá trình khai phá dữ liệu và khám phá tri thức. Học
phần cũng cung cấp cho người học các bài toán chính (task) trong KPDL như phân
3
lớp, phân cụm, hồi quy, chuỗi thời gian, luật kết hợp…cũng như cách sử dụng các
công cụ hỗ trợ xây dựng các ứng dụng KPDL.
5. Nội dung chi tiết học phần (tên các chương, mục, tiểu mục)
Số
TT
bài
STT
đề
mục
Tên gọi các phần, các đề mục Số
tiết
Giáo
trình,
TLTL
Ghi
chú
1 2 3 4 5 6
1
Chƣơng 1. Tổng quan về KPDL
3 [1,2,3,4]
1.1 Khai phá dữ liệu
1.1.1 Tại sao phải khai phá dữ liệu?
1.1.2 Các định nghĩa về khai phá dữ liệu
1.1.3 Các bước chính trong khám phá tri thức và
KPDL
1.1.4 Các dạng dữ liệu có thể KPDL
1.1.5 Các lĩnh vực liên quan đến KPDL
1.2 Các bài toán chính trong KPDL
1.2.1 Phân lớp (Classification)
1.2.2 Phân cụm (Clustering)
1.2.3 Luật kết hợp (Assoiation Rule)
1.2.4 Hồi quy và dự báo (Regression and Prediction)
1.2.5 Chuỗi thời gian (sequential/temporal patterns)
1.2.6 Mô tả khái niệm, tổng hợp (concept description
& summarization)
1.3 Ứng dụng & phân loại
1.3.1 Các lĩnh vực ứng dụng chính
1.3.2 Phân loại các hệ KPDL
Phân loại theo kiểu dữ liệu được khai phá
Phân loại theo dạng tri thức được khám phá
Phân loại dựa trên kỹ thuật được áp dụng
Phân loại dựa trên lĩnh vực được áp dụng
1.4 Những thách thức trong KPDL
1.5 Những vấn đề đƣợc chú trọng trong KPDL
1.6 Một số công cụ dùng KPDL
1.6.1 Weka
1.6.2 Clementine
1.6.3 SQL Server 2008
2 Chƣơng 2. Tiền xử lý dữ liệu 3 [1,2,4]
4
3.1 Tại sao phải tiền xử lý dữ liệu ?
3.2 Chuẩn bị dữ liệu
3.2.1 Phân tích dữ liệu
3.2.2 Chuẩn hoá dữ liệu
3.3 Trích chọn dữ liệu
3.3.1 Trích chọn đặc tính
3.3.2 Trích chọn giá trị
3.4 Một số phƣơng pháp trích chọn thuộc tính
3.4.1 Tiếp cận theo phương pháp Filter
Thuật toán RELIEF
Thuật toán FOCUS
Thuật toán LVF
Thuật toán EBR
Thuật toán SCRAP
Lựa chọn nhóm
3.4.2 Tiếp cận theo phương pháp Wrapper
Thuật toán LVW
Thuật toán NeuralNet
3.4.3 Một số tiếp cận khác
Giải thuật di truyền
Rời rạc hóa dữ liệu
3.5. Thực hành tiền xử lý dữ liệu
3.5.1 Trích chọn thuộc tính trong Analysis
Services/MS SQL Server 2008
Shannon's entropy
Bayesian with K2 Prior
Bayesian Dirichlet Equivalent with Uniform
Prior
Interestingness score
3.5.2 Trích chọn thuộc tính trong Weka
Xếp hạng các thuộc tính (Ranking attributes)
Đánh trọng số các thuộc tính sử dụng Cross
Validation
Attribute Evaluator
3.5.3 Xây dựng ứng dụng tiền xử lý dữ liệu
Xử lý dữ liệu lỗi: mất giá trị, sai kiểu, có giá trị
khác thường…
5
Xử lý chuyển đổi dữ liệu
Thống kê miền giá trị và phân bố giá trị
3
Chƣơng 3. Phân lớp
6 [1,2,4]
3.1 Phát biểu bài toán phân lớp
3.1.1 Mô hình bài toán
3.1.2 Một số ví dụ
3.1.3 Các bước giải bài toán
3.1.4 Một số tiếp cận chính giải quyết bài toán
3.1.5 Một số khó khăn khi giải BT
3.2 Kỹ thuật phân lớp dựa trên khoảng cách
3.2.1 Ý tưởng
3.2.2 Thuật toán k Người láng giềng gần nhất
3.2.3 Đánh giá thuật toán
3.2.4 Ví dụ minh họa
3.3 Kỹ thuật phân lớp dựa trên cây quyết định
3.3.1 Giới thiệu về cây quyết định
3.3.2 Các thuật toán tạo cây quyết định
Thuật toán ID3
Thuật toán C3.5
3.3.3 Một số vấn đề về cây quyết định
Avoiding over-fitting the data
Rule post-pruning
Incorporating Continuous-Valued Attributes
Handling Training Examples with Missing
Attribute Values
3.3.4 Đánh giá ưu nhược điểm của cây quyết định
3.3.5 Thực hành phân lớp dựa vào cây quyết định
trên phần mềm CABRO
3.4 Kỹ thuật phân lớp dựa trên mạng neuron
3.3.1 Nhắc lại một số khái niệm về mạng neuron
3.3.2 Mạng neuron perceptron đa lớp và giải thuật
học lan truyền ngược
3.3.3 Ứng dụng mạng neuron trong bài toán phân lớp
3.3.4 Đánh giá thuật toán
3.3.5 Ví dụ minh họa
3.5 Kỹ thuật phân lớp dựa trên thống kê xác
xuất
6
3.5.1 Một số khái niệm về xác xuất
3.5.2 Lý thuyết xác xuất thống kê Bayets
3.5.3 Phân lớp dựa theo kỹ thuật thống kê xác xuất
3.5.4 Đánh giá thuật toán
3.5.5 Ví dụ minh hoạt
3.6 Thực hành phân lớp
3.6.1 Sử dụng Weka thực hành các bài tập phân lớp
Cây quyết định
Mạng neuron
Bayets
3.6.2 Xây dựng ứng dụng phân lớp
Nhận dạng chữ số viết tay
Cài đặt thuật toán ID3
Cài đặt mạng neuron perceptron đa lớp
Cài đặt thuật toán phân lớp Bayets
4
Chƣơng 4. Phân cụm
9 [1,2,4]
4.1 Phát biểu bài toán phân cụm
4.1.1 Phát biểu bài toán
4.1.2 Ứng dụng của bài toán
4.1.3 Đánh giá kết quả phân cụm
4.1.4 Các yêu cầu khi thực hiện phân cụm
4.1.5 Các tiếp cận chính giải bài toán phân cụm
4.2 Kỹ thuật phân hoạch
4.2.1 Ý tưởng thuật toán
4.2.2 Thuật toán K-Mean
4.2.3 Đánh giá ưu nhược điểm của thuật toán
4.2.4 Ví dụ minh họa
4.2.5 Các cải tiến của K-Mean
Thuật toán K-Medoid
Thuật toán CLARANS
Thuật toán DBSCAN
Thuật toán DBRS
4.2.6 Thuật toán FCM
Ý tưởng thuật toán
Thuật toán FCM
Đánh giá thuật toán
Phân đoạn ảnh sử dụng FCM
7
4.3 Một số tiếp cận phân cụm khác
4.3.1 Các tiếp cận theo cấp bậc (cây)
4.3.2 Phân cụm dựa theo lưới (grid)
4.4 Thực hành xây dựng ứng dụng phân cụm
Phân đoạn ảnh sử dụng FCM
Phân cụm dữ liệu sử dụng K-Mean
5
Chƣơng 5. Luật kết hợp
12 [1,2,4]
5.1 Phát biểu bài toán
Các khái niệm
Giao dịch
Hạng mục
Độ hỗ trợ (phổ biến-support)
Độ tin cậy (confidence)
Tập phổ biến
Một số bổ đề trên tập phổ biến
Luật kết hợp
Ví dụ minh họa
5.2 Các giai đoạn của quá trình tìm luật kết hợp
5.3 Những hƣớng tiếp cận chính trong KPLKH
Luật kết hợp nhị phân (binary association rule
hoặc boolean association rule)
Luật kết hợp có thuộc tính số và thuộc tính
hạng mục (quantitative and categorical
association rule)
Luật kết hợp mờ (fuzzy association rule):
Luật kết hợp nhiều mức (multi-level association
rules):
Luật kết hợp với thuộc tính được đánh trọng số
(association rule with weighted items):
5.4 Thuật toán Apriori
Ý tưởng thuật toán
Các bước thực hiện của thuật toán
Ví dụ minh họa
Đánh giá thuật toán
5.5. Cải thiện thuật toán Apriori
Các cải tiến tăng tốc độ thưc thi Apriori
8
Song song hóa thuật toán Apriori
Cấu trúc FP-Growth
5.6 Luật kết hợp có trọng số
Ý nghĩa thực tế
Một số giải thuật
Đánh giá thuật toán
Ví dụ minh họa
Ứng dụng
5.7 Luật kết hợp và đảm bảo tính riêng tƣ
Vấn đề đảm bảo tính riêng tư
Các chiến lược "ẩn" luật nhạy cảm
Đánh giá thuật toán
5.8 Thực hành khai phá luật kết hợp
5.8.1 Sử dụng thư viện MPI song song hóa thuật toán
khai phá luật kết hợp
Phân tích bài toán giỏ hàng
Cài đặt thuật toán Apriori: tìm tập phổ biến
Đánh giá kết quả thực nghiệm, so sánh
5.8.2
Cài đặt thuật toán Apriori cải tiến tìm luật kết
hợp có trọng số trong CSDL giao dịch mua
hàng
Cài đặt thuật toán
Các lựa chọn tham số thực hiện
Đánh giá kết quả
5.8.3 Sử dụng Weka khai phá luật kết hợp
6
Chƣơng 6. Text Mining
12 [1,2,4]
6.1 Tổng quan về Text Mining
Ý nnghĩa
Các bài toán trong Text Mining
Mô hình biểu diễn văn bản
Sơ lược về tình hình nghiên cứu và ứng dụng
Text Mining
6.2 Bài toán Tách từ Tiếng Việt
6.2.1 Vai trò của tách từ trong Text Mining
6.2.2 Nội dung bài toán tách từ
6.2.3 Một số khó khăn khi tách từ Tiếng Việt
9
6.2.4 Một số hướng chính giải bài toán tách từ Tiếng
Việt
6.2.5 Tách từ dựa vào từ điển
Thuật toán Longest Matching
Thuật toán Maximal Matching
6.2.6 Tách từ dựa vào thống kê
Phương pháp Ngram
Phương pháp MaximumEntropi
6.2.7 Tách từ dựa trên phương pháp lai
6.2.8 Đánh giá thuật toán
6.2.9 Ví dụ minh họa
6.2.10 Xây dựng ứng dụng
6.3 Phân lớp văn bản
6.3.1 Quy trình giải bài toán phân lớp văn bản
6.3.2 Ứng dụng Thuật toán Bayest phân lớp văn bản
6.3.3 Đánh giá ưu nhược điểm của thuật toán
6.3.4 Ví dụ minh họa
6.4 Giới thiệu một số bài toán Text Mining khác
6.4.1 Tóm tắt văn bản (Text Summarization)
6.4.2 Phân tích cú pháp (Grammar analysis)
6.4.3 Kiểm lỗi chính tả (Check spelling)
6.4.4 Phân tích hình thái (Morpholigical analysis)
6.5 Thực hành xây dựng ứng dụng Text Mining
6.5.1 Bài toán phân loại thư rác
Giới thiệu bài toán
Cấu trúc email
Một số kỹ thuật phân loại thư rác
Ứng dụng Bayet trong lọc thư rác
Đánh giá
Một số mã nguồn mở về lọc thư rác
6.5.2 Các thuật toán tách từ Tiếng Việt
Cài đặt và thử nghiệm đánh giá
6.5.3 Cài đặt ứng dụng phân loại văn bản bằng thuật
toán xác xuất Bayet
7
Chƣơng 7. Web Mining
6 [4,5] 7.1 Tổng quan về Web Mining
Một số khái niệm về WebMining
10
Các bài toán trong Web Mining
Mô hình biểu diễn liên kết web
Sơ lược về tình hình nghiên cứu và ứng dụng
Web Mining
7.2 Trích rút thông tin từ các URL
7.2.1 Biểu diễn liên kết web
7.2.2 Kỹ thuật trích rút tin từ URL
7.2.3 Bóc tách tin theo mẫu
7.3 Máy tìm kiếm
7.3.1 Giới thiệu chung
7.3.2 Cấu trúc chung của máy tìm kiếm
7.3.3 Nguyên tắc thực hiện của Robot
7.3.4 Hệ thống lập chỉ mục và các phương pháp đánh
chỉ mục, tính trọng số
7.3.5 Máy tìm kiếm
User Interface
Query Engine
WebRank, PageRank
Một số vấn đề về nâng cao chất lượng tìm kiếm
7.4 Web Structure Mining
7.4.1 Ý nghĩa thực tế
7.4.2 Một số tiếp cận thực hiện khai phá cấu trúc web
7.4.3 Giới thiệu một số công cụ hỗ trợ
7.4.4 Đánh giá, kết luận
7.5 Web Usage Mining
7.5.1 Ý nghĩa thực tế
7.5.2 Một số tiếp cận thực hiện khai phá log web
7.5.3 Giới thiệu một số công cụ hỗ trợ
7.5.4 Đánh giá, kết luận
7.6 Thực hành xây dựng ứng dụng về Web
Mining
7.6.1 Xây dựng công cụ tự động thu thập tin từ các
URL theo mẫu tin đã định trước
Định nghĩa, mô tả mẫu tin
Cài đặt ứng dụng lọc tin
Phân loại tin theo chủ đề
Khử trùng lặp dữ liệu
11
7.6.2 Xây dựng ứng dụng báo điện tử
7.6.3 Ứng dụng phân tích Web Usage
Đánh giá xu hướng người dùng đối với các
trang bán hàng, tin tức…
Cảnh báo về an ninh mạng
8
Chƣơng 8. Multimedia Mining
6 [4,5]
8.1 Giới thiệu chung về Multimedia Mining
8.1.1 Dữ liệu đa phương tiện
8.1.2 Các bài toán trong KPDL đa phương tiện
8.1.3 Những thách thức chính trong KPDL đa
phương tiện
8.1.4 Sơ lược về tình hình nghiên cứu và ứng dụng
Multimedia Mining
8.2 Tìm kiếm, phân loại ảnh theo ngữ nghĩa
8.2.1 Ý nghĩa bài toán
8.2.2 Mô hình bài toán phân loại ảnh
8.2.3 Đặc trưng ảnh
Đặc trưng màu sắc
Đặc trưng kết cấu
Đặc trưng hình dáng
Đặc trưng bất biến
8.2.4 Xác định độ đo tương tự
8.2.5 Một số tiếp cận phát hiện đối tượng trên ảnh
8.2.6 Một số hệ thống tìm kiếm, phân loại ảnh
8.3 Khai phá dữ liệu trên CSDL video
8.3.1 Mô hình dữ liệu Video
8.3.2 Trích rút khung hình từ CSDL Video
8.3.3 Truy vấn dữ liệu Video
8.3.4 Một số hệ thống khai phá dữ liệu Video
8.4 Thực hành KPDL đa phƣơng tiện
8.4.1 Phân loại ảnh dựa trên các độ đo tương tự
Cài đặt một số thuật toán xử lý ảnh
Trích rút đặc trưng ảnh tạo vecto đặc trưng
Phân loại ảnh
8.4.2 Phát hiện xâm nhập trên video thu nhận từ
camera
Thu nhận video từ Webcam, Camera
12
Sử dụng một số phương pháp phát hiện, cảnh
báo có xâm nhập
9
Chƣơng 9. Một số bài toán khác
3 [3,4,5]
9.1 Hồi quy
Mô hình bài toán hồi quy
Hồi quy tuyến tính
Ứng dụng của hồi quy
9.2 Chuỗi thời gian
9.2.1 Khái niệm chuỗi thời gian
9.2.2 Các thành phần của chuỗi thời gian
9.2.3 Các phương pháp làm trơn
9.2.4 Mô hình hóa việc dự báo giá trị của đại lượng
X
9.2.5 Dự báo
9.2.6 Mô hình ARMA và đánh giá
9.2.7 Một số vấn đề mở rộng về khai phá dữ liệu trên
chuỗi thời gian
9.3 Một số vấn đề về xu hƣớng và triển vọng của
KPDL
6. Giáo trình, tài liệu tham khảo
TT Tên tài liệu
Tình trạng tài liệu
Có
trên
thư
viện
Giáo viên
hoặc Khoa
có, cho
mượn để TV
pho tô hoặc
có File Điện
tử
Đề
nghị
mua
mới
Đề
nghị
biên
soạn
mới
1 Ho Tu Bao, Introduction to Knowledge
Discovery and Data Mining, National
Center for Natural Science and Technology,
2002
X
2 Morgan Kaufman, Data Mining: Concepts
and Techniques, Morgan Kaufmann
X
13
Publishers, 2002
3 John Wang, Data Mining - Opportunities
and Challenges, Idea Group Publishing,
2003
X
4 Jiawei Han and Micheline Kamber, Data
Mining Concepts and Techniques,
University of Illinois, Morgan Kaufmann
Publishers, 2002
X
5 Usama M. Fayyad, Gregory Piatetsky-
Shapiro, Padhraic Smyth, and Ramasamy
Uthurusamy, Advances in Knowledge
Discovery and Data Mining, AAAI
Press/The MIT Press, 1996
X
7. Hình thức tổ chức dạy học
7.1. Lịch trình chung: (Ghi tổng số giờ cho mỗi cột)
Nội dung
Hình thức tổ chức dạy học học phần
Tổng Lên lớp Thực hành,
thí nghiệm,
thực tập...
Tự học,
tự ng.cứu Lý
thuyết
Bài
tập
Thảo
luận
Chương 1: Tổng
quan về KPDL
3 3
Chương 2: Tiền
xử lý dữ liệu
3 6 3
Chương 3: Phân
lớp
3 3 9 6
Chương 4: Phân
cụm
3 3 3 9 9
Chương 5: Luật
kết hợp
6 3 3 9 12
Chương 6: Text
Mining
3 3 3 3 9 12
Chương 7 : Web
Mining
3 3 9 6
Chương 8 :
Multimedia
Mining
3 3 9 6
14
Chương 9 – Một
số bài toán khác
3 6 3
30 15 6 9 66 60
7.2. Lịch trình tổ chức dạy học cụ thể
Tuần 1
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết Theo
bố trí
của P2
Chương 1. Tổng quan về KPDL
1.1 Khai phá dữ liệu
1.1.1 Tại sao phải khai phá dữ liệu?
1.1.2 Các định nghĩa về khai phá dữ
liệu
1.1.3 Các bước chính trong khám phá
tri thức và KPDL
1.1.4 Các dạng dữ liệu có thể KPDL
1.1.5 Các lĩnh vực liên quan đến
KPDL
1.2 Các bài toán chính trong KPDL
1.2.1 Phân lớp (Classification)
1.2.2 Phân cụm (Clustering)
1.2.3 Luật kết hợp (Assoiation Rule)
1.2.4 Hồi quy và dự báo (Regression
and Prediction)
1.2.5 Chuỗi thời gian
(sequential/temporal patterns)
1.2.6 Mô tả khái niệm, tổng hợp
(concept description &
summarization)
1.3 Ứng dụng & phân loại
1.3.1 Các lĩnh vực ứng dụng chính
1.3.2 Phân loại các hệ KPDL
Phân loại theo kiểu dữ liệu được
khai phá
Phân loại theo dạng tri thức được
khám phá
- Đọc trước
bài giảng ở
nhà
- Chú ý
nghe giảng.
- Tích cực
tham gia
phát biểu ý
kiến
15
Phân loại dựa trên kỹ thuật được
áp dụng
Phân loại dựa trên lĩnh vực được
áp dụng
1.4 Những thách thức trong KPDL
1.5 Những vấn đề được chú trọng
trong KPDL
1.6 Một số công cụ dùng KPDL
1.6.1 Weka
1.6.2 Clementine
1.6.3 SQL Server 2008
Bài tập
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Tự học, tự
nghiên
cứu
Tuần 2
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết Theo
bố trí
của P2
Chương 2. Tiền xử lý dữ liệu
3.1 Tại sao phải tiền xử lý dữ liệu ?
3.2 Chuẩn bị dữ liệu
3.2.1 Phân tích dữ liệu
3.2.2 Chuẩn hoá dữ liệu
3.3 Trích chọn dữ liệu
3.3.1 Trích chọn đặc tính
3.3.2 Trích chọn giá trị
3.4 Một số phương pháp trích chọn
thuộc tính
- Đọc trước
bài giảng ở
nhà
- Chú ý
nghe giảng.
- Tích cực
tham gia
phát biểu ý
16
3.4.1 Tiếp cận theo phương pháp
Filter
Thuật toán RELIEF
Thuật toán FOCUS
Thuật toán LVF
Thuật toán EBR
Thuật toán SCRAP
Lựa chọn nhóm
3.4.2 Tiếp cận theo phương pháp
Wrapper
Thuật toán LVW
Thuật toán NeuralNet
3.4.3 Một số tiếp cận khác
Giải thuật di truyền
Rời rạc hóa dữ liệu
3.5. Thực hành tiền xử lý dữ liệu
3.5.1 Trích chọn thuộc tính trong
Analysis Services/MS SQL Server
2008
Shannon's entropy
Bayesian with K2 Prior
Bayesian Dirichlet Equivalent
with Uniform Prior
Interestingness score
3.5.2 Trích chọn thuộc tính trong
Weka
Xếp hạng các thuộc tính
(Ranking attributes)
Đánh trọng số các thuộc tính sử
dụng Cross Validation
Attribute Evaluator
3.5.3 Xây dựng ứng dụng tiền xử lý
dữ liệu
Xử lý dữ liệu lỗi: mất giá trị, sai
kiểu, có giá trị khác thường…
Xử lý chuyển đổi dữ liệu
Thống kê miền giá trị và phân bố
giá trị
kiến
17
Bài tập
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Tự học, tự
nghiên
cứu
Tuần 3
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết Theo
bố trí
của P2
Chương 3. Phân lớp
3.1 Phát biểu bài toán phân lớp
3.1.1 Mô hình bài toán
3.1.2 Một số ví dụ
3.1.3 Các bước giải bài toán
3.1.4 Một số tiếp cận chính giải quyết
bài toán
3.1.5 Một số khó khăn khi giải BT
3.2 Kỹ thuật phân lớp dựa trên
khoảng cách
3.2.1 Ý tưởng
3.2.2 Thuật toán k Người láng giềng
gần nhất
3.2.3 Đánh giá thuật toán
3.2.4 Ví dụ minh họa
3.3 Kỹ thuật phân lớp dựa trên cây
quyết định
3.3.1 Giới thiệu về cây quyết định
3.3.2 Các thuật toán tạo cây quyết
định
Thuật toán ID3
- Đọc trước
bài giảng ở
nhà
- Chú ý
nghe giảng.
- Tích cực
tham gia
phát biểu ý
kiến
18
Thuật toán C3.5
3.3.3 Một số vấn đề về cây quyết
định
Avoiding over-fitting the data
Rule post-pruning
Incorporating Continuous-Valued
Attributes
Handling Training Examples with
Missing Attribute Values
3.3.4 Đánh giá ưu nhược điểm của
cây quyết định
3.3.5 Thực hành phân lớp dựa vào
cây quyết định trên phần mềm
CABRO
3.4 Kỹ thuật phân lớp dựa trên mạng
neuron
3.3.1 Nhắc lại một số khái niệm về
mạng neuron
3.3.2 Mạng neuron perceptron đa lớp
và giải thuật học lan truyền ngược
3.3.3 Ứng dụng mạng neuron trong
bài toán phân lớp
3.3.4 Đánh giá thuật toán
3.3.5 Ví dụ minh họa
3.5 Kỹ thuật phân lớp dựa trên thống
kê xác xuất
3.5.1 Một số khái niệm về xác xuất
3.5.2 Lý thuyết xác xuất thống kê
Bayets
3.5.3 Phân lớp dựa theo kỹ thuật
thống kê xác xuất
3.5.4 Đánh giá thuật toán
3.5.5 Ví dụ minh hoạt
Bài tập
Thảo luận
Thực
hành, thí
nghiệm,
19
thực tập,
rèn
nghề…
Tự học, tự
nghiên
cứu
Tuần 4
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết
Bài tập
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Theo
bố trí
của P2,
phòng
máy
3.6 Thực hành phân lớp
3.6.1 Sử dụng Weka thực hành các
bài tập phân lớp
Cây quyết định
Mạng neuron
Bayets
3.6.2 Xây dựng ứng dụng phân lớp
Nhận dạng chữ số viết tay
Cài đặt thuật toán ID3
Cài đặt mạng neuron perceptron
đa lớp
Cài đặt thuật toán phân lớp
Bayets
Tự học, tự
nghiên
cứu
Tuần 5
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
20
Lý thuyết Theo
bố trí
của P2
Chương 4. Phân cụm
4.1 Phát biểu bài toán phân cụm
4.1.1 Phát biểu bài toán
4.1.2 Ứng dụng của bài toán
4.1.3 Đánh giá kết quả phân cụm
4.1.4 Các yêu cầu khi thực hiện phân
cụm
4.1.5 Các tiếp cận chính giải bài toán
phân cụm
4.2 Kỹ thuật phân hoạch
4.2.1 Ý tưởng thuật toán
4.2.2 Thuật toán K-Mean
4.2.3 Đánh giá ưu nhược điểm của
thuật toán
4.2.4 Ví dụ minh họa
4.2.5 Các cải tiến của K-Mean
Thuật toán K-Medoid
Thuật toán CLARANS
Thuật toán DBSCAN
Thuật toán DBRS
4.2.6 Thuật toán FCM
Ý tưởng thuật toán
Thuật toán FCM
Đánh giá thuật toán
Phân đoạn ảnh sử dụng FCM
4.3 Một số tiếp cận phân cụm khác
4.3.1 Các tiếp cận theo cấp bậc (cây)
4.3.2 Phân cụm dựa theo lưới (grid)
- Đọc trước
bài giảng ở
nhà
- Chú ý
nghe giảng.
- Tích cực
tham gia
phát biểu ý
kiến
Bài tập Bài tập về phân lớp, phân cụm
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Tự học, tự
nghiên
21
cứu
Tuần 6
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết
Bài tập
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Theo
bố trí
của P2,
Phòng
máy
4.3 Một số tiếp cận phân cụm khác
4.3.1 Các tiếp cận theo cấp bậc (cây)
4.3.2 Phân cụm dựa theo lưới (grid)
4.4 Thực hành xây dựng ứng dụng
phân cụm
Phân đoạn ảnh sử dụng FCM
Sử dụng Matlap
Cài đặt trên NNLT
Phân cụm dữ liệu sử dụng K-
Mean
Sử dụng Weka
Sử dụng các công cụ hỗ trợ
khác
Cài đặt trên NNLT
Cài đặt các biến thể của K-mean
Tự học, tự
nghiên
cứu
Tuần 7
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết Theo
bố trí
của P2
Chương 5. Luật kết hợp
5.1 Phát biểu bài toán
Các khái niệm
- Đọc trước
bài giảng ở
nhà
22
Giao dịch
Hạng mục
Độ hỗ trợ (phổ biến-support)
Độ tin cậy (confidence)
Tập phổ biến
Một số bổ đề trên tập phổ biến
Luật kết hợp
Ví dụ minh họa
5.2 Các giai đoạn của quá trình tìm
luật kết hợp
5.3 Những hướng tiếp cận chính trong
KPLKH
Luật kết hợp nhị phân (binary
association rule hoặc boolean
association rule)
Luật kết hợp có thuộc tính số và
thuộc tính hạng mục (quantitative and
categorical association rule)
Luật kết hợp mờ (fuzzy
association rule):
Luật kết hợp nhiều mức (multi-
level association rules):
Luật kết hợp với thuộc tính được
đánh trọng số (association rule with
weighted items):
5.4 Thuật toán Apriori
Ý tưởng thuật toán
Các bước thực hiện của thuật toán
Ví dụ minh họa
Đánh giá thuật toán
5.5. Cải thiện thuật toán Apriori
Các cải tiến tăng tốc độ thưc thi
Apriori
Song song hóa thuật toán Apriori
Cấu trúc FP-Growth
5.6 Luật kết hợp có trọng số
Ý nghĩa thực tế
Một số giải thuật
- Chú ý
nghe giảng.
- Tích cực
tham gia
phát biểu ý
kiến
23
Đánh giá thuật toán
Ví dụ minh họa
Ứng dụng
5.7 Luật kết hợp và đảm bảo tính
riêng tư
Vấn đề đảm bảo tính riêng tư
Các chiến lược "ẩn" luật nhạy
cảm
Đánh giá thuật toán
Bài tập Bài tập về luật kết hợp
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Tự học, tự
nghiên
cứu
Tuần 8
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết
Bài tập 5.8 Bài tập khai phá luật kết hợp
5.8.1 Sử dụng thư viện MPI song
song hóa thuật toán khai phá luật kết
hợp
Phân tích bài toán giỏ hàng
Cài đặt thuật toán Apriori: tìm
tập phổ biến
Đánh giá kết quả thực nghiệm,
so sánh
5.8.2 Cài đặt thuật toán Apriori cải
tiến tìm luật kết hợp có trọng số trong
24
CSDL giao dịch mua hàng
Cài đặt thuật toán
Các lựa chọn tham số thực hiện
Đánh giá kết quả
5.8.3 Sử dụng Weka khai phá luật kết
hợp
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Theo
bố trí
của P2,
phòng
máy
Tự học, tự
nghiên
cứu
Tuần 9
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết Theo
bố trí
của P2
Chủ đề 1. Text Mining
6.1 Tổng quan về Text Mining
Ý nnghĩa
Các bài toán trong Text Mining
Mô hình biểu diễn văn bản
Sơ lược về tình hình nghiên cứu
và ứng dụng Text Mining
6.2 Bài toán Tách từ Tiếng Việt
6.2.1 Vai trò của tách từ trong Text
Mining
6.2.2 Nội dung bài toán tách từ
6.2.3 Một số khó khăn khi tách từ
Tiếng Việt
6.2.4 Một số hướng chính giải bài
toán tách từ Tiếng Việt
6.2.5 Tách từ dựa vào từ điển
- Đọc trước
bài giảng ở
nhà
- Chú ý
nghe giảng.
- Tích cực
tham gia
phát biểu ý
kiến
25
Thuật toán Longest Matching
Thuật toán Maximal Matching
6.2.6 Tách từ dựa vào thống kê
Phương pháp Ngram
Phương pháp MaximumEntropi
6.2.7 Tách từ dựa trên phương pháp
lai
6.2.8 Đánh giá thuật toán
6.2.9 Ví dụ minh họa
6.2.10 Xây dựng ứng dụng
6.3 Phân lớp văn bản
6.3.1 Quy trình giải bài toán phân lớp
văn bản
6.3.2 Ứng dụng Thuật toán Bayest
phân lớp văn bản
6.3.3 Đánh giá ưu nhược điểm của
thuật toán
6.3.4 Ví dụ minh họa
6.4 Giới thiệu một số bài toán Text
Mining khác
6.4.1 Tóm tắt văn bản (Text
Summarization)
6.4.2 Phân tích cú pháp (Grammar
analysis)
6.4.3 Kiểm lỗi chính tả (Check
spelling)
6.4.4 Phân tích hình thái
(Morpholigical analysis)
Bài tập Bài tập về text mining
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Tự học, tự
nghiên
26
cứu
Tuần 10
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết
Bài tập
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Theo
bố trí
của P2,
phòng
máy
6.5 Thực hành xây dựng ứng dụng
Text Mining
6.5.1 Bài toán phân loại thư rác
Giới thiệu bài toán
Cấu trúc email
Một số kỹ thuật phân loại thư
rác
Ứng dụng Bayet trong lọc thư
rác
Đánh giá
Một số mã nguồn mở về lọc thư
rác
6.5.2 Các thuật toán tách từ Tiếng
Việt
Cài đặt và thử nghiệm đánh giá
6.5.3 Cài đặt ứng dụng phân loại văn
bản bằng thuật toán xác xuất Bayet
Học kỹ lý
thuyết
Nghiên cứu
kỹ các
hướng gợi ý
giải quyết ở
nhà
Cài đặt thuật
toán tại nhà
Thực hành
ngiêm túc.
Tự học, tự
nghiên
cứu
Tuần 11
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết Theo
bố trí
Chủ đề 2. Web Mining
7.1 Tổng quan về Web Mining
- Đọc trước
bài giảng ở
27
của P2 Một số khái niệm về WebMining
Các bài toán trong Web Mining
Mô hình biểu diễn liên kết web
Sơ lược về tình hình nghiên cứu
và ứng dụng Web Mining
7.2 Trích rút thông tin từ các URL
7.2.1 Biểu diễn liên kết web
7.2.2 Kỹ thuật trích rút tin từ URL
7.2.3 Bóc tách tin theo mẫu
7.3 Máy tìm kiếm
7.3.1 Giới thiệu chung
7.3.2 Cấu trúc chung của máy tìm
kiếm
7.3.3 Nguyên tắc thực hiện của Robot
7.3.4 Hệ thống lập chỉ mục và các
phương pháp đánh chỉ mục, tính trọng
số
7.3.5 Máy tìm kiếm
User Interface
Query Engine
WebRank, PageRank
Một số vấn đề về nâng cao chất
lượng tìm kiếm
7.4 Web Structure Mining
7.4.1 Ý nghĩa thực tế
7.4.2 Một số tiếp cận thực hiện khai
phá cấu trúc web
7.4.3 Giới thiệu một số công cụ hỗ
trợ
7.4.4 Đánh giá, kết luận
7.5 Web Usage Mining
7.5.1 Ý nghĩa thực tế
7.5.2 Một số tiếp cận thực hiện khai
phá log web
7.5.3 Giới thiệu một số công cụ hỗ
trợ
7.5.4 Đánh giá, kết luận
nhà
- Chú ý
nghe giảng.
- Tích cực
tham gia
phát biểu ý
kiến
Bài tập
28
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Tự học, tự
nghiên
cứu
Tuần 12
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết
Bài tập 7.6 Bài tập xây dựng ứng dụng về
Web Mining
7.6.1 Xây dựng công cụ tự động thu
thập tin từ các URL theo mẫu tin đã
định trước
Định nghĩa, mô tả mẫu tin
Cài đặt ứng dụng lọc tin
Phân loại tin theo chủ đề
Khử trùng lặp dữ liệu
7.6.2 Xây dựng ứng dụng báo điện tử
7.6.3 Ứng dụng phân tích Web Usage
Đánh giá xu hướng người dùng
đối với các trang bán hàng, tin tức…
Cảnh báo về an ninh mạng
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Theo
bố trí
của P2,
phòng
máy
Học kỹ lý
thuyết
Nghiên cứu
kỹ các
hướng gợi ý
giải quyết ở
29
nhà
Cài đặt thuật
toán tại nhà
Thực hành
ngiêm túc.
Tự học, tự
nghiên
cứu
Tuần 13
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết Theo
bố trí
của P2,
Phòng
máy
Chủ đề 3. Multimedia Mining
8.1 Giới thiệu chung về Multimedia
Mining
8.1.1 Dữ liệu đa phương tiện
8.1.2 Các bài toán trong KPDL đa
phương tiện
8.1.3 Những thách thức chính trong
KPDL đa phương tiện
8.1.4 Sơ lược về tình hình nghiên cứu
và ứng dụng Multimedia Mining
8.2 Tìm kiếm, phân loại ảnh theo ngữ
nghĩa
8.2.1 Ý nghĩa bài toán
8.2.2 Mô hình bài toán phân loại ảnh
8.2.3 Đặc trưng ảnh
Đặc trưng màu sắc
Đặc trưng kết cấu
Đặc trưng hình dáng
Đặc trưng bất biến
8.2.4 Xác định độ đo tương tự
8.2.5 Một số tiếp cận phát hiện đối
tượng trên ảnh
8.2.6 Một số hệ thống tìm kiếm, phân
- Đọc trước
bài giảng ở
nhà
- Chú ý
nghe giảng.
- Tích cực
tham gia
phát biểu ý
kiến
30
loại ảnh
8.3 Khai phá dữ liệu trên CSDL video
8.3.1 Mô hình dữ liệu Video
8.3.2 Trích rút khung hình từ CSDL
Video
8.3.3 Truy vấn dữ liệu Video
8.3.4 Một số hệ thống khai phá dữ
liệu Video
Bài tập
Thảo luận Thảo luận về Multimedia mining
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Tự học, tự
nghiên
cứu
Tuần 14
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết
Bài tập 8.4 Bài tập KPDL đa phương tiện
8.4.1 Phân loại ảnh dựa trên các độ
đo tương tự
Cài đặt một số thuật toán xử lý
ảnh
Trích rút đặc trưng ảnh tạo vecto
đặc trưng
Phân loại ảnh
8.4.2 Phát hiện xâm nhập trên video
thu nhận từ camera
Thu nhận video từ Webcam,
Camera
Sử dụng một số phương pháp
31
phát hiện, cảnh báo có xâm nhập
Thảo luận
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Theo
bố trí
của P2,
Phòng
máy
Học kỹ lý
thuyết
Nghiên cứu
kỹ các
hướng gợi ý
giải quyết ở
nhà
Cài đặt thuật
toán tại nhà
Thực hành
ngiêm túc.
Tự học, tự
nghiên
cứu
Tuần 15
Hình
thức tổ
chức
dạy học
Thời
gian,
địa
điểm
Nội dung chính Yêu cầu SV
chuẩn bị
Ghi
chú
Lý thuyết Theo
bố trí
của P2
9.1 Hồi quy
Mô hình bài toán hồi quy
Hồi quy tuyến tính
Ứng dụng của hồi quy
9.2 Chuỗi thời gian
9.2.1 Khái niệm chuỗi thời gian
9.2.2 Các thành phần của chuỗi thời
gian
9.2.3 Các phương pháp làm trơn
9.2.4 Mô hình hóa việc dự báo giá trị
của đại lượng X
9.2.5 Dự báo
9.2.6 Mô hình ARMA và đánh giá
9.2.7 Một số vấn đề mở rộng về khai
- Đọc trước
bài giảng ở
nhà. Chú ý
nghe giảng.
32
phá dữ liệu trên chuỗi thời gian
9.3 Một số vấn đề về xu hướng và
triển vọng của KPDL
Bài tập
Thảo luận Thảo luận về triển vọng của KPDL
Thực
hành, thí
nghiệm,
thực tập,
rèn
nghề…
Tự học, tự
nghiên
cứu
8. Chính sách đối với học phần và các yêu cầu khác của giáo viên
- Sinh viên lên lớp đầy đủ
- Sinh viên thực hiện các chuyên đề môn học theo nhóm, hình thức tiểu luận,
thảo luận tại lớp. Mỗi nhóm từ 2-4 sinh viên
- Sinh viên hoàn thành bài tập môn học, sử dụng các công cụ hỗ trợ KPDL hoặc
tự xây dựng công cụ bằng NNLT (khuyến khích), mỗi sinh viên / 01 bài tập
môn học về xây dựng ứng dụng KPDL
- Sinh viên thi kết thúc môn học bằng hình thức thi vấn đáp với bộ câu hỏi ôn
tập
9. Phƣơng pháp, hình thức kiểm tra - đánh giá kết quả học tập học phần
9.1. Điểm chuyên cần: 10%
Mục đích: Nhằm hỗ trợ thúc đẩy việc học tập đầy đủ của sinh viên, rèn luyện
cho sinh viên ý thức học tập tốt.
Các kỹ thuật đánh giá:
Điểm danh các buổi lên lớp
Gọi lên bảng làm bài tập tại các buổi giảng bài
9.2. Điểm thường xuyên: 20%
Mục đích: Nhằm hỗ trợ thúc đẩy việc học tập thường xuyên của sinh viên,
đồng thời qua đó có được những thông tin phản hồi giúp giảng viên, sinh viên điều
chỉnh cách dạy, cách học, thay đổi phương pháp dạy, học cho phù hợp.
Các kỹ thuật đánh giá:
Đọc phần tài liệu đã hướng dẫn theo từng phần;
Bài tập theo từng nội dung môn học;
Kiểm tra giữa kỳ
33
9.3. Thi kết thúc học phần: 70%
Chủ nhiệm Khoa
(Ký và ghi rõ họ tên)
Chủ nhiệm Bộ môn
(Ký và ghi rõ họ tên)
Giảng viên biên soạn
(Ký và ghi rõ họ tên)