ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA...

33
KHOA CÔNG NGHỆ THÔNG TIN CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA MINING 1. Thông tin về giáo viên TT Họ tên giáo viên Học hàm Học vị Đơn vị công tác (Bộ môn) 1 Hồ Nhật Quang GV ThS Công nghệ phần mềm Thời gian, địa điểm làm việc: Bộ môn CNPM – Khoa CNTT Địa chỉ liên hệ: Điện thoại, email: [email protected] Các hướng nghiên cứu chính: Khai phá dữ liệu Kiểm thử phần mềm 2. Thông tin chung về học phần - Tên học phần: Khai phá dữ liệu - Mã học phần: 12557151 - Số tín chỉ: 3 - Cấu trúc học phần: - Học phần (bắt buộc hay lựa chọn): Lựa chọn - Các học phần tiên quyết: Hệ quản trị CSDL Các phương pháp tính toán số Trí tuệ nhân tạo - Các yêu cầu đối với học phần (nếu có): - Giờ tín chỉ đối với các hoạt động: Nghe giảng lý thuyết: 30 Làm bài tập trên lớp: 15 Thảo luận: 6 Thực hành, thực tập (ở PTN, nhà máy, thực tập...): 9 Hoạt động theo nhóm: Tự học: 66 - Khoa/Bộ môn phụ trách học phần, địa chỉ: Bộ môn CNPM – Khoa CNTT 3. Mục tiêu của học phần

Transcript of ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA...

Page 1: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

KHOA CÔNG NGHỆ THÔNG TIN

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU – DATA MINING

1. Thông tin về giáo viên

TT Họ tên giáo viên Học

hàm

Học vị Đơn vị công tác (Bộ môn)

1 Hồ Nhật Quang GV ThS Công nghệ phần mềm

Thời gian, địa điểm làm việc: Bộ môn CNPM – Khoa CNTT

Địa chỉ liên hệ:

Điện thoại, email: [email protected]

Các hướng nghiên cứu chính:

Khai phá dữ liệu

Kiểm thử phần mềm

2. Thông tin chung về học phần

- Tên học phần: Khai phá dữ liệu

- Mã học phần: 12557151

- Số tín chỉ: 3

- Cấu trúc học phần:

- Học phần (bắt buộc hay lựa chọn): Lựa chọn

- Các học phần tiên quyết:

Hệ quản trị CSDL

Các phương pháp tính toán số

Trí tuệ nhân tạo

- Các yêu cầu đối với học phần (nếu có):

- Giờ tín chỉ đối với các hoạt động:

Nghe giảng lý thuyết: 30

Làm bài tập trên lớp: 15

Thảo luận: 6

Thực hành, thực tập (ở PTN, nhà máy, thực tập...): 9

Hoạt động theo nhóm:

Tự học: 66

- Khoa/Bộ môn phụ trách học phần, địa chỉ: Bộ môn CNPM – Khoa CNTT

3. Mục tiêu của học phần

Page 2: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

2

- Kiến thức:

Hiểu các bước trong quá trình khám phá tri thức

Mô tả các khái niệm cơ bản, công nghệ và ứng dụng của khai phá dữ

liệu

Mô hình và mẫu dữ liệu

Nắm được các vấn đề về dữ liệu trong giai đoạn tiền xử lý cho các tác vụ

khai phá dữ liệu

Dữ liệu và độ đo

Tìm hiểu các bài toán khai phá dữ liệu phổ biến như hồi qui, phân loại,

gom cụm, và khai phá luật kết hợp

Sử dụng các giải thuật và công cụ khai phá dữ liệu để phát triển ứng

dụng khai phá dữ liệu

Được chuẩn bị về kiến thức để có thể nghiên cứu trong lĩnh vực khai phá

dữ liệu.

- Kỹ năng:

Khả năng hiểu ý nghĩa và vai trò của khai phá dữ liệu trong giải quyết

các bài toán thực tế trong tình hình kinh tế- xã hội-khoa học-kỹ thuật

ngày nay

Khả năng nhận dạng và hiểu các vấn đề liên quan đến dữ liệu sẽ được

khai phá và quá trình khai phá dữ liệu

Khả năng ứng dụng của khai phá dữ liệu vào các hoạt động cụ thể của

các đơn vị, tổ chức

Khả năng phân tích và xử lý dữ liệu cho quá trình khai phá dữ liệu

Khả năng phát triển các kỹ thuật khai phá dữ liệu

Khả năng phát triển ứng dụng khai phá dữ liệu

Khả năng vận dụng các tiện ích hỗ trợ khai phá dữ liệu được cung cấp

phổ biến ngày nay như Weka, MS SQL Server….

Khả năng tham gia phân tích và xử lý dữ liệu cho quá trình khai phá dữ

liệu

Khả năng tham gia phát triển các kỹ thuật khai phá dữ liệu

Khả năng tham gia phát triển ứng dụng khai phá dữ liệu

- Thái độ, chuyên cần:

Học viên lên lớp đầy đủ

4. Tóm tắt nội dung học phần (khoảng 150 từ)

Giới thiệu các kiến thức cơ bản về khai phá dữ liệu và quá trình khám phá tri

thức, các giai đoạn chính của quá trình khai phá dữ liệu và khám phá tri thức. Học

phần cũng cung cấp cho người học các bài toán chính (task) trong KPDL như phân

Page 3: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

3

lớp, phân cụm, hồi quy, chuỗi thời gian, luật kết hợp…cũng như cách sử dụng các

công cụ hỗ trợ xây dựng các ứng dụng KPDL.

5. Nội dung chi tiết học phần (tên các chương, mục, tiểu mục)

Số

TT

bài

STT

đề

mục

Tên gọi các phần, các đề mục Số

tiết

Giáo

trình,

TLTL

Ghi

chú

1 2 3 4 5 6

1

Chƣơng 1. Tổng quan về KPDL

3 [1,2,3,4]

1.1 Khai phá dữ liệu

1.1.1 Tại sao phải khai phá dữ liệu?

1.1.2 Các định nghĩa về khai phá dữ liệu

1.1.3 Các bước chính trong khám phá tri thức và

KPDL

1.1.4 Các dạng dữ liệu có thể KPDL

1.1.5 Các lĩnh vực liên quan đến KPDL

1.2 Các bài toán chính trong KPDL

1.2.1 Phân lớp (Classification)

1.2.2 Phân cụm (Clustering)

1.2.3 Luật kết hợp (Assoiation Rule)

1.2.4 Hồi quy và dự báo (Regression and Prediction)

1.2.5 Chuỗi thời gian (sequential/temporal patterns)

1.2.6 Mô tả khái niệm, tổng hợp (concept description

& summarization)

1.3 Ứng dụng & phân loại

1.3.1 Các lĩnh vực ứng dụng chính

1.3.2 Phân loại các hệ KPDL

Phân loại theo kiểu dữ liệu được khai phá

Phân loại theo dạng tri thức được khám phá

Phân loại dựa trên kỹ thuật được áp dụng

Phân loại dựa trên lĩnh vực được áp dụng

1.4 Những thách thức trong KPDL

1.5 Những vấn đề đƣợc chú trọng trong KPDL

1.6 Một số công cụ dùng KPDL

1.6.1 Weka

1.6.2 Clementine

1.6.3 SQL Server 2008

2 Chƣơng 2. Tiền xử lý dữ liệu 3 [1,2,4]

Page 4: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

4

3.1 Tại sao phải tiền xử lý dữ liệu ?

3.2 Chuẩn bị dữ liệu

3.2.1 Phân tích dữ liệu

3.2.2 Chuẩn hoá dữ liệu

3.3 Trích chọn dữ liệu

3.3.1 Trích chọn đặc tính

3.3.2 Trích chọn giá trị

3.4 Một số phƣơng pháp trích chọn thuộc tính

3.4.1 Tiếp cận theo phương pháp Filter

Thuật toán RELIEF

Thuật toán FOCUS

Thuật toán LVF

Thuật toán EBR

Thuật toán SCRAP

Lựa chọn nhóm

3.4.2 Tiếp cận theo phương pháp Wrapper

Thuật toán LVW

Thuật toán NeuralNet

3.4.3 Một số tiếp cận khác

Giải thuật di truyền

Rời rạc hóa dữ liệu

3.5. Thực hành tiền xử lý dữ liệu

3.5.1 Trích chọn thuộc tính trong Analysis

Services/MS SQL Server 2008

Shannon's entropy

Bayesian with K2 Prior

Bayesian Dirichlet Equivalent with Uniform

Prior

Interestingness score

3.5.2 Trích chọn thuộc tính trong Weka

Xếp hạng các thuộc tính (Ranking attributes)

Đánh trọng số các thuộc tính sử dụng Cross

Validation

Attribute Evaluator

3.5.3 Xây dựng ứng dụng tiền xử lý dữ liệu

Xử lý dữ liệu lỗi: mất giá trị, sai kiểu, có giá trị

khác thường…

Page 5: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

5

Xử lý chuyển đổi dữ liệu

Thống kê miền giá trị và phân bố giá trị

3

Chƣơng 3. Phân lớp

6 [1,2,4]

3.1 Phát biểu bài toán phân lớp

3.1.1 Mô hình bài toán

3.1.2 Một số ví dụ

3.1.3 Các bước giải bài toán

3.1.4 Một số tiếp cận chính giải quyết bài toán

3.1.5 Một số khó khăn khi giải BT

3.2 Kỹ thuật phân lớp dựa trên khoảng cách

3.2.1 Ý tưởng

3.2.2 Thuật toán k Người láng giềng gần nhất

3.2.3 Đánh giá thuật toán

3.2.4 Ví dụ minh họa

3.3 Kỹ thuật phân lớp dựa trên cây quyết định

3.3.1 Giới thiệu về cây quyết định

3.3.2 Các thuật toán tạo cây quyết định

Thuật toán ID3

Thuật toán C3.5

3.3.3 Một số vấn đề về cây quyết định

Avoiding over-fitting the data

Rule post-pruning

Incorporating Continuous-Valued Attributes

Handling Training Examples with Missing

Attribute Values

3.3.4 Đánh giá ưu nhược điểm của cây quyết định

3.3.5 Thực hành phân lớp dựa vào cây quyết định

trên phần mềm CABRO

3.4 Kỹ thuật phân lớp dựa trên mạng neuron

3.3.1 Nhắc lại một số khái niệm về mạng neuron

3.3.2 Mạng neuron perceptron đa lớp và giải thuật

học lan truyền ngược

3.3.3 Ứng dụng mạng neuron trong bài toán phân lớp

3.3.4 Đánh giá thuật toán

3.3.5 Ví dụ minh họa

3.5 Kỹ thuật phân lớp dựa trên thống kê xác

xuất

Page 6: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

6

3.5.1 Một số khái niệm về xác xuất

3.5.2 Lý thuyết xác xuất thống kê Bayets

3.5.3 Phân lớp dựa theo kỹ thuật thống kê xác xuất

3.5.4 Đánh giá thuật toán

3.5.5 Ví dụ minh hoạt

3.6 Thực hành phân lớp

3.6.1 Sử dụng Weka thực hành các bài tập phân lớp

Cây quyết định

Mạng neuron

Bayets

3.6.2 Xây dựng ứng dụng phân lớp

Nhận dạng chữ số viết tay

Cài đặt thuật toán ID3

Cài đặt mạng neuron perceptron đa lớp

Cài đặt thuật toán phân lớp Bayets

4

Chƣơng 4. Phân cụm

9 [1,2,4]

4.1 Phát biểu bài toán phân cụm

4.1.1 Phát biểu bài toán

4.1.2 Ứng dụng của bài toán

4.1.3 Đánh giá kết quả phân cụm

4.1.4 Các yêu cầu khi thực hiện phân cụm

4.1.5 Các tiếp cận chính giải bài toán phân cụm

4.2 Kỹ thuật phân hoạch

4.2.1 Ý tưởng thuật toán

4.2.2 Thuật toán K-Mean

4.2.3 Đánh giá ưu nhược điểm của thuật toán

4.2.4 Ví dụ minh họa

4.2.5 Các cải tiến của K-Mean

Thuật toán K-Medoid

Thuật toán CLARANS

Thuật toán DBSCAN

Thuật toán DBRS

4.2.6 Thuật toán FCM

Ý tưởng thuật toán

Thuật toán FCM

Đánh giá thuật toán

Phân đoạn ảnh sử dụng FCM

Page 7: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

7

4.3 Một số tiếp cận phân cụm khác

4.3.1 Các tiếp cận theo cấp bậc (cây)

4.3.2 Phân cụm dựa theo lưới (grid)

4.4 Thực hành xây dựng ứng dụng phân cụm

Phân đoạn ảnh sử dụng FCM

Phân cụm dữ liệu sử dụng K-Mean

5

Chƣơng 5. Luật kết hợp

12 [1,2,4]

5.1 Phát biểu bài toán

Các khái niệm

Giao dịch

Hạng mục

Độ hỗ trợ (phổ biến-support)

Độ tin cậy (confidence)

Tập phổ biến

Một số bổ đề trên tập phổ biến

Luật kết hợp

Ví dụ minh họa

5.2 Các giai đoạn của quá trình tìm luật kết hợp

5.3 Những hƣớng tiếp cận chính trong KPLKH

Luật kết hợp nhị phân (binary association rule

hoặc boolean association rule)

Luật kết hợp có thuộc tính số và thuộc tính

hạng mục (quantitative and categorical

association rule)

Luật kết hợp mờ (fuzzy association rule):

Luật kết hợp nhiều mức (multi-level association

rules):

Luật kết hợp với thuộc tính được đánh trọng số

(association rule with weighted items):

5.4 Thuật toán Apriori

Ý tưởng thuật toán

Các bước thực hiện của thuật toán

Ví dụ minh họa

Đánh giá thuật toán

5.5. Cải thiện thuật toán Apriori

Các cải tiến tăng tốc độ thưc thi Apriori

Page 8: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

8

Song song hóa thuật toán Apriori

Cấu trúc FP-Growth

5.6 Luật kết hợp có trọng số

Ý nghĩa thực tế

Một số giải thuật

Đánh giá thuật toán

Ví dụ minh họa

Ứng dụng

5.7 Luật kết hợp và đảm bảo tính riêng tƣ

Vấn đề đảm bảo tính riêng tư

Các chiến lược "ẩn" luật nhạy cảm

Đánh giá thuật toán

5.8 Thực hành khai phá luật kết hợp

5.8.1 Sử dụng thư viện MPI song song hóa thuật toán

khai phá luật kết hợp

Phân tích bài toán giỏ hàng

Cài đặt thuật toán Apriori: tìm tập phổ biến

Đánh giá kết quả thực nghiệm, so sánh

5.8.2

Cài đặt thuật toán Apriori cải tiến tìm luật kết

hợp có trọng số trong CSDL giao dịch mua

hàng

Cài đặt thuật toán

Các lựa chọn tham số thực hiện

Đánh giá kết quả

5.8.3 Sử dụng Weka khai phá luật kết hợp

6

Chƣơng 6. Text Mining

12 [1,2,4]

6.1 Tổng quan về Text Mining

Ý nnghĩa

Các bài toán trong Text Mining

Mô hình biểu diễn văn bản

Sơ lược về tình hình nghiên cứu và ứng dụng

Text Mining

6.2 Bài toán Tách từ Tiếng Việt

6.2.1 Vai trò của tách từ trong Text Mining

6.2.2 Nội dung bài toán tách từ

6.2.3 Một số khó khăn khi tách từ Tiếng Việt

Page 9: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

9

6.2.4 Một số hướng chính giải bài toán tách từ Tiếng

Việt

6.2.5 Tách từ dựa vào từ điển

Thuật toán Longest Matching

Thuật toán Maximal Matching

6.2.6 Tách từ dựa vào thống kê

Phương pháp Ngram

Phương pháp MaximumEntropi

6.2.7 Tách từ dựa trên phương pháp lai

6.2.8 Đánh giá thuật toán

6.2.9 Ví dụ minh họa

6.2.10 Xây dựng ứng dụng

6.3 Phân lớp văn bản

6.3.1 Quy trình giải bài toán phân lớp văn bản

6.3.2 Ứng dụng Thuật toán Bayest phân lớp văn bản

6.3.3 Đánh giá ưu nhược điểm của thuật toán

6.3.4 Ví dụ minh họa

6.4 Giới thiệu một số bài toán Text Mining khác

6.4.1 Tóm tắt văn bản (Text Summarization)

6.4.2 Phân tích cú pháp (Grammar analysis)

6.4.3 Kiểm lỗi chính tả (Check spelling)

6.4.4 Phân tích hình thái (Morpholigical analysis)

6.5 Thực hành xây dựng ứng dụng Text Mining

6.5.1 Bài toán phân loại thư rác

Giới thiệu bài toán

Cấu trúc email

Một số kỹ thuật phân loại thư rác

Ứng dụng Bayet trong lọc thư rác

Đánh giá

Một số mã nguồn mở về lọc thư rác

6.5.2 Các thuật toán tách từ Tiếng Việt

Cài đặt và thử nghiệm đánh giá

6.5.3 Cài đặt ứng dụng phân loại văn bản bằng thuật

toán xác xuất Bayet

7

Chƣơng 7. Web Mining

6 [4,5] 7.1 Tổng quan về Web Mining

Một số khái niệm về WebMining

Page 10: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

10

Các bài toán trong Web Mining

Mô hình biểu diễn liên kết web

Sơ lược về tình hình nghiên cứu và ứng dụng

Web Mining

7.2 Trích rút thông tin từ các URL

7.2.1 Biểu diễn liên kết web

7.2.2 Kỹ thuật trích rút tin từ URL

7.2.3 Bóc tách tin theo mẫu

7.3 Máy tìm kiếm

7.3.1 Giới thiệu chung

7.3.2 Cấu trúc chung của máy tìm kiếm

7.3.3 Nguyên tắc thực hiện của Robot

7.3.4 Hệ thống lập chỉ mục và các phương pháp đánh

chỉ mục, tính trọng số

7.3.5 Máy tìm kiếm

User Interface

Query Engine

WebRank, PageRank

Một số vấn đề về nâng cao chất lượng tìm kiếm

7.4 Web Structure Mining

7.4.1 Ý nghĩa thực tế

7.4.2 Một số tiếp cận thực hiện khai phá cấu trúc web

7.4.3 Giới thiệu một số công cụ hỗ trợ

7.4.4 Đánh giá, kết luận

7.5 Web Usage Mining

7.5.1 Ý nghĩa thực tế

7.5.2 Một số tiếp cận thực hiện khai phá log web

7.5.3 Giới thiệu một số công cụ hỗ trợ

7.5.4 Đánh giá, kết luận

7.6 Thực hành xây dựng ứng dụng về Web

Mining

7.6.1 Xây dựng công cụ tự động thu thập tin từ các

URL theo mẫu tin đã định trước

Định nghĩa, mô tả mẫu tin

Cài đặt ứng dụng lọc tin

Phân loại tin theo chủ đề

Khử trùng lặp dữ liệu

Page 11: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

11

7.6.2 Xây dựng ứng dụng báo điện tử

7.6.3 Ứng dụng phân tích Web Usage

Đánh giá xu hướng người dùng đối với các

trang bán hàng, tin tức…

Cảnh báo về an ninh mạng

8

Chƣơng 8. Multimedia Mining

6 [4,5]

8.1 Giới thiệu chung về Multimedia Mining

8.1.1 Dữ liệu đa phương tiện

8.1.2 Các bài toán trong KPDL đa phương tiện

8.1.3 Những thách thức chính trong KPDL đa

phương tiện

8.1.4 Sơ lược về tình hình nghiên cứu và ứng dụng

Multimedia Mining

8.2 Tìm kiếm, phân loại ảnh theo ngữ nghĩa

8.2.1 Ý nghĩa bài toán

8.2.2 Mô hình bài toán phân loại ảnh

8.2.3 Đặc trưng ảnh

Đặc trưng màu sắc

Đặc trưng kết cấu

Đặc trưng hình dáng

Đặc trưng bất biến

8.2.4 Xác định độ đo tương tự

8.2.5 Một số tiếp cận phát hiện đối tượng trên ảnh

8.2.6 Một số hệ thống tìm kiếm, phân loại ảnh

8.3 Khai phá dữ liệu trên CSDL video

8.3.1 Mô hình dữ liệu Video

8.3.2 Trích rút khung hình từ CSDL Video

8.3.3 Truy vấn dữ liệu Video

8.3.4 Một số hệ thống khai phá dữ liệu Video

8.4 Thực hành KPDL đa phƣơng tiện

8.4.1 Phân loại ảnh dựa trên các độ đo tương tự

Cài đặt một số thuật toán xử lý ảnh

Trích rút đặc trưng ảnh tạo vecto đặc trưng

Phân loại ảnh

8.4.2 Phát hiện xâm nhập trên video thu nhận từ

camera

Thu nhận video từ Webcam, Camera

Page 12: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

12

Sử dụng một số phương pháp phát hiện, cảnh

báo có xâm nhập

9

Chƣơng 9. Một số bài toán khác

3 [3,4,5]

9.1 Hồi quy

Mô hình bài toán hồi quy

Hồi quy tuyến tính

Ứng dụng của hồi quy

9.2 Chuỗi thời gian

9.2.1 Khái niệm chuỗi thời gian

9.2.2 Các thành phần của chuỗi thời gian

9.2.3 Các phương pháp làm trơn

9.2.4 Mô hình hóa việc dự báo giá trị của đại lượng

X

9.2.5 Dự báo

9.2.6 Mô hình ARMA và đánh giá

9.2.7 Một số vấn đề mở rộng về khai phá dữ liệu trên

chuỗi thời gian

9.3 Một số vấn đề về xu hƣớng và triển vọng của

KPDL

6. Giáo trình, tài liệu tham khảo

TT Tên tài liệu

Tình trạng tài liệu

trên

thư

viện

Giáo viên

hoặc Khoa

có, cho

mượn để TV

pho tô hoặc

có File Điện

tử

Đề

nghị

mua

mới

Đề

nghị

biên

soạn

mới

1 Ho Tu Bao, Introduction to Knowledge

Discovery and Data Mining, National

Center for Natural Science and Technology,

2002

X

2 Morgan Kaufman, Data Mining: Concepts

and Techniques, Morgan Kaufmann

X

Page 13: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

13

Publishers, 2002

3 John Wang, Data Mining - Opportunities

and Challenges, Idea Group Publishing,

2003

X

4 Jiawei Han and Micheline Kamber, Data

Mining Concepts and Techniques,

University of Illinois, Morgan Kaufmann

Publishers, 2002

X

5 Usama M. Fayyad, Gregory Piatetsky-

Shapiro, Padhraic Smyth, and Ramasamy

Uthurusamy, Advances in Knowledge

Discovery and Data Mining, AAAI

Press/The MIT Press, 1996

X

7. Hình thức tổ chức dạy học

7.1. Lịch trình chung: (Ghi tổng số giờ cho mỗi cột)

Nội dung

Hình thức tổ chức dạy học học phần

Tổng Lên lớp Thực hành,

thí nghiệm,

thực tập...

Tự học,

tự ng.cứu Lý

thuyết

Bài

tập

Thảo

luận

Chương 1: Tổng

quan về KPDL

3 3

Chương 2: Tiền

xử lý dữ liệu

3 6 3

Chương 3: Phân

lớp

3 3 9 6

Chương 4: Phân

cụm

3 3 3 9 9

Chương 5: Luật

kết hợp

6 3 3 9 12

Chương 6: Text

Mining

3 3 3 3 9 12

Chương 7 : Web

Mining

3 3 9 6

Chương 8 :

Multimedia

Mining

3 3 9 6

Page 14: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

14

Chương 9 – Một

số bài toán khác

3 6 3

30 15 6 9 66 60

7.2. Lịch trình tổ chức dạy học cụ thể

Tuần 1

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết Theo

bố trí

của P2

Chương 1. Tổng quan về KPDL

1.1 Khai phá dữ liệu

1.1.1 Tại sao phải khai phá dữ liệu?

1.1.2 Các định nghĩa về khai phá dữ

liệu

1.1.3 Các bước chính trong khám phá

tri thức và KPDL

1.1.4 Các dạng dữ liệu có thể KPDL

1.1.5 Các lĩnh vực liên quan đến

KPDL

1.2 Các bài toán chính trong KPDL

1.2.1 Phân lớp (Classification)

1.2.2 Phân cụm (Clustering)

1.2.3 Luật kết hợp (Assoiation Rule)

1.2.4 Hồi quy và dự báo (Regression

and Prediction)

1.2.5 Chuỗi thời gian

(sequential/temporal patterns)

1.2.6 Mô tả khái niệm, tổng hợp

(concept description &

summarization)

1.3 Ứng dụng & phân loại

1.3.1 Các lĩnh vực ứng dụng chính

1.3.2 Phân loại các hệ KPDL

Phân loại theo kiểu dữ liệu được

khai phá

Phân loại theo dạng tri thức được

khám phá

- Đọc trước

bài giảng ở

nhà

- Chú ý

nghe giảng.

- Tích cực

tham gia

phát biểu ý

kiến

Page 15: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

15

Phân loại dựa trên kỹ thuật được

áp dụng

Phân loại dựa trên lĩnh vực được

áp dụng

1.4 Những thách thức trong KPDL

1.5 Những vấn đề được chú trọng

trong KPDL

1.6 Một số công cụ dùng KPDL

1.6.1 Weka

1.6.2 Clementine

1.6.3 SQL Server 2008

Bài tập

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Tự học, tự

nghiên

cứu

Tuần 2

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết Theo

bố trí

của P2

Chương 2. Tiền xử lý dữ liệu

3.1 Tại sao phải tiền xử lý dữ liệu ?

3.2 Chuẩn bị dữ liệu

3.2.1 Phân tích dữ liệu

3.2.2 Chuẩn hoá dữ liệu

3.3 Trích chọn dữ liệu

3.3.1 Trích chọn đặc tính

3.3.2 Trích chọn giá trị

3.4 Một số phương pháp trích chọn

thuộc tính

- Đọc trước

bài giảng ở

nhà

- Chú ý

nghe giảng.

- Tích cực

tham gia

phát biểu ý

Page 16: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

16

3.4.1 Tiếp cận theo phương pháp

Filter

Thuật toán RELIEF

Thuật toán FOCUS

Thuật toán LVF

Thuật toán EBR

Thuật toán SCRAP

Lựa chọn nhóm

3.4.2 Tiếp cận theo phương pháp

Wrapper

Thuật toán LVW

Thuật toán NeuralNet

3.4.3 Một số tiếp cận khác

Giải thuật di truyền

Rời rạc hóa dữ liệu

3.5. Thực hành tiền xử lý dữ liệu

3.5.1 Trích chọn thuộc tính trong

Analysis Services/MS SQL Server

2008

Shannon's entropy

Bayesian with K2 Prior

Bayesian Dirichlet Equivalent

with Uniform Prior

Interestingness score

3.5.2 Trích chọn thuộc tính trong

Weka

Xếp hạng các thuộc tính

(Ranking attributes)

Đánh trọng số các thuộc tính sử

dụng Cross Validation

Attribute Evaluator

3.5.3 Xây dựng ứng dụng tiền xử lý

dữ liệu

Xử lý dữ liệu lỗi: mất giá trị, sai

kiểu, có giá trị khác thường…

Xử lý chuyển đổi dữ liệu

Thống kê miền giá trị và phân bố

giá trị

kiến

Page 17: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

17

Bài tập

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Tự học, tự

nghiên

cứu

Tuần 3

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết Theo

bố trí

của P2

Chương 3. Phân lớp

3.1 Phát biểu bài toán phân lớp

3.1.1 Mô hình bài toán

3.1.2 Một số ví dụ

3.1.3 Các bước giải bài toán

3.1.4 Một số tiếp cận chính giải quyết

bài toán

3.1.5 Một số khó khăn khi giải BT

3.2 Kỹ thuật phân lớp dựa trên

khoảng cách

3.2.1 Ý tưởng

3.2.2 Thuật toán k Người láng giềng

gần nhất

3.2.3 Đánh giá thuật toán

3.2.4 Ví dụ minh họa

3.3 Kỹ thuật phân lớp dựa trên cây

quyết định

3.3.1 Giới thiệu về cây quyết định

3.3.2 Các thuật toán tạo cây quyết

định

Thuật toán ID3

- Đọc trước

bài giảng ở

nhà

- Chú ý

nghe giảng.

- Tích cực

tham gia

phát biểu ý

kiến

Page 18: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

18

Thuật toán C3.5

3.3.3 Một số vấn đề về cây quyết

định

Avoiding over-fitting the data

Rule post-pruning

Incorporating Continuous-Valued

Attributes

Handling Training Examples with

Missing Attribute Values

3.3.4 Đánh giá ưu nhược điểm của

cây quyết định

3.3.5 Thực hành phân lớp dựa vào

cây quyết định trên phần mềm

CABRO

3.4 Kỹ thuật phân lớp dựa trên mạng

neuron

3.3.1 Nhắc lại một số khái niệm về

mạng neuron

3.3.2 Mạng neuron perceptron đa lớp

và giải thuật học lan truyền ngược

3.3.3 Ứng dụng mạng neuron trong

bài toán phân lớp

3.3.4 Đánh giá thuật toán

3.3.5 Ví dụ minh họa

3.5 Kỹ thuật phân lớp dựa trên thống

kê xác xuất

3.5.1 Một số khái niệm về xác xuất

3.5.2 Lý thuyết xác xuất thống kê

Bayets

3.5.3 Phân lớp dựa theo kỹ thuật

thống kê xác xuất

3.5.4 Đánh giá thuật toán

3.5.5 Ví dụ minh hoạt

Bài tập

Thảo luận

Thực

hành, thí

nghiệm,

Page 19: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

19

thực tập,

rèn

nghề…

Tự học, tự

nghiên

cứu

Tuần 4

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết

Bài tập

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Theo

bố trí

của P2,

phòng

máy

3.6 Thực hành phân lớp

3.6.1 Sử dụng Weka thực hành các

bài tập phân lớp

Cây quyết định

Mạng neuron

Bayets

3.6.2 Xây dựng ứng dụng phân lớp

Nhận dạng chữ số viết tay

Cài đặt thuật toán ID3

Cài đặt mạng neuron perceptron

đa lớp

Cài đặt thuật toán phân lớp

Bayets

Tự học, tự

nghiên

cứu

Tuần 5

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Page 20: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

20

Lý thuyết Theo

bố trí

của P2

Chương 4. Phân cụm

4.1 Phát biểu bài toán phân cụm

4.1.1 Phát biểu bài toán

4.1.2 Ứng dụng của bài toán

4.1.3 Đánh giá kết quả phân cụm

4.1.4 Các yêu cầu khi thực hiện phân

cụm

4.1.5 Các tiếp cận chính giải bài toán

phân cụm

4.2 Kỹ thuật phân hoạch

4.2.1 Ý tưởng thuật toán

4.2.2 Thuật toán K-Mean

4.2.3 Đánh giá ưu nhược điểm của

thuật toán

4.2.4 Ví dụ minh họa

4.2.5 Các cải tiến của K-Mean

Thuật toán K-Medoid

Thuật toán CLARANS

Thuật toán DBSCAN

Thuật toán DBRS

4.2.6 Thuật toán FCM

Ý tưởng thuật toán

Thuật toán FCM

Đánh giá thuật toán

Phân đoạn ảnh sử dụng FCM

4.3 Một số tiếp cận phân cụm khác

4.3.1 Các tiếp cận theo cấp bậc (cây)

4.3.2 Phân cụm dựa theo lưới (grid)

- Đọc trước

bài giảng ở

nhà

- Chú ý

nghe giảng.

- Tích cực

tham gia

phát biểu ý

kiến

Bài tập Bài tập về phân lớp, phân cụm

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Tự học, tự

nghiên

Page 21: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

21

cứu

Tuần 6

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết

Bài tập

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Theo

bố trí

của P2,

Phòng

máy

4.3 Một số tiếp cận phân cụm khác

4.3.1 Các tiếp cận theo cấp bậc (cây)

4.3.2 Phân cụm dựa theo lưới (grid)

4.4 Thực hành xây dựng ứng dụng

phân cụm

Phân đoạn ảnh sử dụng FCM

Sử dụng Matlap

Cài đặt trên NNLT

Phân cụm dữ liệu sử dụng K-

Mean

Sử dụng Weka

Sử dụng các công cụ hỗ trợ

khác

Cài đặt trên NNLT

Cài đặt các biến thể của K-mean

Tự học, tự

nghiên

cứu

Tuần 7

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết Theo

bố trí

của P2

Chương 5. Luật kết hợp

5.1 Phát biểu bài toán

Các khái niệm

- Đọc trước

bài giảng ở

nhà

Page 22: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

22

Giao dịch

Hạng mục

Độ hỗ trợ (phổ biến-support)

Độ tin cậy (confidence)

Tập phổ biến

Một số bổ đề trên tập phổ biến

Luật kết hợp

Ví dụ minh họa

5.2 Các giai đoạn của quá trình tìm

luật kết hợp

5.3 Những hướng tiếp cận chính trong

KPLKH

Luật kết hợp nhị phân (binary

association rule hoặc boolean

association rule)

Luật kết hợp có thuộc tính số và

thuộc tính hạng mục (quantitative and

categorical association rule)

Luật kết hợp mờ (fuzzy

association rule):

Luật kết hợp nhiều mức (multi-

level association rules):

Luật kết hợp với thuộc tính được

đánh trọng số (association rule with

weighted items):

5.4 Thuật toán Apriori

Ý tưởng thuật toán

Các bước thực hiện của thuật toán

Ví dụ minh họa

Đánh giá thuật toán

5.5. Cải thiện thuật toán Apriori

Các cải tiến tăng tốc độ thưc thi

Apriori

Song song hóa thuật toán Apriori

Cấu trúc FP-Growth

5.6 Luật kết hợp có trọng số

Ý nghĩa thực tế

Một số giải thuật

- Chú ý

nghe giảng.

- Tích cực

tham gia

phát biểu ý

kiến

Page 23: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

23

Đánh giá thuật toán

Ví dụ minh họa

Ứng dụng

5.7 Luật kết hợp và đảm bảo tính

riêng tư

Vấn đề đảm bảo tính riêng tư

Các chiến lược "ẩn" luật nhạy

cảm

Đánh giá thuật toán

Bài tập Bài tập về luật kết hợp

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Tự học, tự

nghiên

cứu

Tuần 8

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết

Bài tập 5.8 Bài tập khai phá luật kết hợp

5.8.1 Sử dụng thư viện MPI song

song hóa thuật toán khai phá luật kết

hợp

Phân tích bài toán giỏ hàng

Cài đặt thuật toán Apriori: tìm

tập phổ biến

Đánh giá kết quả thực nghiệm,

so sánh

5.8.2 Cài đặt thuật toán Apriori cải

tiến tìm luật kết hợp có trọng số trong

Page 24: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

24

CSDL giao dịch mua hàng

Cài đặt thuật toán

Các lựa chọn tham số thực hiện

Đánh giá kết quả

5.8.3 Sử dụng Weka khai phá luật kết

hợp

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Theo

bố trí

của P2,

phòng

máy

Tự học, tự

nghiên

cứu

Tuần 9

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết Theo

bố trí

của P2

Chủ đề 1. Text Mining

6.1 Tổng quan về Text Mining

Ý nnghĩa

Các bài toán trong Text Mining

Mô hình biểu diễn văn bản

Sơ lược về tình hình nghiên cứu

và ứng dụng Text Mining

6.2 Bài toán Tách từ Tiếng Việt

6.2.1 Vai trò của tách từ trong Text

Mining

6.2.2 Nội dung bài toán tách từ

6.2.3 Một số khó khăn khi tách từ

Tiếng Việt

6.2.4 Một số hướng chính giải bài

toán tách từ Tiếng Việt

6.2.5 Tách từ dựa vào từ điển

- Đọc trước

bài giảng ở

nhà

- Chú ý

nghe giảng.

- Tích cực

tham gia

phát biểu ý

kiến

Page 25: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

25

Thuật toán Longest Matching

Thuật toán Maximal Matching

6.2.6 Tách từ dựa vào thống kê

Phương pháp Ngram

Phương pháp MaximumEntropi

6.2.7 Tách từ dựa trên phương pháp

lai

6.2.8 Đánh giá thuật toán

6.2.9 Ví dụ minh họa

6.2.10 Xây dựng ứng dụng

6.3 Phân lớp văn bản

6.3.1 Quy trình giải bài toán phân lớp

văn bản

6.3.2 Ứng dụng Thuật toán Bayest

phân lớp văn bản

6.3.3 Đánh giá ưu nhược điểm của

thuật toán

6.3.4 Ví dụ minh họa

6.4 Giới thiệu một số bài toán Text

Mining khác

6.4.1 Tóm tắt văn bản (Text

Summarization)

6.4.2 Phân tích cú pháp (Grammar

analysis)

6.4.3 Kiểm lỗi chính tả (Check

spelling)

6.4.4 Phân tích hình thái

(Morpholigical analysis)

Bài tập Bài tập về text mining

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Tự học, tự

nghiên

Page 26: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

26

cứu

Tuần 10

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết

Bài tập

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Theo

bố trí

của P2,

phòng

máy

6.5 Thực hành xây dựng ứng dụng

Text Mining

6.5.1 Bài toán phân loại thư rác

Giới thiệu bài toán

Cấu trúc email

Một số kỹ thuật phân loại thư

rác

Ứng dụng Bayet trong lọc thư

rác

Đánh giá

Một số mã nguồn mở về lọc thư

rác

6.5.2 Các thuật toán tách từ Tiếng

Việt

Cài đặt và thử nghiệm đánh giá

6.5.3 Cài đặt ứng dụng phân loại văn

bản bằng thuật toán xác xuất Bayet

Học kỹ lý

thuyết

Nghiên cứu

kỹ các

hướng gợi ý

giải quyết ở

nhà

Cài đặt thuật

toán tại nhà

Thực hành

ngiêm túc.

Tự học, tự

nghiên

cứu

Tuần 11

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết Theo

bố trí

Chủ đề 2. Web Mining

7.1 Tổng quan về Web Mining

- Đọc trước

bài giảng ở

Page 27: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

27

của P2 Một số khái niệm về WebMining

Các bài toán trong Web Mining

Mô hình biểu diễn liên kết web

Sơ lược về tình hình nghiên cứu

và ứng dụng Web Mining

7.2 Trích rút thông tin từ các URL

7.2.1 Biểu diễn liên kết web

7.2.2 Kỹ thuật trích rút tin từ URL

7.2.3 Bóc tách tin theo mẫu

7.3 Máy tìm kiếm

7.3.1 Giới thiệu chung

7.3.2 Cấu trúc chung của máy tìm

kiếm

7.3.3 Nguyên tắc thực hiện của Robot

7.3.4 Hệ thống lập chỉ mục và các

phương pháp đánh chỉ mục, tính trọng

số

7.3.5 Máy tìm kiếm

User Interface

Query Engine

WebRank, PageRank

Một số vấn đề về nâng cao chất

lượng tìm kiếm

7.4 Web Structure Mining

7.4.1 Ý nghĩa thực tế

7.4.2 Một số tiếp cận thực hiện khai

phá cấu trúc web

7.4.3 Giới thiệu một số công cụ hỗ

trợ

7.4.4 Đánh giá, kết luận

7.5 Web Usage Mining

7.5.1 Ý nghĩa thực tế

7.5.2 Một số tiếp cận thực hiện khai

phá log web

7.5.3 Giới thiệu một số công cụ hỗ

trợ

7.5.4 Đánh giá, kết luận

nhà

- Chú ý

nghe giảng.

- Tích cực

tham gia

phát biểu ý

kiến

Bài tập

Page 28: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

28

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Tự học, tự

nghiên

cứu

Tuần 12

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết

Bài tập 7.6 Bài tập xây dựng ứng dụng về

Web Mining

7.6.1 Xây dựng công cụ tự động thu

thập tin từ các URL theo mẫu tin đã

định trước

Định nghĩa, mô tả mẫu tin

Cài đặt ứng dụng lọc tin

Phân loại tin theo chủ đề

Khử trùng lặp dữ liệu

7.6.2 Xây dựng ứng dụng báo điện tử

7.6.3 Ứng dụng phân tích Web Usage

Đánh giá xu hướng người dùng

đối với các trang bán hàng, tin tức…

Cảnh báo về an ninh mạng

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Theo

bố trí

của P2,

phòng

máy

Học kỹ lý

thuyết

Nghiên cứu

kỹ các

hướng gợi ý

giải quyết ở

Page 29: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

29

nhà

Cài đặt thuật

toán tại nhà

Thực hành

ngiêm túc.

Tự học, tự

nghiên

cứu

Tuần 13

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết Theo

bố trí

của P2,

Phòng

máy

Chủ đề 3. Multimedia Mining

8.1 Giới thiệu chung về Multimedia

Mining

8.1.1 Dữ liệu đa phương tiện

8.1.2 Các bài toán trong KPDL đa

phương tiện

8.1.3 Những thách thức chính trong

KPDL đa phương tiện

8.1.4 Sơ lược về tình hình nghiên cứu

và ứng dụng Multimedia Mining

8.2 Tìm kiếm, phân loại ảnh theo ngữ

nghĩa

8.2.1 Ý nghĩa bài toán

8.2.2 Mô hình bài toán phân loại ảnh

8.2.3 Đặc trưng ảnh

Đặc trưng màu sắc

Đặc trưng kết cấu

Đặc trưng hình dáng

Đặc trưng bất biến

8.2.4 Xác định độ đo tương tự

8.2.5 Một số tiếp cận phát hiện đối

tượng trên ảnh

8.2.6 Một số hệ thống tìm kiếm, phân

- Đọc trước

bài giảng ở

nhà

- Chú ý

nghe giảng.

- Tích cực

tham gia

phát biểu ý

kiến

Page 30: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

30

loại ảnh

8.3 Khai phá dữ liệu trên CSDL video

8.3.1 Mô hình dữ liệu Video

8.3.2 Trích rút khung hình từ CSDL

Video

8.3.3 Truy vấn dữ liệu Video

8.3.4 Một số hệ thống khai phá dữ

liệu Video

Bài tập

Thảo luận Thảo luận về Multimedia mining

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Tự học, tự

nghiên

cứu

Tuần 14

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết

Bài tập 8.4 Bài tập KPDL đa phương tiện

8.4.1 Phân loại ảnh dựa trên các độ

đo tương tự

Cài đặt một số thuật toán xử lý

ảnh

Trích rút đặc trưng ảnh tạo vecto

đặc trưng

Phân loại ảnh

8.4.2 Phát hiện xâm nhập trên video

thu nhận từ camera

Thu nhận video từ Webcam,

Camera

Sử dụng một số phương pháp

Page 31: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

31

phát hiện, cảnh báo có xâm nhập

Thảo luận

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Theo

bố trí

của P2,

Phòng

máy

Học kỹ lý

thuyết

Nghiên cứu

kỹ các

hướng gợi ý

giải quyết ở

nhà

Cài đặt thuật

toán tại nhà

Thực hành

ngiêm túc.

Tự học, tự

nghiên

cứu

Tuần 15

Hình

thức tổ

chức

dạy học

Thời

gian,

địa

điểm

Nội dung chính Yêu cầu SV

chuẩn bị

Ghi

chú

Lý thuyết Theo

bố trí

của P2

9.1 Hồi quy

Mô hình bài toán hồi quy

Hồi quy tuyến tính

Ứng dụng của hồi quy

9.2 Chuỗi thời gian

9.2.1 Khái niệm chuỗi thời gian

9.2.2 Các thành phần của chuỗi thời

gian

9.2.3 Các phương pháp làm trơn

9.2.4 Mô hình hóa việc dự báo giá trị

của đại lượng X

9.2.5 Dự báo

9.2.6 Mô hình ARMA và đánh giá

9.2.7 Một số vấn đề mở rộng về khai

- Đọc trước

bài giảng ở

nhà. Chú ý

nghe giảng.

Page 32: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

32

phá dữ liệu trên chuỗi thời gian

9.3 Một số vấn đề về xu hướng và

triển vọng của KPDL

Bài tập

Thảo luận Thảo luận về triển vọng của KPDL

Thực

hành, thí

nghiệm,

thực tập,

rèn

nghề…

Tự học, tự

nghiên

cứu

8. Chính sách đối với học phần và các yêu cầu khác của giáo viên

- Sinh viên lên lớp đầy đủ

- Sinh viên thực hiện các chuyên đề môn học theo nhóm, hình thức tiểu luận,

thảo luận tại lớp. Mỗi nhóm từ 2-4 sinh viên

- Sinh viên hoàn thành bài tập môn học, sử dụng các công cụ hỗ trợ KPDL hoặc

tự xây dựng công cụ bằng NNLT (khuyến khích), mỗi sinh viên / 01 bài tập

môn học về xây dựng ứng dụng KPDL

- Sinh viên thi kết thúc môn học bằng hình thức thi vấn đáp với bộ câu hỏi ôn

tập

9. Phƣơng pháp, hình thức kiểm tra - đánh giá kết quả học tập học phần

9.1. Điểm chuyên cần: 10%

Mục đích: Nhằm hỗ trợ thúc đẩy việc học tập đầy đủ của sinh viên, rèn luyện

cho sinh viên ý thức học tập tốt.

Các kỹ thuật đánh giá:

Điểm danh các buổi lên lớp

Gọi lên bảng làm bài tập tại các buổi giảng bài

9.2. Điểm thường xuyên: 20%

Mục đích: Nhằm hỗ trợ thúc đẩy việc học tập thường xuyên của sinh viên,

đồng thời qua đó có được những thông tin phản hồi giúp giảng viên, sinh viên điều

chỉnh cách dạy, cách học, thay đổi phương pháp dạy, học cho phù hợp.

Các kỹ thuật đánh giá:

Đọc phần tài liệu đã hướng dẫn theo từng phần;

Bài tập theo từng nội dung môn học;

Kiểm tra giữa kỳ

Page 33: ĐỀ CƢƠNG CHI TIẾT HỌC PHẦN KHAI PHÁ DỮ LIỆU DATA …fit.mta.edu.vn/files/FileMonHoc/20121023838.pdf · 3 lớp, phân cụm, hồi quy, chuỗi thời gian, luật

33

9.3. Thi kết thúc học phần: 70%

Chủ nhiệm Khoa

(Ký và ghi rõ họ tên)

Chủ nhiệm Bộ môn

(Ký và ghi rõ họ tên)

Giảng viên biên soạn

(Ký và ghi rõ họ tên)