Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới...
Transcript of Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới...
![Page 1: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/1.jpg)
Hồiquy(Regression)
NguyễnThanhTùngBài giảng của DSLab
Viện nghiên cứu cao cấp về Toán (VIASM)
![Page 2: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/2.jpg)
2
Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem
![Page 3: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/3.jpg)
Các dạng giải thuật học máy
ClusterAnalysis
Dimensionality Reduction
Classification Regression
KNN
Supervised Unsupervised
Yes No
Doyouhavelabeleddata?
Doyouwanttogroupthe data?
Yes NoWhatdoyouwantto predict?
Category Quantity
PCALogistic
Regression
CART LASSOSVM
K-meansICA
LinearRegression
3
![Page 4: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/4.jpg)
4
MôhìnhHồiquy• Xét:
• Các phương pháp học giám sát:– Học bởi các ví dụ (quan sát)-“Learnby example”– Xây dựng mô hình sử dụng tập các quan sát đãđược gắn nhãn
– Ycókiểudữliệuliêntục
![Page 5: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/5.jpg)
5
Ví dụ về Quảng cáo• Doanh nghiệp có thể điều chỉnh chiến lược quảng cáo sản
phẩm (advertising)để tăng doanh số bán hàng (sales).• Dữ liệu:Doanh số bán hàng và ngân sách quảng cáo cho 3
phương tiện truyền thông (TV, radio,newspaper).
Figure2.1,ISL2013
![Page 6: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/6.jpg)
6
MôhìnhHồiquy• Giải thuật học
– Lấy hàm ước lượng “tốt nhất”trong tập các hàm
• Ví dụ:Hồi quy tuyến tính– Chọn 1ước lượng tốt nhất từ dữ liệu học trong tậpcác hàm tuyến tính
![Page 7: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/7.jpg)
7
Hàmtổnthất
Saisố bình phương (Squarederror)
Saisố tuyệt đối (Absolute error)iθ −θi∑
i
ˆi i(θ −θ )2∑
i
ˆi iL(θ ,θ )
![Page 8: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/8.jpg)
8
BàitoánHồiquy
argumentminimum:Chogiá trị nhỏ nhất của 1hàm số trongmiền xácđịnh
![Page 9: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/9.jpg)
9
Đo hiệu năng bài toán hồi quy
• Hàm tổnthất (Lossfunction): loạihàmdùngđểđolườngsaisốcủamôhình
• Vd: Saisốbình phươngtrungbình (Meansquarederror - MSE)– Độ đo thông dụng dùng để tính độ chính xác bài toán hồi quy
– Tập trung đo các sai số lớn hơn là các sai số nhỏ
![Page 10: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/10.jpg)
10
Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem
![Page 11: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/11.jpg)
Hiện tượng quákhớpOverfitting
11
![Page 12: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/12.jpg)
12
Vấn đề: Overfitting• Quá khớp (Overfitting):Học sự biến thiênngẫu nhiêntrongdữ liệu hơn là xu hướng cơ bản
• Đặc điểmcủa overfitting:– Mô hình có hiệu năng cao trên dữ liệu học nhưng kémtrên tập dữ liệu thử nghiệm.
![Page 13: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/13.jpg)
Underfitting và Overfitting
VHTiệp-MLCB
• Có50điểmdữliệuđượctạobằngmộtđathứcbậcbacộngthêmnhiễu.
• Đồ thị của đa thức cómàu xanhlục (truemodel).
• Bài toán:Giả sử takhông biết môhình banđầu mà chỉ biết cácđiểm dữ liệu,hãy tìmmột môhình “tốt”để mô tả dữ liệu đãcho?
• Với d=2,mô hình không thựcsự tốt vì dự đoánquákhác sovớimô hình thực:underfitting
• Với d=8và d=16,vớicácđiểmdữliệutrongkhoảngcủatrainingdata,môhìnhdựđoánvàmôhìnhthựclàkhágiốngnhau.Tuynhiên,vềphíaphải,đathứcbậc8 và16 chokếtquảhoàntoànngượcvớixuhướngcủadữliệu:Overfitting.
• d=4,mô hình tốtnhất.13
![Page 14: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/14.jpg)
14
Đánh giá hiệu năng• Lỗi huấn luyện và lỗi kiểm thử thể hiện khác nhau
– Tính linh hoạt của mô hình tăng lên…
– Lỗi huấn luyện giảm
– Lỗi kiểm thử banđầu giảm,Nhưng sau đó tăng lên vì overfittingà“U-shaped”lỗi kiểmthử dạng chữ U.
![Page 15: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/15.jpg)
Đánh giá hiệu năng
Figure2.9,ISL2013
15
![Page 16: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/16.jpg)
16
Đánh giá hiệu năng• Làm sao để ước lượng lỗi kiểm thử để tìmmột môhình tốt?
• Kỹ thuậtđánhgiá chéo (Cross-validation):một tập các kỹ thuật nhằm sử dụng dữ liệu huấn luyệnđể ước lượng lỗi tổng quát (generalization error)
![Page 17: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/17.jpg)
17
Dữ liệu• Dữ liệu huấn luyện (Training data)
– Tập các quan sát (bản ghi)được sử dụng để xây dựng (học)mô hình.
• Dữ liệu kiểm chứng (Validation data)– Tập các quan sát dùng để ước lượng lỗi nhằm tìm tham số hoặc
lựa chọn mô hình.
• Dữ liệu kiểm thử (Test data)– Tập các quan sát dùng để đánh giá hiệu năng trên dữ liệu chưa biết
(unseen) trong tương lai.– Dữ liệu này không sử dụng cho giải thuật học máy trong quá trình
xây dựng mô hình.
![Page 18: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/18.jpg)
Kỹ thuậtđánhgiá chéoCross-validation
18
![Page 19: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/19.jpg)
19
“Dùng lỗi trên tập dữ liệu kiểm thử để ước lượng lỗidự đoán”
err = E[L(Y, fˆ(X))]
Kỹ thuật đánh giá chéo
![Page 20: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/20.jpg)
20
Tập đánh giá (Validation)• Thường chiatậpdữliệurathànhtrainingdatavàtest
data.• Chú ý: khixâydựngmôhình,takhôngđượcsửdụng
testdata.• Làmcáchnàođểbiếtđượcchấtlượngcủamôhình
vớiunseendata(tứcdữliệuchưanhìnthấybaogiờ)?
![Page 21: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/21.jpg)
21
Tập đánh giá (Validation)• Phươngpháp: tríchtừtrainingdataramộttậpcon
nhỏvàthựchiệnviệcđánhgiámôhìnhtrêntậpconnày.
• Tậpconnhỏđượctríchratừtrainingsetnàyđượcgọilàvalidationset.Lúcnày,trainingsetlàphầncònlạicủatrainingsetbanđầu.
• Trainerrorđượctínhtrêntrainingsetmớinày.• Validationerror: Lỗi đượctínhtrêntậpvalidation.
![Page 22: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/22.jpg)
22
Tập đánh giá (Validation)• Tìmmôhìnhsaochocả traineror và validation
error đềunhỏ,quađócóthểdựđoánđượcrằng testerror cũngnhỏ.
• Phươngphápthườngđượcsửdụnglàsửdụngnhiềumôhìnhkhácnhau.Môhìnhnàocho validationerror nhỏnhấtsẽlàmôhìnhtốt.
![Page 23: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/23.jpg)
23
Tập đánh giá (Validation)• Tuynhiên,khitacórấthạnchếsốlượngdữliệuđể
xâydựngmôhình.Nếulấyquánhiềudữliệutrongtậptrainingralàmdữliệuvalidation,phầndữliệucònlạicủatậptraininglàkhôngđủđểxâydựngmôhình.
• Nếutagiữtậpvalidationphảithậtnhỏđểcóđượclượngdữliệuchotrainingđủlớn.Mộtvấnđềkhácnảysinh,hiệntượngoverfittinglạicóthểxảyravớitậptrainingcònlại.
• Giảipháp:Cross-validation(Kỹthuậtđánhgiáchéo).
![Page 24: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/24.jpg)
24
Tập huấn luyện - TrainingSetTậpkiểmthử- TestSetTập đánhgiá - Validation Set
Kỹ thuật đánh giá chéo
TrainingData TestingData
• Cross validation là một cải tiến của validation với lượng dữ liệu trong tập validation là nhỏ
nhưng chất lượng mô hình được đánh giá trên nhiều tập validation khác nhau.
• Chia tập training ra k tập con không có phần tử chung, có kích thước gần bằng nhau.
• Tại mỗi lần kiểm thử, một trong số k tập con được lấy ra làm validata set. Mô hình sẽ được
xây dựng dựa vào hợp của k−1 tập con còn lại.
• Mô hình cuối được xác định dựa trên trung bình của các train error và validation error.
Cách làm này còn có tên gọi là k-fold cross validation.
![Page 25: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/25.jpg)
Kỹ thuật đánh giá chéo K--foldVídụ5--fold
Hastie, Trevor,et al. Theelements ofstatistical learning. Vol. 2.No. 1. NewYork: Springer, 2009.
1025
![Page 26: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/26.jpg)
26
5-foldvà 10-foldthường được ưa dùng (lỗi biascao,phương sai thấp)
Kỹ thuật đánh giá chéo
![Page 27: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/27.jpg)
27
• Khi k bằngvớisốlượngphầntửNtrongtập training banđầu,tứcmỗitậpconcóđúng1phầntử,tagọikỹthuậtnàylà leave-one-out.(lỗibiasthấp,phươngsaicao)
Kỹ thuật đánh giá chéo
![Page 28: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/28.jpg)
28
AutoData:LOOCVvs.K-foldCVHình trái:Saisố LOOCVHình phải:10-foldCVđược chạy nhiều lần,đồ thị biểu diễn sai khác nhỏvề lỗi CVLOOCV là trường hợp đặc biệt của k-fold,khi k=N
Cả hai đều ổn định,tuy nhiên LOOCVmất nhiều thời gian tính toán hơn!
2 4 6 8 10
16
18
20
22
24
26
28
LOOCV
Degree of Polynomial
Me
an
Sq
ua
red
Err
or
2 4 6 8 10
16
18
20
22
24
26
28
10−fold CV
Degree of Polynomial
Me
an
Sq
ua
red
Err
or
![Page 29: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/29.jpg)
29
Tacần thêm biến (mô hình mới) hoặc thêm dữ liệu?
Kỹ thuật đánh giá chéo
![Page 30: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/30.jpg)
30
Kỹ thuật đánh giá chéo• Nhược điểm lớn của cross-validation là sốlượng training runs tỉ lệ thuận với k. Trong các bàitoán Machine Learning, lượng tham số cần xác địnhthường lớn và khoảng giá trị của mỗi tham số cũngrộng.
• Vậy việc chỉ xây dựng một mô hình thôi đã rất phứctạp.
![Page 31: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/31.jpg)
Câu hỏi?
31
![Page 32: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/32.jpg)
32
Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem
![Page 33: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/33.jpg)
PhântíchdữliệubằngR
33
![Page 34: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/34.jpg)
34
R• RvàR-studio• Góicaret
![Page 35: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/35.jpg)
35
Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem
![Page 36: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/36.jpg)
36
Hồi quy tuyến tính• Hồi quy tuyến tính:là phương pháp học máy có giám sát
đơn giản,được sử dụng để dự đoán giá trị biến đầu radạng số (định lượng)
– Nhiều phương pháp học máy là dạng tổng quát hóacủa hồi quy tuyến tính
– Là ví dụ để minhhọa các khái niệm quan trọng trong bàitoán học máy có giám sát
![Page 37: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/37.jpg)
37
Hồi quy tuyến tính• Tại sao dùng hồi quy tuyến tính?
– Mối quan hệ tuyến tính: là sự biến đổi tuân theo quy luậthàm bậc nhất
– Tìmmộtmôhình(phươngtrình)đểmôtảmộtmốiliênquangiữaXvàY
– Tacó thể biến đổi các biến đầu vào để tạo ra mối quan hệtuyến tính
– Diễn giải các mối quan hệ giữa biến đầu vào và đầu ra - sửdụng cho bài toán suy diễn
![Page 38: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/38.jpg)
38
Hồi quy tuyến tính đơn giản• Biến đầu ra Yvà biến đầu vào Xcó mốiquan hệ tuyến tính giữa Xvà Y như sau:
• Các tham số củamô hình:
hệ số chặn (khi các xi=0)
độ dốc
![Page 39: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/39.jpg)
39
Hồi quy tuyến tính đơn giản
Làmsaođể"pháttriển"mộtphươngtrìnhnối2điểm này?
(x1, y1)
(x2, y2)
x-axis
y-axis
0 Cho hai điểm (x1,y1)và (x2, y2)
TuanV.Nguyen
![Page 40: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/40.jpg)
40
Hồi quy tuyến tính đơn giản
(x1, y1)
(x2, y2)
x-axis
y-axis
0 • Tìmgradient (slope):độ dốc.• Tìm hệ số chặn (intercept)(hệ số khởi đầu của ykhi x=0)
TuanV.Nguyen
![Page 41: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/41.jpg)
Hồi quy tuyến tính đơn giản
Figure3.1,ISL2013
( ) 01 ββ +== xxfy
độ dốc
hệ số chặn
41
![Page 42: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/42.jpg)
42
Hồi quy tuyến tính đơn giản• β0vàβ1 chưa biếtàTaước tính giá trị củachúng từ dữ liệu đầu vào
• Lấy sao chomô hình đạt “xấp xỉ tốt nhất”(“goodfit”)đối với tập huấn luyện
![Page 43: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/43.jpg)
43
Các giả định• MốiliênquangiữaXvàYlàtuyếntính(linear) về tham số
• X không cósaisốngẫu nhiên
• GiátrịcủaYđộclậpvớinhau(vd,Y1khôngliênquanvớiY2) ;
• Saisốngẫunhiên (ε):phânbốchuẩn,trungbình0,phươngsaibất biến
ε~N(0, σ2)
![Page 44: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/44.jpg)
Đường thẳng phù hợp nhấtChotập dữ liệu đầu vào,tacần tìm cách tính toán cáctham số của phương trình đường thẳng
02468101214
0 2 4 6 8 10
? ? ?
44
![Page 45: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/45.jpg)
45
Bình phương nhỏ nhất• Thông thường,để đánh giá độ phù hợp củamôhình từ dữ liệu quan sát tasử dụng phương phápbình phương nhỏ nhất (least squares)
• Lỗi bình phương trung bình (Meansquarederror):
![Page 46: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/46.jpg)
Đường thẳng phù hợp nhấtRất hiếm để có 1đường thẳng khớp chính xác với dữ liệu,dovậy luôn tồn tại lỗi gắn liền với đường thẳngĐường thẳng phù hợp nhất là đường giảm thiểu độ daođộng của các lỗi này
02468101214
0 2 4 6 8 10
)ˆ( ii yy −
y
46
![Page 47: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/47.jpg)
47
Phần dư (lỗi)Biểu thức (yi - )được gọi là lỗi hoặc phần dư
εi =(yi- )
Đường thẳng phù hợp nhất tìm thấy khi tổng bình phương lỗi lànhỏ nhất
y
y
∑=
−=n
ii yySSE
1
2)ˆ(
![Page 48: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/48.jpg)
Ước lượng tham số• Các ước số tính được bằng cách cựctiểu hóaMSE
• Hệ số chặn của đường thẳng
trong đó: vàx
xy
SSSS
=1β
∑=
−−=n
iiixy yyxxSS
1
))(( ∑=
−=n
iix xxSS
1
2)(
48
![Page 49: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/49.jpg)
49
Ước lượng tham sốHệ số chặn của đường thẳng
trong đó
xy 10ˆˆ ββ −=
n
yy
n
ii∑
== 1
n
xx
n
ii∑
== 1
![Page 50: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/50.jpg)
Hồi quy tuyến tính đơn giản
Figure3.1,ISL2013
50
![Page 51: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/51.jpg)
Hồi quy tuyến tính đơn giản
51
![Page 52: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/52.jpg)
Phương pháp đánh giá
𝑅𝑀𝑆𝐸 =1𝑁+(𝑌.
/
.01
− 𝑌3.)5; 𝑀𝐴𝐸 =1N+ |Y; − Y<;|
=
;01
và𝑅5 = 1 − ∑ (𝑌./.01 − 𝑌3.) ∑ (𝑌./
.01 − 𝑌A.)⁄ .
52
![Page 53: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/53.jpg)
53
Ví dụX Ykilograms cost $
17 13221 15035 16039 16250 14965 170
83.891=xySS83.1612=xSS
83.37=x83.153=y
533.083.161283.891
1 ===x
xy
SSSS
β
91.13283.37553.083.153ˆˆ10 =×−=−= xy ββ
phương trình tìm được là
Y =132.91+0.553*X
![Page 54: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/54.jpg)
54
R
X<-c(17, 21, 35, 39, 50, 65)Y<-c(132, 150, 160, 162, 149, 170)model=lm(Y ~ X)plot(X, Y, xlim=c(min(X)-5, max(X)+5), ylim=c(min(Y)-10, max(Y)+10), xlab="kilograms", ylab="cost", pch=15)abline(model, lwd=3)Summary(model)
![Page 55: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/55.jpg)
Diễn giải tham sốTrong ví dụ trước,tham số ước lượng của độ dốc là 0.553.Điềunày có nghĩa là khi thay đổi 1kgcủa X,giá của Ythay đổi 0.553$
1β
55
![Page 56: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/56.jpg)
là hệ số chặn của Y.Nghĩa là,điểmmà đườngthẳng cắt trục tung Y.Trong ví dụ này là $132.91
$132.91
Đây là giá trị của Ykhi X=0
Diễngiảithamsố0β
56
![Page 57: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/57.jpg)
57
Dữliệuphân tích:Boston•Bostondata: liênquanđếngiánhà đất•Cácbiến số
– crim:tỉlệtộiphạmcủathị trấn– zn:tỉlệkhuđấtcódiệntichtrên25,000feet vuông– indus:tỉlệdoanh nghiệp tươngđối lớn– chas:gầnsôngCharles(1=yes,0=no)–nos:nồngđộnitricoxides(parts/10 triệu)– rm:sốphòngtrungbìnhmỗi nhà–age:tỉlệcănhộ(unit)xâytrước 1940–dis:khoảngcáchđếncáctrungtâmkĩnghệ(tìm việc làm)
![Page 58: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/58.jpg)
58
Dữliệuphân tích:Boston•Bostondata: liênquanđếngiánhà đất•Cácbiến số
– rad:chỉsốgầnxalộradial– tax:tỉsuấtthuếtinhtrên $10,000–ptratio:tỉsốhọctròtrêngiáoviêncủathị trấn–black:chỉsốvềsốngườidađentrongthịtrấn(Bk– 0.63)^2– lstat:tỉlệdânsốthànhphầnkinhtế thấp–medv:trịgiánhà ($1000)
![Page 59: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/59.jpg)
59
![Page 60: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/60.jpg)
60
Ước tính bằng R•Chúngtamuốnướctínhmốiliênquangiữasốphòng(rm)vàgiácănnhà
•Môhìnhhồiquituyếntinh:medv=β0+β1*rm+ε
•Rlm(medv ~rm,data=Boston)
![Page 61: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/61.jpg)
61
Phântíchbằng Rattach(Boston)#Phân tích hồi quituyến tínhm1=lm(medv~rm,data= Boston)summary(m1)
#vẽ biểu đồplot(medv~rm,pch=16)abline(m1,col="red")
![Page 62: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/62.jpg)
62
Phântíchbằng R
![Page 63: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/63.jpg)
63
Diễngiảikết quảCoefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) -34.671 2.650 -13.08 <2e-16 ***rm 9.102 0.419 21.72 <2e-16 ***
• Nhớrằngmôhình là:
medv=β0+β1*rm• Phương trình:
medv=-34.67+9.10*rooms• Ýnghĩa:nhàcóthêm1phòngtăng9100USDchogiátrịcănnhà.Mốitươngquannàycóýnghĩathốngkê(P< 0.0001)
![Page 64: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/64.jpg)
64 TuanV.Nguyen
![Page 65: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/65.jpg)
65
Ýnghĩacủađườngbiểu diễnGiátrịtrungbình(kì vọng)medv=-34.67+ 9.10*rooms
Khi room = 5,medv= -34.67 + 9.10*5 = 10.83
Khi room = 6medv= -34.67 + 9.10*6 = 19.93
Khi room = 8medv= -34.67 + 9.10*8 = 38.13
TuanV.Nguyen
![Page 66: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/66.jpg)
Hồi quy tuyến tính đa biến• Hồi quy tuyến tính đa biến:mô hình có nhiều hơn 1
biến dùng để dự đoán biến đích
66
![Page 67: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/67.jpg)
Hồi quy tuyến tính đa biến
Figure3.4,ISL2013
67
![Page 68: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/68.jpg)
68
Hồi quy tuyến tính đa biến• Diễn giải hệ số βj :khi tăng Xj lên một đơn vịè Y sẽ tăng trung bình một lượng là βj
![Page 69: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/69.jpg)
69
Bình phương nhỏ nhất• Tìm các ước số bằng phươngpháp bình phương nhỏnhất
• Giải phương trình để tìm :
![Page 70: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/70.jpg)
Hồi quy tuyến tính đa biến
Figure3.4,ISL2013
70
![Page 71: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/71.jpg)
Ví dụCho
⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
=
21351296
y⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
3
2
1
0
ˆ
ˆ
ˆ
ˆ
ˆ
β
β
β
β
β
⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
=
7 1 1
0 17 13 3 16 1
42943128134116193
X
71
![Page 72: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/72.jpg)
72
Ví dụ
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
944 484 315 72448 295 53 35315 153 38 26
72 35 26 6
11XX T
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
598277203
74
yX T
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
7 910 17 3 164 42 3 3 9 2 38 4 3 1 1 1 1 1 1
1 1 6TX
![Page 73: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/73.jpg)
73
Ví dụ
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
==
0.01406 0.00431- 0.00144- 0.13737-0.00431- 0.01234 0.00014- 0.01962-0.00144- 0.00014- 0.03965 0.15375-
0.13737- 0.01962- 0.15375- 2.59578
ˆ yXXX TT 1-)(β
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
598277203
74
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
0.46691 0.11162-0.07573-.209753
20975.3ˆ0 =β 11162.0ˆ
2 −=β 46691.0ˆ3 =β07573.0ˆ
1 −=β
321 46691.011162.007573.020975.3ˆ xxxy +−−=
![Page 74: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/74.jpg)
74
Hồi quy tuyến tính• Ưu điểm:
– Mô hình đơn giản,dễ hiểu– Dễ diễn giải hệ số hồi quy– Nhận được kết quả tốt khi dữ liệu quan sát nhỏ– Nhiều cải tiến/mở rộng
• Nhược điểm:– Mô hình hơi đơn giản nên khó dự đoán chính xác với dữ liệu có miền giá
trị rộng– Khả năng ngoại suy (extrapolation)kém– Nhạy cảm với dữ liệu ngoại lai (outliers) – dodungphương pháp bình
phương nhỏ nhất
![Page 75: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/75.jpg)
75
Bài tập tại lớpChobảng dữ liệu về chiều cao và cân nặng của 15người như sau:
Chiều cao(cm)
Cânnặng(kg)
Chiềucao(cm)
Cânnặng(kg)
147 49 168 60150 50 170 72153 51 173 63155 52 175 64158 54 178 66160 56 180 67163 58 183 68165 59
Bàitoánđặtralà:liệucóthểdựđoáncânnặngcủamộtngườidựavàochiềucaocủahọkhông?
![Page 76: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/76.jpg)
Câu hỏi?
76
![Page 77: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/77.jpg)
77
Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem
![Page 78: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/78.jpg)
Phương pháp kếthợp cácmôhình
(ensemblemmodels)
78
![Page 79: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/79.jpg)
Cây phân loại và hồi quyClassificationandRegressionTrees
(CART)
79
![Page 80: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/80.jpg)
80
Xây dựng cây CART thế nào?
Có 2dạng:
1.Hồi quy
2.Phân loại (lớp)
![Page 81: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/81.jpg)
Mô hình liên tục từng đoạn(piecewise)
• Dự đoán liên tục trong mỗi vùng
Hastie,Trevor,etal.Theelementsofstatisticallearning.Vol.2.No.1.NewYork:Springer, 2009.81
![Page 82: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/82.jpg)
Mô hình liên tục từng đoạn
Hastie,Trevor,etal.Theelementsofstatisticallearning.Vol.2.No.1.NewYork:Springer, 2009.82
![Page 83: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/83.jpg)
83
Hồi quy
Minhhọa cây CARTown_rent_family=1,3
persons_in_house>=2.5
income>=2.5
persons_under_18>=0.5
job=1,2,3,4,5,6,8,9
1.241
1.446
job=1,2,3,4,5,6,8,9
1.843 3.8
persons_in_house>=3.5
1.908 2.461
2.651
residence_time>=2.
2.421 3.8
![Page 84: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/84.jpg)
Minhhọa cây CART
Phân lớp
84
![Page 85: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/85.jpg)
Cây hồi quy
Giá trị dự đoán lưu tại lá của cây hồi quy.Nó được tính bằnggiá trị trung bình của tất cả các mẫu (bản ghi)tại lá đó.
85
![Page 86: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/86.jpg)
86
Cây hồi quy• Giả sử tacó 2vùng R1 và R2 với
• Với các giá trị của Xmà tasẽ có giá trịdự đoán là 10,ngược lại tacó kết quả dựđoán là 20.
20ˆ,10ˆ21 == YY
1RX ∈
2RX ∈
![Page 87: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/87.jpg)
87
Cây hồi quy• Cho2biến đầu vào
và 5vùng• Tùy theo từng vùng
của giá trị mới Xtasẽ có dự đoán 1trong 5giá trị cho Y.
22
12
9
34
23
![Page 88: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/88.jpg)
88
Tách các biến XTatạo ra các phânvùng bằng cáchtách lặp đi lặp lạimột trong các biếnXthành hai vùng
![Page 89: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/89.jpg)
89
Tách các biến X
1. Đầu tiên táchtrên X1=t1
![Page 90: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/90.jpg)
90
Tách các biến X
1. Đầu tiên táchtrên X1=t1
2. Nếu X1<t1,tách trên X2=t2
![Page 91: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/91.jpg)
91
Tách các biến X
1. Đầu tiên táchtrên X1=t1
2. Nếu X1<t1,tách trên X2=t2
3. Nếu X1>t1,tách trên X1=t3
![Page 92: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/92.jpg)
92
Tách các biến X
1. Đầu tiên táchtrên X1=t1
2. Nếu X1<t1,tách trên X2=t2
3. Nếu X1>t1,tách trên X1=t3
4. Nếu X1>t3,tách X2=t4
![Page 93: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/93.jpg)
93
Tách các biến X
• Khi tatạo các vùng theophương pháp này,tacó thểbiểu diễn chúng dùng cấu trúccây.
• Phương pháp này dễ diễn giảimô hình dự đoán,dễ diễn giảikết quả
![Page 94: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/94.jpg)
94
Giải thuật tham lam: hồi quy
• Tìm thuộc tính tách và điểmtách mà nó cực tiểu lỗi dự đoán
![Page 95: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/95.jpg)
95
Ưu điểm của CART• Dễ xử lý dữ liệu thiếu (surrogate splits)• Mạnh trong xử lý dữ liệu chứa thông tinrác
(non-informative data)• Chophép tự động lựa chọn thuộc tính (variable
selection)• Dễ giải thích,lý tưởng để giải thích “tại sao”đối với
người ra quyết định• Xử lý được tính tương tác cao giữa các thuộc tính
![Page 96: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/96.jpg)
96
Nhược điểmcủa CART
• Cây không ổn định (Instabilityof trees)• Thiếu tính trơn (Lackof smoothness)• Khó nắm bắt độ cộng tính (Hardtocaptureadditivity)
![Page 97: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/97.jpg)
EnsembleModels
97
![Page 98: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/98.jpg)
98
Randomforest
Fernández-Delgado,Manuel,etal."Doweneedhundredsofclassifierstosolverealworldclassificationproblems?."TheJournalofMachineLearningResearch15.1(2014):3133-3181.
Kết luận của nghiên cứu trên của nhóm Manuel là phương pháp Random Forests hầu hết cho kết quả tốt nhất.
![Page 99: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/99.jpg)
Bootstraplà gì?• Giảsửtacó5quả bóng gắn nhãn A,B,C,D,Evàbỏtấtcảchúngvàotrong1
cáigiỏ.• Lấyrangẫu nhiên 1quảtừgiỏvàghilạinhãn,sauđóbỏlạiquảbóngvừa
bốcđượcvàogiỏ.• Tiếptụclấyra ngẫu nhiên mộtquảbóng và lặp lại quá trình trên cho đến khi
việclấymẫukếtthúc.Việclấymẫunàygọilàlấymẫucóhoànlại.• Kếtquảcủaviệclấymẫunhưtrêncóthểnhưsau(giảsửkíchthướcmẫulà
10):C,D,E,E,A,B,C,B,A,E
Nguồn:bis.net.vn/forums99
![Page 100: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/100.jpg)
Bootstrap là gì?• Bootstraplàphương
pháplấymẫucóhoànlại(samplingwithreplacement)-> mộtmẫu cóthểxuấthiệnnhiềulầntrongmộtlầnlấymẫu
100
![Page 101: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/101.jpg)
Bootstraplà gì?
• Là kỹ thuật rất quan trọng trong thống kê
• Lấy mẫu có hoàn lại từ tập dữ liệu banđầu để tạo ra các tập dữ liệu mới
101
![Page 102: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/102.jpg)
102
Sức mạnh của các bộ phân lớp yếuCondorcet’sJuryTheorem– Nếu plớnhơn 1/2(mỗi cử tribỏ phiếu đúng mong muốn của họ),càngthêm nhiều cử trisẽ tăng xác suất theo quyết định số đông sẽchính xác.Trong giới hạn,xác suất bầu chọn theo số đông tiếnđến 1khi số cử trităng lên.
![Page 103: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/103.jpg)
103
Sức mạnh của các bộ phân lớp yếuCondorcet’sJuryTheorem– Nếu plớnhơn 1/2(mỗi cử tribỏ phiếu đúng mong muốn của họ),càngthêm nhiều cử trisẽ tăng xác suất theo quyết định số đông sẽchính xác.Trong giới hạn,xác suất bầu chọn theo số đông tiếnđến 1khi số cử trităng lên.
![Page 104: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/104.jpg)
Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (biasvẫn
được giữ nguyên)Var[Ȳ]= σ2/n
104
![Page 105: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/105.jpg)
Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (biasvẫn
được giữ nguyên)Var[Ȳ]= σ2/n
• Các phiếu bầu của các bộ phân lớp tương quan không trợ giúp đượcnhiều
105
![Page 106: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/106.jpg)
Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (biasvẫn
được giữ nguyên)Var[Ȳ]= σ2/n
• Các phiếu bầu của các bộ phân lớp tương quan không trợ giúp đượcnhiều Var[Ȳ]=σ2/n+ (ρσ2)(n-1)/n
106
![Page 107: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/107.jpg)
Kết hợp các bộ phân lớp
α×{CART}+(1−α)×{LinearModel}
107
![Page 108: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/108.jpg)
Các phương pháp kết hợp: Bagging
108
![Page 109: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/109.jpg)
109
+ +
Bagging là gì?“Bootstrap Aggregation”
![Page 110: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/110.jpg)
Bagginglà gì?
“Bootstrap Aggregation”
110
![Page 111: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/111.jpg)
111
+ +
BaggingGiải quyết được tính thiếu ổnđịnh của CART
![Page 112: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/112.jpg)
112
• Lấymẫu tập dữ liệu huấnluyện theo Bootstrapđể tạo ratập hợp các dự đoán.
Bagging
![Page 113: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/113.jpg)
113
• Lấymẫu tập dữ liệu huấn luyện theoBootstrapđể tạo ra tập hợp các dự đoán.Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1. NewYork: Springer, 2009.
…
• Lấy trungbình (hoặc bình chọn theo số đông- majorityvote)các bộ dự đoánđộc lập.
• Bagginggiảm phương sai (variance)và giữ bias.
Bagging
![Page 114: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/114.jpg)
114
Bagging
Hastie,Trevor,etal.Theelementsofstatisticallearning.Vol.2.No.1. NewYork:Springer, 2009.
![Page 115: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/115.jpg)
115
Bagging
• Lấy mẫu có hoàn lại• Xây dựng bộ phân lớp trên mỗi mẫu bootstrap• Mỗi mẫu bootstrapchứa xấp xỉ 63.2%số lượng mẫu trong
tập dữ liệu banđầu• Số lượng mẫu còn lại (36.8%)được dùng để kiểm thử
Original Data 1 2 3 4 5 6 7 8 9 10Bagging (Round 1) 7 8 10 8 2 5 10 10 5 9Bagging (Round 2) 1 4 9 1 2 3 2 7 3 2Bagging (Round 3) 1 8 5 10 5 5 9 6 3 7
![Page 116: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/116.jpg)
Bonus!Out-of-bag cross-validation
116
![Page 117: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/117.jpg)
117
Các mẫuOut-of-bag(OOB)
• Mỗi cây chỉ sử dụngmột tập concác mẫuhuấnluyện (trung bình số mẫu ~2/3).
• Số mẫu cho OOBkhoảng~1/3của cây quyết định.
• Quá trình Bootstrapping:
![Page 118: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/118.jpg)
118
• Với mỗi mẫu,tìm các câymà nó là OOB.
…
• Dự đoán giá trị của chúng từ các cây này.
• Ước lượng lỗi dự đoán của cây (baggedtrees)dùng tất cảcác dự đoán OOB.
• Tương tự như kỹ thuật kiểm tra chéo (cross-validation).
Dự đoánmẫuOOB
![Page 119: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/119.jpg)
Phương pháp Rừng ngẫu nhiênRandomForests (RF)
119
![Page 120: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/120.jpg)
120
• Mô hình dựa trên cây phân loại và hồi quy (CART).
• Cácmô hình cây có lỗi biasthấp,tuy nhiên phương sai lạicao (high variance).
• Phương pháp Baggingdùng để giảm phương sai.
Động lực để có Randomforest
![Page 121: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/121.jpg)
121
• Lấymẫu tập dữ liệu huấn luyện theoBootstrapđể tạo ra tập hợpcác dự đoán.
Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.
…
• Lấy trungbình (hoặc bình chọn theo số đông-majorityvote)các bộ dự đoánđộc lập.
• Bagginggiảm phương sai (variance)và giữ bias.
Nhắc lại: Bagging
![Page 122: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/122.jpg)
122
Baggedtreesvs.randomforests• Phương pháp Baggingbiểu thị sự biến thiên (variability)giữacác cây bởi việc chọn mẫu ngẫu nhiên từ dữ liệu huấn luyện.
• Cây được sinh ra từ phương pháp Baggingvẫn có tươngquan lẫn nhau,dođó hạn chế trong việc giảm phương sai.
Randomforestsđưa ra thêm tính ngẫu nhiên (randomness):
• Làm giảmmối tương quan giữa các cây bằng cách lấy ngẫunhiên các biến khi tách nút của cây.
![Page 123: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/123.jpg)
123
Số lượng biến dùng để tách nút (khả tách)
Lấy thuộc tính ngẫu nhiên
Các biến dùng cho tách nút
![Page 124: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/124.jpg)
Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.
Các biến dùng cho tách nút
124
![Page 125: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/125.jpg)
125
Rừng ngẫu nhiênTập dữ liệu huấn luyện
....D1 D2 DK-1 D K
D
Bước 2:Sử dụng các tập condữ liệulấy mẫu ngẫu nhiên để xây
dựng cây TK-1 TK
T *Bước 3:
Kết hợp các cây
Lấy ngẫunhiên
Bước 1:Tạo dữ liệu ngẫu nhiên
(mẫu bootstrap)
T1 T2
D =(Xi,Yi),i=1..pp:#chiều,N:#mẫu
IntroductiontoDataMining– Tan,Steinbach,Kumar
•Phân lớp:Bình chọn theo số đông•Hồi quy:Lấy trungbình giá trị dựđoán từ các cây Ti (i=1..K)
![Page 126: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/126.jpg)
Rừng ngẫu nhiên
126
![Page 127: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/127.jpg)
127
Các tham số quan trọng của Rừng ngẫu nhiên:
• Số lượng biến khả tách tại mỗi nút ( )
• Độ sâu của từng cây trong rừng (số lượng mẫu tối thiểutại mỗi nút của cây-minimumnode size)
• Số lượng cây trong rừng
Các tham số chính
![Page 128: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/128.jpg)
128
Bài toán phân lớp
Bài toán hồiquy
Giá trị mặc định
=
=
Số lượng biến khả tách
gói randomForest trong Rdùngmtry
![Page 129: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/129.jpg)
Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.
Độsâucủatừngcây(sốlượngmẫutốithiểutạimỗinútcủacây)
129
![Page 130: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/130.jpg)
130
1
5
Độsâucủacây
Bài toán phân lớp
Bài toán hồiquy
Giá trị mặc định
![Page 131: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/131.jpg)
131
Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.
• Thêm nhiều cây không gây ra overfitting.
Số lượng cây trong rừng
![Page 132: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/132.jpg)
132
• Các mẫu Out-of-bag(OOB)
• Độ quan trọngcủa biến (Variableimportancemeasurements)
Các tính năng khác của RF
![Page 133: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/133.jpg)
133
Độ quan trọng của biếnDạng 1:Độ giảm của lỗi dự đoán hoặc impuritytừ các điểm tách nútliên quan đến các biến đó,cuối cùng lấy trung bình trên cáccây trong rừng.
![Page 134: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/134.jpg)
134
Độ quan trọng của biếnDạng 2:
Độ tăng lỗi dự đoán tổng thể khi các giá trị của biến đượchoán vị ngẫu nhiên giữa các mẫu.
![Page 135: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/135.jpg)
135
Hastie, Trevor, etal.The elements of statistical learning. Vol. 2.No. 1. New York: Springer, 2009.
• Cả 2dạng biểu thị gần giống nhau,tuy nhiên có sựkhác biệt về xếp hạng các biến:
Dạng 1 Dạng 2
Ví dụ về độ quan trọng của biến
![Page 136: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/136.jpg)
136
Tương tự như CART:
• Tương đối mạnh trong việc xử lý biến rác(non-informativevariable)(Việc lựa chọn biến tích hợp sẵn khi xâydựng mô hình,built-invariable selection)
Ưu điểm của RF
![Page 137: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/137.jpg)
Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.
Ảnh hưởng của biến rác
137
![Page 138: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/138.jpg)
138
Tươngtựnhư CART:
• Tươngđốimạnhtrongviệcxửlýbiếnrác(non-informativevariable)
• Xử lý (nắmbắt)được độ tương tác bậc cao giữa các biến (Capturehigh-orderinteractionsbetween variables)
• Có lỗi bias thấp
• Dễ xử lý các biến hỗn hợp (biến rời rạc,phân loại)
Ưu điểm của RF
![Page 139: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/139.jpg)
139
Ưu điểm vượt trộiCART:
• Lỗi phương sai thấp hơn (mạnhhơn vì sử dụngphương phápbootstrapping lấymẫu từ tập huấn luyện)
• Ít bị overfitting hơn
• Không cần tỉa cây (Noneedfor pruning)
• Kiểm tra chéo được tích hợp sẵn trongmô hình (dùngcác mẫuOOB)
Ưu điểm của RF
![Page 140: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/140.jpg)
140
Tương tự như CART:
• Khó nắm bắt độ cộng tính
Nhược điểm sovới CART:
• Khó diễn giải/giải thích mô hình dự đoán
Nhược điểm của RF
![Page 141: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/141.jpg)
Câuhỏi?
141
![Page 142: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/142.jpg)
142
Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem
![Page 143: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/143.jpg)
Giới thiệu bài toán dự đoán
• Cho tập dữ liệu đầu vào L = {(X1, Y1),.., (XN, YN)}, trong đó N là sốlượng mẫu.• Đầu vào là tập biến ngẫu nhiên X∈ℜM, M số thuộc tính.
• Đầu ra là biến ngẫu nhiên Y∈ℜ1.
xi∈X và yi ∈Y nhận các giá trị ngẫu nhiên từ phân bố xác suất PX,Y (1<=i<=N).
• Mục tiêu của bài toán dự đoán là tìm mô hình fL : X →Y cực tiểu hóaErr (fL) = EX,Y {L(Y , fL(X))},
Trong đó hàm lỗi làL(Y , fL(X))} = (Y - fL(X))2.
143
![Page 144: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/144.jpg)
Dựđoánsựhàilòngcủacáchộdùngnướctướitiêutạiđồng
bằngsôngHồng
144
![Page 145: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/145.jpg)
5. Đáp ứng (RES)- Nhân viên thủy lợi cho ông bà biết khi nào thực hiện dịch vụ tưới tiêu- Nhân viên thủy lợi nhanh chóng thực hiện dịch vụ cho ông bà.- Tổ chức cung cấp nước thực hiện đúng lịch cấp nước- Tổ chức cung cấp nước cung cấp tối đa khả năng cấp nước.- Khối lượng nước cấp đáp ứng tốt nhu cầu theo từng giai đoạn sinhtrưởng, phát triển của cây trồng.- Nhân viên thủy lợi cung cấp luôn luôn sẵn sàng đáp ứng yêu cầu của ôngbà.- Chất lượng nước tưới được đảm bảo- Thời gian khắc phục hư hỏng nhanh chóng- Ông bà không bao giờ phải lặp lại các khiếu nại trước(9 biến quan sát)
3. Đảm bảo (ASS)- Cách cư xử của nhân viên gây niềm tin cho ông bà- Ông bà cảm thấy rất an toàn khi giao dịch với tổ chức cung cấp nước- Nhân viên thủy lợi có đủ hiểu biết để trả lời tất cả các câu hỏi của ôngbà liên quan đến hệ thống tưới, tiêu.- Nhân viên thủy lợi của tổ chức cung cấp nước luôn luôn niềm nở với ôngbà- Thời gian phân phối nước tới các thửa ruộng luôn luôn đủ nước trongmỗi đợt tưới.- Từ năm 2008 đến nay nhân viên thủy lợi trả lời được tất cả các thắc mắccủa ông bà liên quan đến số tiền ông bà trả trong tháng- Nhân viên thủy lợi rất nhanh khắc phục khi hệ thống tưới, tiêu có sự cố(7 biến quan sát)
1. Phương tiện hữu hình (TAN)- Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước và phânphối nước đến các diện tích cần tưới, tiêu- Các đơn vị cung cấp dành đủ kinh phí cho công tác quản lý, vận hành vàbảo dưỡng hệ thống tưới, tiêu.- Nhân viên thủy lợi mặc đồng phục đơn vị- Tổ chức cung cấp nước có tài liệu hướng dẫn quản lý vận hành côngtrình thủy lợi.- Hợp đồng cung cấp dịch vụ được trình bày rất dễ hiểu- Các thiết bị của tổ chức cung cấp nước có chất lượng tốt- Việc duy tu, bảo dưỡng hệ thống tưới được thực hiện đều đặn và khicần.(7 biến quan sát)
2. Tin cậy (REL)- Đơn vị cung cấp dịch vụ tưới, tiêu giới thiệu đầy đủ nội dung hợpđồng với tổ chức cung cấp nước cũng như các kỹ thuật và cách sửdụng khi ông bà muốn đăng ký sử dụng- Tổ chức cung cấp nước thực hiện đúng dịch vụ tưới tiêu như hợpđồng- Tổ chức cung cấp nước xử lý sự cố ngay khi công trình hư hỏng,xuống cấp.- Từ năm 2008 đến nay tổ chức cung cấp nước không để xảy ra bất kỳsai sót nào khi tính chi phí hàng tháng(4 biến quan sát)
Sự hài lòng (SAT)Ông bà hoàn toàn hài lòng về chất lượng dịch vụ tưới tiêu hiện
đang sử dụng.(Giá trị từ 0..5,kiểu thập phân).
4. Sự đồng cảm (EMP)- Nhân viên kỹ thuật thủy lợi luôn làm việc vào những giờ thuậntiện cho ông bà.- Không có bất cứ ai ở Tổ chức cung cấp nước quan tâm đếnnhững bức xúc của ông bà về dịch vụ tưới, tiêu.- Lịch phân phối nước rất thuận tiện theo giờ sản xuất của giađình ông bà.- Ông bà được quan tâm và chú ý mỗi khi thắc mắc về dịch vụtưới, tiêu.- Tổ chức cung cấp nước điều chỉnh lịch tưới phù hợp với sựthay đổi của thời tiết.- Nhân viên của tổ c hức cung cấp nước luôn hiểu rõ những nhucầu của ông bà.- Đơn vị cung cấp lấy lợi ích của ông bà là mục tiêu phát triểnbền vững của họ(7 biến quan sát)145
![Page 146: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/146.jpg)
Một số mô hình học máy
• Linear Regression• LASSO• K-NN• Support Vector Regression• Artificial neural network• Decision trees• Random Forests• Boosting• Deep Learning
![Page 147: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/147.jpg)
Kết quả thực nghiệm• Phương pháp đánh giá:
• Dữ liệu: Tập huấn luyện gồm 336 mẫu (70%) và tập dữ liệu kiểmthử gồm 144 mẫu (30%).
• Khi xây dựng mô hình hồi quy, kỹ thuật kiểm tra chéo 5-folds với 2lần lặp và dựa trên hàm lỗi RMSE được dùng để tìm tham số tối ưucủa từng mô hình, sau đó lựa chọn mô hình có RMSE nhỏ nhất vớitham số tìm được để dự đoán dữ liệu kiểm thử.
𝑅𝑀𝑆𝐸 =1𝑁+(𝑌.
/
.01
− 𝑌3.)5;𝑀𝐴𝐸 =1N+|Y; − Y<;|
=
;01
và𝑅5 = 1−∑ (𝑌./.01 − 𝑌3.) ∑ (𝑌./
.01 − 𝑌A.)⁄ .
147
![Page 148: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/148.jpg)
Kết quả thực nghiệmTT Mô hình hồi quy Tham số tối ưu R2 RMSE MAE
1 Hồi quy tuyến tính(LM)
Mặc định 0.839 0.267 0.167
2 Hồi quy LASSO λ= 0.01 0.844 0.263 0.1633 K láng giềng (KNN) k = 1 **0.894 **0.216 0.085
4 Cây hồi quy (CART) Complexity parameter (cp)=0 0.835 0.272 0.156
5 Mạng nơ ron nhân tạo(ANN)
Trọng số phân rã=0.1 và sốnơ-ron=9
***0.892 ***0.218 **0.106
6 Máy véc-tơ hỗ trợ(SVR)
RBF, σ = 0.032, ε=0.1 và C =32
0.852 0.255 0.143
7 Rừng ngẫu nhiên (RF) mtry = 9 và K=1000 0.902 0.208 ***0.107
8 Boosting K = 500, interaction.depth =7 và shrinkage = 0.1
0.873 0.237 0.119
148
![Page 149: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/149.jpg)
Kết quả thực nghiệm
So sánh các mô hình hồi quy dựa trên kếtquả huấnluyện theohệ số xác định bội R2
• Mô hình rừng ngẫu nhiên chokết quả tốt nhất, giải thíchkhoảng 93% các khác biệt về độhài lòng giữa các hộ dùng nướctưới tiêu, theo sát là mô hìnhboosting có R2=92.445% vàSVR đạt R2=92.444%.
• Xếp cuối là phương pháp cây hồiquy có R2 thấp nhất, khả nănggiải thích của mô hình cây hồiquy khoảng 85% kém hơn môhình hồi quy tuyến tính nhiềubiến có R2=87.481%.
149
![Page 150: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/150.jpg)
Kết quả thực nghiệm
Biểu đồ tương quan giữa các tiêu chí.
So sánh lỗi huấn luyện RMSE củacác mô hình hồi quy theo từng cặp.
150
![Page 151: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/151.jpg)
Kết quả thực nghiệm
Độ đo sự quan trọng của các tiêuchí
• Độ đo sự quan trọng của 34 tiêu chí được sắpxếp theo chiều giảm dần, các độ đo này đượctính từ rừng ngẫu nhiên.
• HH1, HH7, STC3 có độ quan trọng cao, trong đó HH1="Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước và phân phối nước đến cácdiện tích cần tưới, tiêu" có độ quan trọng cao nhất. Tiêu chí DDU6="Nhânviên thủy lợi cung cấp luôn luôn sẵn sàng đáp ứng yêu cầu của ông bà" cóđộ quan trọng thấp nhất.
• Như vậy, trong dịch vụ cung cấp nước tưới tiêu, hộ dùng nước quan tâmnhất đến các hệ thống tưới tiêu có chất lượng tốt, độ đáp ứng của đơn vịcung cấp nước, nó bao gồm những yếu tố như duy tu, bảo dưỡng đượcthực hiện đầy đủ và đều đặn, sửa chữa sự cố ngay khi công trình hư hỏnghoặc xuống cấp, thực hiện đúng lịch cấp nước, cung cấp tối đa khả năngcấp nước, đáp ứng tốt nhu cầu theo từng giai đoạn sinh trưởng và pháttriển của cây trồng, chất lượng nước được đảm bảo.
• Nhân viên thủy lợi có hoặc không đáp ứng những yêu cầu cá nhân của cáchộ dùng nước cũng không ảnh hưởng nhiều đến sự hài lòng chung về chấtlượng dịch vụ tưới tiêu
151
Xem thêm bài báo ở đây
![Page 152: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/152.jpg)
DựbáomựcnướctrênsôngMekong
152
![Page 153: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/153.jpg)
Applications of Machine Learning
Ref: ICFR
Flood forecasting
153
![Page 154: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/154.jpg)
Motivation• Two approaches to build the flood forecasting model: • physically based and • data-driven (machine learning) approaches.
• Physically based models are fully distributed models in increasing levels of complexity. The physically based modelling aims to reproduce the hydrological process in a physically realistic.
• Our solution: We use machine learning model, they are quickly developed and easily implemented for building the forecasting model.
154
![Page 155: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/155.jpg)
Motivation• Case study: Lower Mekong river.• Inputs:
• Rainfall intensity• Cumulative rainfall
• Outputs: the 5-lead-day water levels at Thakhek gauging station
155
![Page 156: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/156.jpg)
Experiments• Forecasting model: the 5-lead-day water levels at Thakhek station
on the Mekong River, where it shows the major contribution to the flows in the Lower Mekong River.
• The relationship between the input-output features:
where the output feature HThakhek(t + 5) is the water level forecasted for the next 5 days at Thakhek gauging station. HThakhek(t), HThakhek(t-1) and HThakhek(t-2) are water levels measured in the current day and previous two days, respectively. Hup(t), Hup(t-1) and Hup(t-2) are water levels measured in the current day and previous two days at NongKhaigauging station, respectively.
156
![Page 157: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/157.jpg)
Experiments• Design of the Forecast Evaluations
For each iteration, 1 sample from the testing data is added into the training data to build the forecasting model.
157
![Page 158: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/158.jpg)
Experimental results• Optimal parameters: k-folds
cross-validation.
158
![Page 159: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/159.jpg)
Experimental results
159
![Page 160: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/160.jpg)
http://ffw.mrcmekong.org/accuracy.htm
Experimental results
160
![Page 161: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân](https://reader030.fdocuments.in/reader030/viewer/2022011810/5dd13b14d6be591ccb64d945/html5/thumbnails/161.jpg)
Câuhỏi?
161