science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those...

9
1 MTH8302 plan du cours 2 Référence Bernard CLÉMENT, PhD Statistique, Science des données, Intelligence artificielle Société Statistique de Montréal : 26 avril 2018 http://cours.polymtl.ca/mth6301/MTH8302.htm Chapitre 1 Introduction Data Science (DS) = ? Machine Learning = ? Processus - modélisation statistique Étapes d’une étude statistique Types de variables Classification des modèles MTH8302 – Modèles de régression et d’analyse de variance 3 science des données =? 4 What on earth is a data scientist ?

Transcript of science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those...

Page 1: science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those who ignore statistics are condemned to re-invent it "Brad Efron idée données idée

1

MT

H8

30

2 p

lan

du

cou

rs

2

Réf

éren

ceB

erna

rd C

LÉM

ENT,

PhD

Stat

istiq

ue, S

cien

ce d

es d

onné

es, I

ntel

ligen

ce a

rtific

ielle

Soci

été

Stat

istiq

ue d

e M

ontr

éal :

26

avril

201

8

http

://co

urs.

poly

mtl.

ca/m

th63

01/M

TH83

02.h

tm

Cha

pitr

e 1

Intr

oduc

tion

Dat

a Sc

ienc

e (D

S) =

?

Mac

hine

Lea

rnin

g =

?

Proc

essu

s -

mod

élis

atio

n st

atis

tique

Étap

es d

’une

étu

de s

tatis

tique

Type

s de

var

iabl

es

Cla

ssifi

catio

n de

s m

odèl

es

MTH

8302

–M

odèl

es d

e ré

gres

sion

et d

’ana

lyse

de

varia

nce

3

scie

nce

des

donn

ées

=?

4

Wha

t on

eart

h is

a d

ata

scie

ntis

t ?

Page 2: science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those who ignore statistics are condemned to re-invent it "Brad Efron idée données idée

DIF

FÉR

ENC

E e

ntre

STA

TIST

IQU

E e

t D

ATA

SCIE

NC

E ?

DO

MAI

NE

é

lém

ents

STAT

ISTI

QU

E

idée

s, h

ypot

hèse

s, é

valu

atio

n(c

lass

ique

)

an

alys

e : p

rimai

re ,

haut

ver

s le

bas

conf

irmat

oire

donn

ées

: à re

cuei

llir

DAT

A SC

IEN

CE

néra

tion

d’hy

poth

èses

, cré

atio

n id

ées

(dat

a m

inin

g)

a

naly

se :

seco

ndai

re,

bas

vers

le h

aut

mac

hine

lear

ning

exlo

rato

ire (a

près

cou

p)do

nnée

s : h

isto

rique

s / m

assi

ves

" Dat

a Sc

ienc

e is

muc

h ol

der

than

Kep

ler

.. It is

the

sec

ond

olde

stpr

ofes

sion

"G

regory

Pia

tets

ky

-Sh

apir

o

"St

atist

ics

has

been

the

mos

t su

cces

sful

info

rmat

ion

scie

nce.

Thos

e w

ho ig

nore

sta

tist

ics

are

cond

emne

d to

re-

inve

ntit

"B

rad

Efr

on

idée

donn

ées id

ée

donn

ées

4

Stoc

hast

icD

ata

Mod

elin

g C

ultu

re

Alg

orith

mic

Mod

elin

g C

ultu

re

Stat

istic

ian

:

98%

Com

pute

r Sc

ient

ists

:2% dé

p. M

AG

I

Leo

Bre

iman

(U

Ber

kel

y)

Sta

tist

ica

l Sci

ence

2001, p

p. 199–2

31

Stat

istic

ian

:

2% C

ompu

ter

Scie

ntis

ts :

98%

dép.

GIG

L

2 c

ultu

res

6

BD

: B

ig D

ata

don

nées

trop

gro

sses

en

taill

e (à

déf

inir)

et c

ompl

exité

(még

adon

nées

)

néce

ssita

nt le

ur tr

aite

men

t in

form

atiq

ue /

stat

istiq

ue(d

onné

es m

assi

ves)

a

vec

tech

nolo

gies

sur

des

sys

tèm

es d

istr

ibué

s en

para

llèle

(Had

oop

et a

utre

s)…

.BD

term

e ga

lvau

dé t

rop

emph

ase

qua

ntité

pas

asse

z su

r la

qua

lité

(vér

acité

)

Term

inol

ogie

DS

: Dat

a Sc

ienc

e …

ense

mbl

e de

s m

étho

des

et o

utils

orie

ntés

vis

ant

à ap

pren

dre

avec

les

donn

ées

et ré

soud

re d

espr

oblè

mes

… c

ompr

éhen

sion

/ ut

ilisa

tion

scie

nce

esse

ntie

llem

ent

plur

idis

cipl

inai

re

DM

: D

ata

Min

ing

«no

ntriv

ial p

roce

ss o

f ide

ntify

ing

valid

, nov

el,

(foui

lle d

es d

onné

es)

pot

entia

lly u

sefu

l, an

d u

ltim

atel

y un

ders

tand

able

patte

rns

in d

ata

» G

. Pia

tesk

y-Sh

apiro

le t

erm

e D

M e

st m

aint

enan

t rem

plac

é pa

r ML

ML

: Mac

hine

Lea

rnin

g …

ense

mbl

e d’

algo

rithm

es, m

étho

des,

out

ils,

(app

rent

issa

ge m

achi

ne)

pour

dév

elop

per d

es m

odèl

es v

isan

t àam

élio

rer l

e pr

oces

sus

d’ap

pren

tissa

ge a

vec

des

donn

ées

orie

ntés

pré

dict

ion

AP :

Anal

yse

Préd

ictiv

e …

ana

lyse

pou

r pré

dire

que

lque

cho

sem

étho

de

pour

rait

être

non

sta

tistiq

ue

78

Term

inol

ogie

appr

entis

sage

sup

ervi

sé …

. ap

pren

tissa

ge n

on s

uper

visé

donn

ées

stru

ctur

ées

don

nées

non

str

uctu

rées

(im

ages

, tex

tes,

.. )

appr

entis

sage

pro

fond

seau

x de

neu

rone

s m

ultic

ouch

es p

our I

Ain

fonu

agiq

ue (c

loud

)

..

. s

ystè

mes

dis

trib

ués

IOT

inte

rnet

des

obj

ets

… ré

seau

x de

cap

teur

sO

pen

Sour

ce S

oftw

are

.

.. R

, P

ytho

n ,

Wek

a, J

ulia

…te

chno

logi

es

GPU

(p

uces

gra

phiq

ues

traite

men

t par

allè

le)

écon

omie

num

ériq

ue

.

..

GAF

AM (G

oogl

e A

maz

on

Face

book

Am

azon

Mic

roso

ft)

Dat

a

Min

ing

Mac

hin

e Lea

rnin

g

(ML)

Ap

pre

nti

ssag

e st

atis

tiq

ue

Sup

erv

isée

Non

su

per

vis

éeSe

mi-su

per

vis

ée

Rég

ress

ion

clas

sifi

cati

on

h

ier.

cla

ssif

icat

ion

& p

réd

icti

on

Arb

res

de

Com

posa

nte

s

EM

déc

isio

n (

CR

T)

pri

nci

pal

es (

PC

A)

Rés

eau

Fac

tori

sati

on

Fea

ture

engin

eeri

ng

N

euro

nes

Ran

dom

Fore

st

Sup

port

Vec

tor

Au

to e

nco

der

Mac

hin

e (S

VM

)

Bay

es N

etw

ork

Pro

cess

us

Gau

ssie

n

Page 3: science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those who ignore statistics are condemned to re-invent it "Brad Efron idée données idée

9

Alg

orith

mes

du

ML

IA : I

nte

llig

ence

Art

ific

iell

e10

Cla

ss R

egre

ssio

n T

rees

(C

RT

) (v

u)

Bost

ing (

boost

rap

)

En

sem

ble

s

Ran

dom

Fore

sts

(vu

)

GA

M

MA

RSp

lin

es(v

u)

Clu

ster

ing

Bay

esia

n N

etw

ork

s

Sup

port

Vec

tor

Mac

hin

e (S

VM

)

Tex

t M

inin

g

Web

Cra

wli

ng

Rap

id D

eplo

ym

ent

(PM

ML)

Op

tim

al B

inn

ing

Step

wis

e M

od

el B

uil

der

Pro

cess

Op

tim

izat

ion

Auto

mat

ed N

eura

l Net

wor

ks (v

u)

ML

avec

Sta

tistic

a

DIF

FÉR

ENC

ES

TE

RM

INO

LOG

IE

STAT

ISTI

QU

E IN

GÉN

IER

IE /

INFO

RM

ATIQ

UE

stat

/ m

ath

……

……

……

……

……

. in

form

atiq

ue /

com

pute

r sci

ence

anal

yse

stat

istiq

ue ..

……

……

…...

mac

hine

lear

ning

(ML)

régr

essi

on /

clas

sific

atio

n …

……

app

rent

issa

ge s

uper

visé

clus

terin

g / e

stim

atio

n de

nsité

…ap

pren

tissa

ge n

on s

uper

visé

mod

èles

……

……

……

……

……

….r

ésea

ux, g

raph

ique

s

test

s / r

ésid

us …

……

……

……

…..

géné

ralis

atio

npa

ram

ètre

s …

……

……

……

……

…po

ids

varia

ble

inpu

t ……

……

……

……

… fe

atur

es ,

clas

seva

riabl

e ou

tput

/ ré

pons

e …

……

.. ta

rget

, lab

el, f

eatu

res

obse

rvat

ion

……

……

……

……

......

inst

ance

, cas

, exe

mpl

em

étho

des

……

……

……

……

……

.. al

gorit

hmes

infé

renc

e =

oui …

……

……

……

…. i

nfér

ence

= n

on

subv

entio

n =

20 0

00 $

……

…..

sub

vent

ion

= 1

000

000

$

11

PRO

CES

SUS

/ SYS

TÈM

E) :

S I P

O C

Su

pplie

rsIn

put :

XPr

oces

sus

Out

put :

Y

Clie

nts

FAC

TEU

RS

Pers

onne

lM

atér

iaux

Équi

pem

ent

Polit

ique

sPr

océd

ures

Mét

hode

sEn

viro

nnem

ent

GÉN

ÉRAL

mél

ange

d’in

puts

qui

génè

rent

unou

tput

RÉP

ON

SES

indi

cate

urs

en

rela

tion

ave

c

qual

ité p

rodu

it

qual

ité s

ervi

ce

exéc

utio

n tâ

che

PRO

CES

SUS

/ SYS

TÈM

ED

ESIG

N (

CO

NC

EPTI

ON

) FA

BR

ICAT

ION

MES

UR

AGE

TRAN

SAC

TIO

NEL

ADM

INIS

TRAT

IF

exem

ples

en

inte

llige

nce

artif

icie

lle (I

A)

12

Page 4: science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those who ignore statistics are condemned to re-invent it "Brad Efron idée données idée

PR

OC

ESS

US

étap

es

mét

hod

es

pro

céd

ure

s

P R

O C

E S

S U

S

/ S

Y S

T È

M E

RES

SOU

RC

ESAP

PRO

VISI

ON

NEM

ENT

MAT

ÉRIA

UX

ÉQU

IPEM

ENTS

PER

SON

NEL

ENVI

RO

NN

EMEN

T

PRO

DU

IT

ou

SERV

ICE

PA

RA

MÈT

RES

MES

UR

AB

LES

ou

CO

NTR

ÔLA

BLE

S

VALE

UR

AJO

UTÉ

E

CAR

ACTÉ

RIS

TIQ

UES

CR

ITIQ

UES

QU

ALIT

É

CC

QM

ESU

RES

CO

MPT

AGES

ATTR

IBU

TS

varia

bles

inpu

t X1

, X2,

X3,

fonc

tion

de

tran

sfer

t f

Y =

f (X 1

,X2,.

.)va

riabl

e ou

tput

Y

1314

Expé

rienc

es p

lani

fiées

trai

tem

ents

app

liqué

s au

xun

ités

expé

rimen

tale

s se

lon

un p

roto

cole

(des

ign)

Étud

es o

bser

vatio

nnel

les

donn

ées

colle

ctée

s au

fil d

u te

mps

/ te

mps

réel

unité

sta

tistiq

ues

=in

stan

ts d

’obs

erva

tions

peu

/ pas

de

plan

ifica

tion

stat

istiq

ue

Sond

ages

, enq

uête

s,

rece

nsem

ents

=ét

udes

énu

mér

ativ

es

plan

d’é

chan

tillo

nnag

ede

s un

ités

stat

istiq

ues

pas

de tr

aite

men

tsap

pliq

ués

aux

unité

s

stru

ctur

e tr

aite

men

ts

banq

ues

de d

onné

es,

még

adon

nées

(big

dat

a)sc

ienc

es h

umai

nes,

scie

nces

soc

iale

s,...

..

bios

tatis

tique

,ph

arm

aceu

tique

,sc

ienc

es p

hysi

ques

,sc

ienc

es e

xact

es,

expé

rienc

es a

vec

suje

ts h

umai

ns /

anim

aux

.....

actif

pass

if

desi

gn e

xpér

imen

tal :

rand

omis

atio

n, b

loca

ge,

répé

titio

ns

rôle

stat

istic

ien

Type

d’é

tude

s st

atis

tique

s

15

outil

s SP

Cca

rtes

com

port

emen

t pr

oces

sus

outil

s st

atis

tique

ste

sts,

AN

OVA

,ré

gres

sion

, etc

.

énum

érat

ive

an

alyt

ique

obse

rvat

ionn

elle

expé

rimen

tale

autr

e

dis

tinct

ion

CLA

SSIQ

UE

(trad

ition

nelle

) :

base

infé

rent

ielle

MÉG

AD

ON

NÉE

S (n

ouve

lle) :

bas

e al

gorit

hmiq

ue

Ty

pe

d’é

tud

es s

tati

stiq

ues

16

Ty

pe

d’é

tud

e S

tati

stiq

ue

*L’

hom

ogén

éité

des

don

nées

est

fond

amen

tale

lors

de

leur

l’an

alys

e.C

ette

que

stio

n es

t cla

rifié

e da

ns l’

artic

le s

uiva

nt:

Whe

eler

, Don

ald

J. (2

009)

Th

e fo

ur Q

uest

ions

of D

ata

Ana

lysi

sht

tp://

ww

w.q

ualit

ydig

est.c

om/in

side

/qua

lity-

insi

der-c

olum

n/fo

ur-q

uest

ions

-dat

a-an

alys

is.h

tml

Page 5: science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those who ignore statistics are condemned to re-invent it "Brad Efron idée données idée

Iden

tific

atio

n de

s VA

RIA

BLE

SN

atur

e: c

ontin

ue

-ca

tégo

rique

Rôl

e:ex

plic

ativ

es (X

= in

put)

expl

ique

r (Y

= ou

tput

= ré

pons

e)Li

ste

des

X c

ompl

ète?

p

= n

ombr

e O

K?

Mes

ure

de Y

-pr

oces

sus

de m

esur

e / e

rreu

r? j

uste

sse?

STR

UC

TUR

E e

t le

PLAN

de

colle

cte

des

donn

ées

expé

rienc

e pl

anifi

ée

-que

l pla

n st

atis

tique

?

-com

bien

de

donn

ées

? n

?do

nnée

s ob

serv

ées

sans

pla

n ex

périm

enta

l –qu

alité

?Te

rme

d’er

reur

exp

érim

enta

le -

dist

ribut

ion

norm

ale?

Im

port

ance

?pr

éocc

upat

ion

obse

ssiv

e !

Form

e de

f -

conn

ue –

linéa

ire /

non

linéa

ire (

cas

plut

ôt ra

re)

-inc

onnu

e -q

uelle

app

roxi

mat

ion

? –

poly

nom

iale

?-t

echn

ique

s de

sél

ectio

n de

s va

riabl

es p

our m

odél

iser

-qua

lité

du m

odèl

e aj

usté

?

Crit

ères

?Aj

uste

men

t du

mod

èle

-an

alys

e de

sen

sibi

lité

des

X

Éval

uatio

n de

qua

lité

du m

odèl

e-

anal

yse

des

rési

dus

Plan

ifica

tion

étud

e st

atis

tique

17

ÉTA

PES

É

TUD

E

STAT

ISTI

QU

E C

LASS

IQU

E1.

Iden

tific

atio

npr

oces

sus

/pro

blèm

e/v

aria

bles

2.O

bser

vatio

npl

anco

llect

ede

sdo

nnée

s3.

Spéc

ifica

tion

mod

èle

pour

anal

yse

4.Es

timat

ion

para

mèt

res

dum

odèl

e5.

Déc

ompo

sitio

nva

riabi

lité

(AN

OVA

),te

stF

6.Va

lidat

ion

test

s,ra

tio-F

,ana

lyse

rési

dus

7.Ex

ploi

tatio

nop

timis

atio

n /

réso

lutio

n pr

oblè

me

cisi

on /

act

ion

ÉTAP

ES

ANAL

YSE

STAT

ISTI

QU

E

CLA

SSIQ

UE

1.Sp

écifi

catio

n d

’un

mod

èle

stat

istiq

ue2.

Estim

atio

n de

s pa

ram

ètre

s du

mod

èle

3.

Déc

ompo

sitio

n de

la v

aria

bilit

é :

ANO

VA4.

Test

s d’

hypo

thès

es s

ur le

s pa

ram

ètre

s 5.

An

alys

e di

agno

stiq

ue d

es ré

sidu

s -v

érifi

catio

n d

es h

ypot

hèse

s d

e b

ase

-ide

ntifi

catio

n d

’obs

erva

tions

inf

luen

tes

-tra

nsfo

rmat

ion

Box

-Cox

de

répo

nse

Y

6.Si

néc

essa

ire :

itéra

tion

des

éta

pes

1 à

57.

Opt

imis

atio

n de

la ré

pons

e (s

’il y

a li

eu)

8. G

raph

ique

s de

la ré

pons

e 18

X 1 X 2 . . .

X k

SYST

ÈME

/

PRO

CES

SUS

=er

reu

r =

sour

ces

inco

nnue

sde

var

iabi

lité

(0,

2 )

répo

nse

-so

rtie

mes

urée

Y=

f(X)

+g(

Z)+

peut

avo

ir pl

usie

urs

Y

ANAL

YSE

STAT

ISTI

QU

E C

LASS

IQU

E : c

ompr

endr

e / p

rédi

re /

optim

iser

Z 1 Z 2 . . . Z h

Auc

une

rest

rictio

n co

ncer

nant

la n

atur

e de

s X

et Y

X: c

atég

oriq

ue, e

ntiè

re, c

ontin

ue, c

ontr

ôlée

s, a

léat

oire

sY:

bin

aire

(0, 1

), m

ultin

omia

le, e

ntiè

re, c

ontin

ue

Alg

orith

mes

du

Mac

hine

Lea

rnin

glin

éaire

, lin

éaire

gén

éral

isé,

arb

res,

rése

aux

neur

ones

,PL

S, e

tc. .

.

p =

nom

bre

de v

aria

bles

n

= n

ombr

e d’

obse

rvat

ions

on p

eut a

voir

plu

s de

var

iabl

es q

ue d

’obs

erva

tions

!

"Le

dout

e n’

est

pas

une

cond

itio

n ag

réab

le,

mai

s la

cer

titu

de e

st a

bsur

de.”

Lettr

e à

Fréd

éric

II, r

oi d

e Pr

usse

6 a

vril

1767

de F

ranç

ois

Mar

ie A

roue

t dit

Volta

ire 19

CO

MPA

RAI

SON

Mod

èle

de ré

gres

sion

Mod

èle

d’an

alys

e de

var

ianc

e

But

déve

lopp

emen

t d’u

n m

odèl

epr

édic

tif d

e la

répo

nse

iden

tific

atio

n de

s ef

fets

sig

nific

atifs

sur l

a ré

pons

e

Sour

ce d

es d

onné

eshi

stor

ique

s /

obse

rvat

ionn

elle

sré

sulta

t d’u

n pl

an d

’exp

érim

enta

tion

Nom

bre

d’ob

serv

atio

nsgr

and:

cen

tain

es,,m

illie

rs…

pe

tit :

diz

aine

s

Varia

bles

d’e

ntré

eco

ntin

ues

/ qua

ntita

tives

caté

goriq

ues

/ qua

litat

ives

Nom

bre

de v

aleu

rsdi

stin

ctes

des

var

iabl

esd’

entr

éeau

tant

qu’

il y

a d’

obse

rvat

ions

nom

bre

rest

rein

tgé

néra

lem

ent m

oins

de

10

Util

isat

ion

des

varia

bles

indi

catr

ices

(0-1

)oc

casi

onne

lleem

ploy

ées

syst

émat

ique

men

t pou

rre

prés

ente

r les

mod

alité

sEm

phas

e et

diff

icul

téfo

rme

et la

qua

lité

du m

odèl

esp

écifi

catio

n du

mod

èle

reflé

tant

laco

mpl

exité

du

plan

exp

érim

enta

l

Stru

ctur

e de

s do

nnée

ssi

mpl

eco

mpl

exe

20

Étu

de

des

rel

atio

ns

entr

ées-

sort

ies

An

aly

se s

up

erv

isée

PRO

CES

SUS

X : e

ntré

esY

: sor

ties

/ rép

onse

Page 6: science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those who ignore statistics are condemned to re-invent it "Brad Efron idée données idée

21

appr

oche

pro

cess

us

X : e

ntré

esY

: sor

ties

/ rép

onse

Que

lles

son

t le

s va

riabl

es C

RIT

IQU

ES

X

ID

ENTI

FIC

ATIO

Naf

fect

ant

les

var

iabl

es d

e ré

pons

e Y

?

Que

lle e

st la

FO

NC

TIO

N d

e TR

ANSF

ERT

f

M

OD

ÉLIS

ATIO

Nen

tre

les

var

iabl

es c

ritiq

ues

X e

t

fla

var

iabl

e d

e ré

pons

e va

riabl

e Y

?

X

Y =

f (X)

Com

men

t C

ON

TRÔ

LER

la r

épon

se Y

à u

n n

ivea

u d

ésiré

CO

NTR

ÔLE

nom

inal

-m

axim

um -

min

imum

et

en f

ixan

t le

s va

riabl

es X

à d

es

OPT

IMIS

ATIO

N

nive

aux

spé

cifiq

ues

?

PRO

CES

SUS

chap

itre

1C

op

yrig

ht

© G

énis

tat

Con

seil

s In

c.M

on

tréa

l, C

anad

a, 2

020

LE

Y:

répo

nse

, out

put,

à ex

pliq

uer

peut

êtr

e: b

inai

re (0

, 1),

mul

tinom

iale

, con

tinue

, m

ultid

imen

sion

nelle

X,Z

: ex

plic

ativ

es, r

égre

sseu

rs, i

nput

inte

r / in

tra

re

lativ

emen

t aux

uni

tés

expé

rimen

tale

sN

AT

UR

EX

(fixé

es) :

co

ntin

ues,

cat

égor

ique

s (fa

cteu

rs)

Z (a

léat

oire

s) :

con

tinue

s, c

atég

oriq

ues

INFL

UE

NC

EX

: af

fect

e la

cen

tral

ité (m

oyen

ne) d

e Y

: ef

fets

fixe

sZ

: af

fect

e la

dis

pers

ion

(var

ianc

e) d

e Y

: effe

ts a

léat

oire

s

effe

ts fi

xés

effe

ts a

léat

oire

sm

ixte

=ef

fets

fixé

s +

effe

ts a

léat

oire

sgé

néra

lY

=f(

X 1, X

2, …

, X k

;0

,1

,2

,… )

+g

(Z1,

Z 2, .

., Z h

;12

,22

,…) +

(0,

2 )

mod

èle

mix

te

Y

=X

Zu+

u ~

N(0

,G)

N(0

,R)

Cov

[u,

Yve

ctor

of re

spon

ses

X kn

own

desi

gn m

atrix

of t

he fi

xed

effe

cts

Z kn

own

desi

gn m

atrix

of t

he ra

ndom

effe

cts

ifZ

= 0

mod

èle

effe

tsfix

ésu

unkn

own

vect

or o

f ran

dom

effe

cts

erro

rs

vale

urs

indi

vidu

elle

s

Yi n

i×1

vect

or o

f res

pons

es s

ubje

ct i

Xi n

i×p

desi

gn m

atrix

of f

ixed

effe

cts

subj

ect i

(p is

the

num

ber o

f col

umns

in X

)×1

vec

tor o

f reg

ress

ion

para

met

ers

Zini

×qde

sign

mat

rix o

f the

rand

om e

ffect

s su

bjec

t iui

q×1

vect

or o

f ran

dom

effe

cts

for s

ubje

ct i

whi

ch h

as m

eans

of z

ero

and

cova

rianc

e m

atrix

Gsu

bni

×1 v

ecto

r of e

rror

s su

bjec

t iw

ith z

ero

mea

n an

d co

varia

nce

Ri

ninu

mbe

r of r

epea

ted

mea

sure

men

ts s

ubje

ct I

Nnu

mbe

rsub

ject

sei

vect

or o

f res

idua

ls fo

r sub

ject

i(e

i=yi

-Vi

= V

ar[y

i] =

ZiG

subZ

i' +

Ri

VAR

IAB

LES

22

MO

DÈL

ES

Y =

23

VAR

IAB

LES

Nat

ure:

con

tinue

-

caté

goriq

ueR

ôle:

expl

icat

ives

(X =

inpu

t) -

à ex

pliq

uer (

Y =

outp

ut =

répo

nse)

List

e de

s X

com

plèt

e?

k =

nom

bre

OK

?M

esur

e de

Y -

proc

essu

s de

mes

ure

/ err

eur?

jus

tess

e?ST

RU

CTU

RE

et l

e PL

AN d

e co

llect

e de

s do

nnée

sex

périe

nce

plan

ifiée

-q

uel p

lan

stat

istiq

ue?

-com

bien

de

donn

ées?

n?

donn

ées

obse

rvée

s sa

ns p

lan

expé

rimen

tal –

qual

ité?

Term

e d’

erre

ur e

xpér

imen

tale

-di

strib

utio

n no

rmal

e? i

mpo

rtan

ce?

impo

rtan

ce o

bses

sive

sur l

a no

rmal

itéFo

rme

de f

-con

nue

–lin

éaire

/ no

n lin

éaire

(ca

s pl

utôt

rare

)-i

ncon

nue

-que

lle a

ppro

xim

atio

n? –

poly

nom

iale

?-t

echn

ique

s de

sél

ectio

n de

s va

riabl

es p

our m

odél

iser

-qua

lité

du m

odèl

e aj

usté

? c

ritèr

es?

Ajus

tem

ent d

u m

odèl

e-

anal

yse

de s

ensi

bilit

é de

s X

Éval

uatio

n de

qua

lité

du m

odèl

e-

anal

yse

des

rési

dus

-va

lidat

ion

cro

isée

VAR

IAB

LES

et

MO

DÈL

EÉT

UD

E S

TATI

STIQ

UE

1.Id

entif

icat

ion

proc

essu

s/p

robl

ème

/var

iabl

es2.

Obs

erva

tion

plan

colle

cte

des

donn

ées

3.Sp

écifi

catio

nm

odèl

epo

uran

alys

e4.

Estim

atio

npa

ram

ètre

sdu

mod

èle

5.D

écom

posi

tion

varia

bilit

é(A

NO

VA),

test

F6.

Valid

atio

nte

sts,

ratio

-F,a

naly

seré

sidu

s7.

Expl

oita

tion

optim

isat

ion

/ ré

solu

tion

prob

lèm

e / d

écis

ion

/ ac

tion

AN

ALY

SE

STAT

ISTI

QU

E

1.Sp

écifi

catio

n d

’un

mod

èle

stat

istiq

ue2.

Estim

atio

n de

s pa

ram

ètre

s du

mod

èle

3.

Déc

ompo

sitio

n de

la v

aria

bilit

é :

ANO

VA4.

Test

s d’

hypo

thès

es s

ur le

s pa

ram

ètre

s 5.

An

alys

e di

agno

stiq

ue d

es ré

sidu

s -v

érifi

catio

n d

es h

ypot

hèse

s d

e b

ase

-ide

ntifi

catio

n d

’obs

erva

tions

inf

luen

tes

-tra

nsfo

rmat

ion

répo

nse

Y ?

6.

Si n

éces

saire

: ité

ratio

n de

s é

tape

s 1

à 5

7.O

ptim

isat

ion

de la

répo

nse

(s’il

y a

lieu

)8.

Gra

phiq

ues

de la

répo

nse

24C

opyr

ight

© G

énis

tat C

onse

ils In

c.M

ontré

al, C

anad

a, 2

020

Page 7: science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those who ignore statistics are condemned to re-invent it "Brad Efron idée données idée

Cla

ssifi

catio

n de

s m

odèl

es s

tatis

tique

s

chap

itre

1

Mod

èle

gén

éral

Y=

(X1,

X 2,…

, Xk;

0,1,

2 ,…

,p)

+

2 )

(1)

Mod

èle

LIN

ÉAIR

E d

ans

les

si

Mod

èle

sans

var

iabl

e ex

plic

ativ

e: Y

=

0+

Mod

èle

de ré

gres

sion

par

l’or

igin

e: Y

=

1X +

Mod

èle

de ré

gres

sion

liné

aire

sim

ple :

Y =

0

+ 1X

+

Mod

èle

de ré

gres

sion

liné

aire

mul

tiple

Mod

èles

intr

insè

quem

ent l

inéa

ires:

liné

aire

s ap

rès

tran

sfor

mat

ions

sur

X e

t ou

Yex

empl

e : Y

=0

exp(

1X

+ )

Y* =

ln(Y

) =

0‘+

1X +

Mod

èles

intr

insè

quem

ent n

on li

néai

res :

équ

atio

ns (2

) et (

3) n

on s

atis

faite

s et

au

cune

tran

sfor

mat

ion

sur X

ou

Y ne

per

met

de

se ra

men

er à

ce

cas

exem

ple:

Y =

0

+ 1e

xp(

2X) +

Mod

èles

liné

aire

s gé

néra

lisés

(GLZ

) g(

Y) =

(X

1, X 2

,…, X

k;0,

1,2

,…,

p)

Mod

èles

d’a

naly

se d

e la

var

ianc

e pr

ésen

ce d

e va

riabl

es c

atég

oriq

ues

(X1,

X 2,…

, Xk;

0,1,

2,…

, p)

=

jf j(

X 1, X

2,…,X

k)

(2)

f j(X 1

, X2,…

, Xk)

= U

jne

dép

end

pas

de

para

mèt

re i

ncon

nu(3

)

alor

s

Y

=

jUj+

(4)

2526

ALG

OR

ITH

MES

(mét

hode

s) (M

achi

ne L

earn

ing)

SÉR

IES

CH

RO

NO

LOG

IQU

ES

Rég

ress

ion

mu

ltip

le o

rdin

aire

Rég

ress

ion

non

lin

éair

eR

égre

ssio

n l

inéa

ire

gén

éral

isée

Rég

ress

ion

av

ec c

on

trai

nte

s:R

idge,

Las

soR

égre

ssio

n s

pli

nes

(M

AR

S)R

égre

ssio

n g

énér

alis

ée a

dd

itiv

eR

égre

ssio

n r

ésea

ux n

euro

nau

xFlu

x T

ense

ur

Arb

res

de

clas

sifi

cati

on

(C

RT

)Forê

ts A

léat

oir

esM

éth

od

es g

rad

ien

t n

on

-con

vex

eA

lgori

thm

es g

énét

iqu

esM

éth

od

es e

nse

mb

list

es

Rég

ress

ion

boost

edX

GB

oost

Réd

uct

ion

dim

ensi

on

(PC

A)

Clu

ster

ing

K-M

ean

sK

-Nei

gh

bou

rC

lass

ific

atio

n h

iéra

rch

iqu

eR

ésea

ux B

aysi

ens

Mod

èle

de

Mar

kov

….

Dee

pLea

rnin

g

= A

pp

ren

tiss

age

pro

fon

d= r

ésea

ux n

euro

nes

mu

ltic

ou

ches

= i

nte

llig

ence

art

ific

iell

e (A

I)

SUPE

RVIS

ÉES

: X e

t Y

(

NO

N

SUPE

RVIS

ÉES

: X

SYST

ÈM

E

PR

OC

ESS

US

X 1X 2

. . .

Xk

Y

27

Cla

ss R

egre

ssio

nTr

ees

(CR

T)B

ostin

g(b

oost

rap)

Ense

mbl

esR

ando

mFo

rest

sG

AMM

ARSp

lines

Clu

ster

ing

Bay

esia

nN

etw

orks

Supp

ort V

ecto

rMac

hine

(SVM

) Te

xtM

inin

gW

eb C

raw

ling

Rap

id D

eplo

ymen

t(PM

ML)

Opt

imal

Bin

ning

Step

wis

eM

odel

Bui

lder

Proc

ess

Opt

imiz

atio

n

Neu

ral N

etw

orks

Algo

rithm

es d

u M

achi

ne L

earn

ing

(ML)

Dat

a M

inin

g (fo

uille

des

don

nées

)

logic

iel

Stat

isti

ca

base

IAIn

telli

genc

eAr

tific

ielle

28

mod

èles

sta

tistiq

ues

clas

siqu

es

GLM

: G

ener

al L

inea

r Mod

elG

LZ:

Gen

eral

ized

Lin

ear/N

onlin

ear M

odel

mod

èles

linéa

ires

mod

èles

linéa

ires

géné

ralis

és

logi

ciel

Sta

tistic

a

Page 8: science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those who ignore statistics are condemned to re-invent it "Brad Efron idée données idée

29

Exem

ples

de

mod

èles

de

régr

essi

on n

on-li

néai

res

30

ÉTU

DE

EXP

ÉRIM

ENTA

LEm

esur

es ré

pété

es

plan

cen

tral

-com

posi

te3

fact

eurs

X -

4 ré

pons

es Y

Expé

rienc

e en

par

celle

s di

visé

es(S

plitP

lot)

32 e

ssai

s

31

ÉTU

DE

OB

SERV

ATIO

NN

ELLE

6496

vin

s du

Por

tuga

l

……

……

……

……

……

……

……

……

……

……

……

……

……

……

……

……

……

32

……

……

……

……

……

……

……

……

……

……

……

……

……

……

……

……

……

ÉTU

DE

OB

SERV

ATIO

NN

ELLE

:do

nnée

s fin

anci

ères

40 e

ntre

pris

es b

ours

e de

Lo

ndre

s

Page 9: science des donnéescours.polymtl.ca/.../2020-MTH8302-ch01-MTH8302-Introduction-4tpd… · Those who ignore statistics are condemned to re-invent it "Brad Efron idée données idée

33ch

apitr

e 1

.

. . .

.

.

.

.

.

.

.

. . .

.

. . .

.

.

.

. .

15 v

ar X

506

obs

5 va

r X 1

08 o

bs

exem

ple

: do

nnée

s o

bser

vatio

nnel

les

prix

rési

denc

es v

s ca

ract

éris

tique

sex

empl

e:

donn

ées

exp

érim

enta

les

suiv

i de

pers

onne

sdi

ètes

34

MO

DÈL

ES d

’ana

lyse

de

varia

nce

–A,

B fa

cteu

rs c

atég

oriq

ues

chap

itre

1

rem

arqu

e:

term

es d

’err

eur

i k

i

j k

....

sont

em

boité

s da

nsla

str

uctu

re la

plu

s fin

e (c

ellu

les)

des

don

nées

on d

evra

it éc

rire

k (

i )

k (

i j

)

35

MO

DÈL

ES d

’ana

lyse

de

varia

nce

–fa

cteu

rs c

atég

oriq

ues

A, B

chap

itre

136

MO

DÈL

ES d

’ana

lyse

de

varia

nce

–fa

cteu

rs c

atég

oriq

ues

A, B

chap

itre

1C

op

yrig

ht

© G

énis

tat

Con

seil

s In

c.M

on

tréa

l, C

anad

a, 2

020