Introduccio a la estadístca
-
Upload
nestoralumnesafa -
Category
Documents
-
view
216 -
download
0
Transcript of Introduccio a la estadístca
-
7/21/2019 Introduccio a la estadstca
1/20
Introducci a lestadstica. Estadstica descriptiva 1
Estadstica. Tema 1
Professorsd
estadsticadelETS
dEnginyeriaIndustrialdeBarcelona
Introducci a lestadstica
Sntesi numrica de dades
Representacions grfiques
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 2
Introducci a lestadstica
Qu es lestadstica?
ltima epidmia de clera a Londres
El desastre del Challenger
Eleccions USA 2000: Bush vs. Al Gore
Tres exemples on lestadstica va ser(o podia haver estat) til
-
7/21/2019 Introduccio a la estadstca
2/20
Introducci a lestadstica. Estadstica descriptiva 2
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 3
E.R. Tufte: Visual Explanations. Graphics Press, 1997
The most terrible outbreak of cholera which ever occurred in this kingdomJohn Snow
Clera a Londres (1854)
Algunes coses no quadraven amb la teoria de la
miasma
- Els afectats tendien a sorgir de forma agrupada
- Els primers smptomes afectaven a laparell digestiu
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 4
John Snow (15 March 1813 16 June1858) was a British physician and a leader in
the adoption of anesthesia and medical
hygiene. He is considered to be one of the
fathers of epidemiology, because of his
work in tracing the source of a cholera
outbreak in Soho, England, in 1854.
Font: Wikipedia. John Snow (physician)
Clera a Londres (1854)
Va observar que la majoria de les morts es produen
entre els que bevien aigua duna determinada font.
El 3 de setembre va visitar la font i no va
trobar res despecial en laigua.
Per, de totes maneres...
-
7/21/2019 Introduccio a la estadstca
3/20
Introducci a lestadstica. Estadstica descriptiva 3
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 5
535
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 6
Robert Koch, 30 years later, identified V.
cholerae with a microscope as the bacillus
causing the disease in 1885.
Cities in developed nations made massive
investment in clean water supply and well-
separated sewage treatment infractures was
made between the mid-1850s and the 1900s. This
eliminated the threat of cholera epidemics from
the major developed cities in the world.
Clera a Londres (1854)
Idees (models, teories, conjetures,)
Dades (fets, fenmens,)
Inducci Deducci Inducci Deducci
-
7/21/2019 Introduccio a la estadstca
4/20
Introducci a lestadstica. Estadstica descriptiva 4
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 7
Illustraci agafada de: J.M. Juran Manualde Calidad. McGraw-Hill, Madrid 2001
Illustraci agafada de: H. M. Wadsworth et al. Modern Methods for QualityControl and Improvement Wiley, 1986
Diagrames de concentraci
Quines zones cal reforar?
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 8
E.R. Tufte: Visual Explanations. Graphics Press, 1997
El desastre del Challenger
-
7/21/2019 Introduccio a la estadstca
5/20
Introducci a lestadstica. Estadstica descriptiva 5
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 9
Data prevista de llanament: 28 de gener de 1986
Discussi la nit del 27 al 28: Convenia enrederir el llanament?
Problema: La temperatura prevista en el moment del llanament era
ms baixa del que era habitual. Podia afectar la temperatura a
d'estanquetat de les juntes?
Dades analitzades:
Temperatures quan hi havien hagut
desperfectes en les juntes
E.R. Tufte: Visual Explanations. Graphics Press, 1997
El desastre del Challenger
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 10
2 segons desprs
del llanament
59 segons desprs
del llanament
E.R. Tufte: Visual Explanations. Graphics Press, 1997
El desastre del Challenger
73 segons desprs del llanament
-
7/21/2019 Introduccio a la estadstca
6/20
Introducci a lestadstica. Estadstica descriptiva 6
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 11
E.R. Tufte: Visual Explanations. Graphics Press, 1997
El desastre del Challenger
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 12
Al Gore vs. George Bush
Al Gore vs. George BushEstat de Florida. Eleccions 2000
Comtat de Palm Beach
Estat de Florida:
6 milions delectors
Bush va guanyar per 537 vots
Qui guanyava a Florida eraPresident
Qu va passar a Palm Beach?
-
7/21/2019 Introduccio a la estadstca
7/20
Introducci a lestadstica. Estadstica descriptiva 7
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 13
Estadstica s
Recollida i anlisi de dades...
per obtenir una informaci quepermeti prendre millors decisions.
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 14
Les dues sortides dun procs
INFORMACI ESTADSTICA
Millora delproducte idel procs
DADES
PROCSEntrades
Productes oserveis
ESTADSTICA
-
7/21/2019 Introduccio a la estadstca
8/20
Introducci a lestadstica. Estadstica descriptiva 8
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 15
Probabilitat i inferncia
MOSTRA: Subconjunt (representatiu)de la poblaci
Inferenciaestadstica
POBLACI
POBLACI:Conjunt delements objecte destudi
Clcul deprobabilitats
Sabem que un cami va carregat de pecesi cont un 3% de defectuoses.
Quina s la probabilitat que en una mostrade 10 peces hi hagi alguna defectuosa?
MOSTRA
Si en una mostra 12 peces, shan trobat tresdefectuoses, entre quins valors es raonableconsiderar que es troba el percentatge de
peces defectuoses que produeix la fbrica?
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 16
Tipus de Variables
Qualitativa
(categrica)
Quantitativa
Nominal
Ordinal
Discreta
Continua
Marca dunproducte
Nivelldestudis
Nombre de productes defectuosos
Pes, alada, temperatura
TIPUS DE VARIABLE EXEMPLE
-
7/21/2019 Introduccio a la estadstca
9/20
Introducci a lestadstica. Estadstica descriptiva 9
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 17
Activitat: Identificaci de variables
La llargada (en mm) dun regle.
El color del cabell dels estudiants.
El pes dun sac de pinso (en Kg).
Nmero de trossos en els que es trenca un guix en caure a terra.
Ledat duna persona.
La quantitat de cigarretes que alg es fuma cada dia.
La valoraci dun menjar on les opcions de resposta sn: molt dolent, nogaire bo, bastant bo, bonssim.
Nmero de fills duna famlia.
Tipus de local (comercial, industrial...).
Estadstica. Tema 1
ProfessorsdestadsticadelETS
dEnginyeriaIndustrialdeBarcelona
Introducci a lestadstica
Sntesi numrica de dades
Representacions grfiques
-
7/21/2019 Introduccio a la estadstca
10/20
Introducci a lestadstica. Estadstica descriptiva 10
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 19
Objectiu: treure informaci a partir de les dades
Sntesi numrica de dades
1) Mesures de tendncia central Mitjana Mediana
2) Mesures de dispersi Rang i IQR Variana i desviaci tipus
3) Mesures de posici Quartils Percentils
4) Mesures de relaci entre dos variables Covariana Correlaci
Sntesi grfica de dades
Histograma Diagrama de Pareto
Diagrama bivariant
Diagrama de punts
(dotp lot)
Boxplot
...
INFORMACI ESTADSTICA
Millora delproducte idel procs
DADES
PROCSEntrades
Productes oserveis
ESTADSTICA
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 20
0 13
1 21
2 15
3 8
4 1
5 2
A la nostra empresa l'edat mitjana s de 40 anys per als homes i 30 anys pera les dones Quina s l'edat mitjana dels empleats?
Paradoxes de la mitjana...
Nombre mig de fills per famlia
Freqnciaabsoluta :
Valor de lavariable:
= 60 Nombre total de dades
Freqnciarelativa
Tendncia central: La mitjana
Nom. defills
Nom. defamlies
,
-
7/21/2019 Introduccio a la estadstca
11/20
Introducci a lestadstica. Estadstica descriptiva 11
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 21
109876543210
No t frmula. Poc influenciable per valors extrems
Ordenar els valorsde ms petit
a ms gran:
Tendncia central: Mediana
Nmero senar de dades: Valor que queda al mig
Nmero parell de dades: Promig dels 2 centrals
Els ordenem de ms petit a ms gran: 1, 2, 4, 7, 9
Exemple: Calcular la mediana de: 4, 2, 7, 1, 9
Mediana
Mediana
Mitjana (4,6)
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 22
Dispersi: Rang
Rang = Valor mxim valor mnim
Fcil de calcular i dinterpretar
Molt influenciable per valors extrems
Poc informativa, especialment si es tenen moltes dades
109876543210
Mediana
Mitjana (4,6) Max.Min.
Rang = 8
-
7/21/2019 Introduccio a la estadstca
12/20
Introducci a lestadstica. Estadstica descriptiva 12
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 23
Dispersi: Varincia
Promig del quadrat de las distncies de cada valor a la mitjana
(totes les dades intervenen en el clcul)
=
,
Les dades que tenim sontota la POBLACI
Les dades que tenim sonuna MOSTRA
=
109876543210
Mitjana (4,6)
3,6
2,6
0,6
4,4
2,4
Graus dellibertat
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 24
Dispersi: Desviaci tpica
Mesura de dispersi dus ms habitual
Exemple: Pesos de 4 persones (en kg): 65, 94, 81, 72Variana: s2 = 156,67 kg2 (!)Desviaci tipus: s = 12,52 kg
Mateixes unitats que les dades. Ordre de magnitud comparable
Males propietats algebraiques (operacions amb varincies)
Excel:
-
7/21/2019 Introduccio a la estadstca
13/20
Introducci a lestadstica. Estadstica descriptiva 13
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 25
Posici: quartils /decils
5052575859
6061616164686971727378788081828284869092
93949598100
Dadesordenadesde menys
a ms
Menor
Major
75,5 Mediana
50 %
50 %
Q1 = 61: Primer quartil
Q3 = 86: Tercer quartil
25 %
75 %
75 %
25 %
Posici Q1 (n+1)/4
Pos ici Me (n+1)/2
Pos ici Q3 3(n+1)/4
RangInterquartlic
(IQR)
Decils: El tercer decil deixa el 30% per sota
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 26
Sortida de MINITAB
Descriptive Statistics: Pulse1
Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
Pulse1 92 0 72,87 1,15 11,01 48,00 64,00 71,00 80,00 100,00
Stat > Basic Statistics > Display Descriptive Statistics...
Nmero de files (dades)
Nmero de valors miss ing(no interessa considerar a lestudi i shansubstitut per un asterisc
Mitjana
Desviaci tipus
Desviaci tipus de la mitjana
Valor mnim
Valor mxim
Primer quartil
MedianaTercer quartil
-
7/21/2019 Introduccio a la estadstca
14/20
Introducci a lestadstica. Estadstica descriptiva 14
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 27
Mesures de relaci lineal entre dos variables
109876543210
10
9
8
7
6
5
4
3
2
1
0
X
Y Mitjana de Y
Mitjana de X
+
+
Positiva(+ +)
+
-
Negativa(+ -)
+
-
Negativa(- +)
-
-
Positiva(- -)
n
i ii 1
(x x)(y y)Cov(X,Y)
n 1
Cov (X,Y) 0:No hi ha relaci
Cov (X,Y) > 0:Relaci positiva
Cov (X,Y) < 0:Relaci negativa
I II
IIIIV
INCONVENIENT: Depn de les unitats de les variables
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 28
Mesures de relaci lineal entre dos variables
150 160 170 180 190 200
40
50
60
70
80
90
100
110
Altura
Peso
500 1000 1500
500
1000
1500
X=N(1000, 200)
Y=N(1000,200)
El coeficient de correlaci resol els problemes de la covariana
XYX Y
Cov(X,Y)r
s s
Unitats: Es adimensional
Valors: Estan afitats entre1 y +1
-1: Correlaci negativa perfecta
0: Sense correlaci
+1: Correlaci positiva perfecta
r = 0,779
r = - 0,160
-
7/21/2019 Introduccio a la estadstca
15/20
Introducci a lestadstica. Estadstica descriptiva 15
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 29
?
Estadstica. Tema 1
ProfessorsdestadsticadelETS
dEnginyeriaIndustrialdeBarcelona
Introducci a lestadstica
Sntesi numrica de dades
Representacions grfiques
-
7/21/2019 Introduccio a la estadstca
16/20
Introducci a lestadstica. Estadstica descriptiva 16
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 31
Histogrames / Diagrames de punts
Diagrames de punts:
Especialment adequatquan es tenen poques
dades
Histogrames:
Quan interessavisualitzar la variabilitatde les dades
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 32
Diagrames en srie temporal
Quan interessa levoluci deles variables al llarg del temps
-
7/21/2019 Introduccio a la estadstca
17/20
Introducci a lestadstica. Estadstica descriptiva 17
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 33
Boxplo t
5, 7, 7, 9, 9, 9, 9, 9, 9, 9, 10, 11, 11, 11, 11, 11, 14, 15, 16, 18
Orden: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Q1 Mediana Q3
ltims valors abans dentrar a la zona danomalies
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Zonaanomaliesextremes
Zonaanomaliesextremes
Zonaanomaliesmoderades
ZonaanomaliesmoderadesQ1 Q3
1,5*IQR 1,5*IQR IQR 1,5*IQR 1,5*IQR
* * * o
Fixa latenci en les mesures de posici i en els valors extrems
IQR = Q3 Q1Valor de la dada ms petita quecau a la zona verda
Valor de la dada ms gran quecau a la zona verda
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 34
Boxplot. Exemples
Lunes Martes Mircoles Jueves Viernes
8
9
10
Humedad
1 2
100
150
200
Sex
Weight
Pes en funci del sexe en un grupde 92 estudiants
Evoluci de la humitat dun producte(pinso) fabricat al llarg duna setmana
-
7/21/2019 Introduccio a la estadstca
18/20
Introducci a lestadstica. Estadstica descriptiva 18
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 35
Diagrama de correlaci
115,5114,0112,5111,0109,5108,0106,5105,0103,5102,0
30000
28000
26000
24000
22000
20000
Potncia (CV)
Preu
(Euros)
Touran 1.4 TSI Advance
5008 1.6 THP Premium
308 SW 1.6 THP Premium
308 CC 1.6 THP Sport
3008 1.6 THP Premium 156
207 CC 1.6 THP Sport
Lancer 2.0DI-D Instyle
Carens 2.0 Emotion
Santa Fe 2.2CRDi C las.4x2 5p
FR-V 1.8 i-VTEC
CR-V 2.0 i-VTEC Elegance
Accord To u. 2.0 Elegance
Accord 2.0 Elegance
Mondeo 2.0TDCi Titanium Croma 1.9Mjt 16vJourney 2.0CRD SE
Avenger 2.0 VVT SE
Epica 2.0 LTX
X1 sDrive 18d
118d
Scatterplot of Preu (Euros) vs Potncia (CV)
Per estudiar possibles relacions entrevariables. Minitab presenta moltes
possibilitats: Estratificaci, identificaci depunts (Brush), collocaci detiquetes...
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 36
Diagrama de barres
Per representardistribucions defreqnciesassociades a unavariable qualitativa.
-
7/21/2019 Introduccio a la estadstca
19/20
Introducci a lestadstica. Estadstica descriptiva 19
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 37
Diagrama de Pareto
100
50
0
OtherECADB
100
50
0
OtherECADB
100
50
0OtherECADB
Mes = enero
Tipo de reclamacin
Count
Mes = febrero Mes = marzo
Mes = abril Mes = may o Mes = junio
Mes = julio Mes = agosto Mes = septiembre
B
D
A
C
E
Other
reclamacin
Tipo de
Pareto Chart of Tipo de reclamacin by MesCount 245 126 57 33 23 16
Percent 49,0 25,2 11,4 6,6 4,6 3,2Cum % 49,0 74,2 85,6 92,2 96,8 100,0
Tipo de reclamacin OtherECADB
500
400
300
200
100
0
100
80
60
40
20
0
Count
Percent
Pareto Chart of Tipo de reclamacin
Cas particular de diagrama de barres.Representa les parts en que es potdividir un problema ordenant-les de
ms a menys freqent. Molt utilitzats enlmbit del control i la millora de laqualitat.
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 38
Altres
Existeixen moltes possibilitats. Per exemple, per analitzar la relacientre una variable i altres dues es pot fer servir un diagrama de contorn(Contour Plot).
-
7/21/2019 Introduccio a la estadstca
20/20
Introducci a lestadstica Estadstica descriptiva 20
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 39
?
Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 40
Una pgina amb molt bons grfics
www.gapminder.org