Introduccio a la estadístca

download Introduccio a la estadístca

of 20

Transcript of Introduccio a la estadístca

  • 7/21/2019 Introduccio a la estadstca

    1/20

    Introducci a lestadstica. Estadstica descriptiva 1

    Estadstica. Tema 1

    Professorsd

    estadsticadelETS

    dEnginyeriaIndustrialdeBarcelona

    Introducci a lestadstica

    Sntesi numrica de dades

    Representacions grfiques

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 2

    Introducci a lestadstica

    Qu es lestadstica?

    ltima epidmia de clera a Londres

    El desastre del Challenger

    Eleccions USA 2000: Bush vs. Al Gore

    Tres exemples on lestadstica va ser(o podia haver estat) til

  • 7/21/2019 Introduccio a la estadstca

    2/20

    Introducci a lestadstica. Estadstica descriptiva 2

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 3

    E.R. Tufte: Visual Explanations. Graphics Press, 1997

    The most terrible outbreak of cholera which ever occurred in this kingdomJohn Snow

    Clera a Londres (1854)

    Algunes coses no quadraven amb la teoria de la

    miasma

    - Els afectats tendien a sorgir de forma agrupada

    - Els primers smptomes afectaven a laparell digestiu

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 4

    John Snow (15 March 1813 16 June1858) was a British physician and a leader in

    the adoption of anesthesia and medical

    hygiene. He is considered to be one of the

    fathers of epidemiology, because of his

    work in tracing the source of a cholera

    outbreak in Soho, England, in 1854.

    Font: Wikipedia. John Snow (physician)

    Clera a Londres (1854)

    Va observar que la majoria de les morts es produen

    entre els que bevien aigua duna determinada font.

    El 3 de setembre va visitar la font i no va

    trobar res despecial en laigua.

    Per, de totes maneres...

  • 7/21/2019 Introduccio a la estadstca

    3/20

    Introducci a lestadstica. Estadstica descriptiva 3

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 5

    535

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 6

    Robert Koch, 30 years later, identified V.

    cholerae with a microscope as the bacillus

    causing the disease in 1885.

    Cities in developed nations made massive

    investment in clean water supply and well-

    separated sewage treatment infractures was

    made between the mid-1850s and the 1900s. This

    eliminated the threat of cholera epidemics from

    the major developed cities in the world.

    Clera a Londres (1854)

    Idees (models, teories, conjetures,)

    Dades (fets, fenmens,)

    Inducci Deducci Inducci Deducci

  • 7/21/2019 Introduccio a la estadstca

    4/20

    Introducci a lestadstica. Estadstica descriptiva 4

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 7

    Illustraci agafada de: J.M. Juran Manualde Calidad. McGraw-Hill, Madrid 2001

    Illustraci agafada de: H. M. Wadsworth et al. Modern Methods for QualityControl and Improvement Wiley, 1986

    Diagrames de concentraci

    Quines zones cal reforar?

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 8

    E.R. Tufte: Visual Explanations. Graphics Press, 1997

    El desastre del Challenger

  • 7/21/2019 Introduccio a la estadstca

    5/20

    Introducci a lestadstica. Estadstica descriptiva 5

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 9

    Data prevista de llanament: 28 de gener de 1986

    Discussi la nit del 27 al 28: Convenia enrederir el llanament?

    Problema: La temperatura prevista en el moment del llanament era

    ms baixa del que era habitual. Podia afectar la temperatura a

    d'estanquetat de les juntes?

    Dades analitzades:

    Temperatures quan hi havien hagut

    desperfectes en les juntes

    E.R. Tufte: Visual Explanations. Graphics Press, 1997

    El desastre del Challenger

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 10

    2 segons desprs

    del llanament

    59 segons desprs

    del llanament

    E.R. Tufte: Visual Explanations. Graphics Press, 1997

    El desastre del Challenger

    73 segons desprs del llanament

  • 7/21/2019 Introduccio a la estadstca

    6/20

    Introducci a lestadstica. Estadstica descriptiva 6

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 11

    E.R. Tufte: Visual Explanations. Graphics Press, 1997

    El desastre del Challenger

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 12

    Al Gore vs. George Bush

    Al Gore vs. George BushEstat de Florida. Eleccions 2000

    Comtat de Palm Beach

    Estat de Florida:

    6 milions delectors

    Bush va guanyar per 537 vots

    Qui guanyava a Florida eraPresident

    Qu va passar a Palm Beach?

  • 7/21/2019 Introduccio a la estadstca

    7/20

    Introducci a lestadstica. Estadstica descriptiva 7

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 13

    Estadstica s

    Recollida i anlisi de dades...

    per obtenir una informaci quepermeti prendre millors decisions.

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 14

    Les dues sortides dun procs

    INFORMACI ESTADSTICA

    Millora delproducte idel procs

    DADES

    PROCSEntrades

    Productes oserveis

    ESTADSTICA

  • 7/21/2019 Introduccio a la estadstca

    8/20

    Introducci a lestadstica. Estadstica descriptiva 8

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 15

    Probabilitat i inferncia

    MOSTRA: Subconjunt (representatiu)de la poblaci

    Inferenciaestadstica

    POBLACI

    POBLACI:Conjunt delements objecte destudi

    Clcul deprobabilitats

    Sabem que un cami va carregat de pecesi cont un 3% de defectuoses.

    Quina s la probabilitat que en una mostrade 10 peces hi hagi alguna defectuosa?

    MOSTRA

    Si en una mostra 12 peces, shan trobat tresdefectuoses, entre quins valors es raonableconsiderar que es troba el percentatge de

    peces defectuoses que produeix la fbrica?

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 16

    Tipus de Variables

    Qualitativa

    (categrica)

    Quantitativa

    Nominal

    Ordinal

    Discreta

    Continua

    Marca dunproducte

    Nivelldestudis

    Nombre de productes defectuosos

    Pes, alada, temperatura

    TIPUS DE VARIABLE EXEMPLE

  • 7/21/2019 Introduccio a la estadstca

    9/20

    Introducci a lestadstica. Estadstica descriptiva 9

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 17

    Activitat: Identificaci de variables

    La llargada (en mm) dun regle.

    El color del cabell dels estudiants.

    El pes dun sac de pinso (en Kg).

    Nmero de trossos en els que es trenca un guix en caure a terra.

    Ledat duna persona.

    La quantitat de cigarretes que alg es fuma cada dia.

    La valoraci dun menjar on les opcions de resposta sn: molt dolent, nogaire bo, bastant bo, bonssim.

    Nmero de fills duna famlia.

    Tipus de local (comercial, industrial...).

    Estadstica. Tema 1

    ProfessorsdestadsticadelETS

    dEnginyeriaIndustrialdeBarcelona

    Introducci a lestadstica

    Sntesi numrica de dades

    Representacions grfiques

  • 7/21/2019 Introduccio a la estadstca

    10/20

    Introducci a lestadstica. Estadstica descriptiva 10

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 19

    Objectiu: treure informaci a partir de les dades

    Sntesi numrica de dades

    1) Mesures de tendncia central Mitjana Mediana

    2) Mesures de dispersi Rang i IQR Variana i desviaci tipus

    3) Mesures de posici Quartils Percentils

    4) Mesures de relaci entre dos variables Covariana Correlaci

    Sntesi grfica de dades

    Histograma Diagrama de Pareto

    Diagrama bivariant

    Diagrama de punts

    (dotp lot)

    Boxplot

    ...

    INFORMACI ESTADSTICA

    Millora delproducte idel procs

    DADES

    PROCSEntrades

    Productes oserveis

    ESTADSTICA

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 20

    0 13

    1 21

    2 15

    3 8

    4 1

    5 2

    A la nostra empresa l'edat mitjana s de 40 anys per als homes i 30 anys pera les dones Quina s l'edat mitjana dels empleats?

    Paradoxes de la mitjana...

    Nombre mig de fills per famlia

    Freqnciaabsoluta :

    Valor de lavariable:

    = 60 Nombre total de dades

    Freqnciarelativa

    Tendncia central: La mitjana

    Nom. defills

    Nom. defamlies

    ,

  • 7/21/2019 Introduccio a la estadstca

    11/20

    Introducci a lestadstica. Estadstica descriptiva 11

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 21

    109876543210

    No t frmula. Poc influenciable per valors extrems

    Ordenar els valorsde ms petit

    a ms gran:

    Tendncia central: Mediana

    Nmero senar de dades: Valor que queda al mig

    Nmero parell de dades: Promig dels 2 centrals

    Els ordenem de ms petit a ms gran: 1, 2, 4, 7, 9

    Exemple: Calcular la mediana de: 4, 2, 7, 1, 9

    Mediana

    Mediana

    Mitjana (4,6)

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 22

    Dispersi: Rang

    Rang = Valor mxim valor mnim

    Fcil de calcular i dinterpretar

    Molt influenciable per valors extrems

    Poc informativa, especialment si es tenen moltes dades

    109876543210

    Mediana

    Mitjana (4,6) Max.Min.

    Rang = 8

  • 7/21/2019 Introduccio a la estadstca

    12/20

    Introducci a lestadstica. Estadstica descriptiva 12

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 23

    Dispersi: Varincia

    Promig del quadrat de las distncies de cada valor a la mitjana

    (totes les dades intervenen en el clcul)

    =

    ,

    Les dades que tenim sontota la POBLACI

    Les dades que tenim sonuna MOSTRA

    =

    109876543210

    Mitjana (4,6)

    3,6

    2,6

    0,6

    4,4

    2,4

    Graus dellibertat

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 24

    Dispersi: Desviaci tpica

    Mesura de dispersi dus ms habitual

    Exemple: Pesos de 4 persones (en kg): 65, 94, 81, 72Variana: s2 = 156,67 kg2 (!)Desviaci tipus: s = 12,52 kg

    Mateixes unitats que les dades. Ordre de magnitud comparable

    Males propietats algebraiques (operacions amb varincies)

    Excel:

  • 7/21/2019 Introduccio a la estadstca

    13/20

    Introducci a lestadstica. Estadstica descriptiva 13

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 25

    Posici: quartils /decils

    5052575859

    6061616164686971727378788081828284869092

    93949598100

    Dadesordenadesde menys

    a ms

    Menor

    Major

    75,5 Mediana

    50 %

    50 %

    Q1 = 61: Primer quartil

    Q3 = 86: Tercer quartil

    25 %

    75 %

    75 %

    25 %

    Posici Q1 (n+1)/4

    Pos ici Me (n+1)/2

    Pos ici Q3 3(n+1)/4

    RangInterquartlic

    (IQR)

    Decils: El tercer decil deixa el 30% per sota

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 26

    Sortida de MINITAB

    Descriptive Statistics: Pulse1

    Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum

    Pulse1 92 0 72,87 1,15 11,01 48,00 64,00 71,00 80,00 100,00

    Stat > Basic Statistics > Display Descriptive Statistics...

    Nmero de files (dades)

    Nmero de valors miss ing(no interessa considerar a lestudi i shansubstitut per un asterisc

    Mitjana

    Desviaci tipus

    Desviaci tipus de la mitjana

    Valor mnim

    Valor mxim

    Primer quartil

    MedianaTercer quartil

  • 7/21/2019 Introduccio a la estadstca

    14/20

    Introducci a lestadstica. Estadstica descriptiva 14

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 27

    Mesures de relaci lineal entre dos variables

    109876543210

    10

    9

    8

    7

    6

    5

    4

    3

    2

    1

    0

    X

    Y Mitjana de Y

    Mitjana de X

    +

    +

    Positiva(+ +)

    +

    -

    Negativa(+ -)

    +

    -

    Negativa(- +)

    -

    -

    Positiva(- -)

    n

    i ii 1

    (x x)(y y)Cov(X,Y)

    n 1

    Cov (X,Y) 0:No hi ha relaci

    Cov (X,Y) > 0:Relaci positiva

    Cov (X,Y) < 0:Relaci negativa

    I II

    IIIIV

    INCONVENIENT: Depn de les unitats de les variables

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 28

    Mesures de relaci lineal entre dos variables

    150 160 170 180 190 200

    40

    50

    60

    70

    80

    90

    100

    110

    Altura

    Peso

    500 1000 1500

    500

    1000

    1500

    X=N(1000, 200)

    Y=N(1000,200)

    El coeficient de correlaci resol els problemes de la covariana

    XYX Y

    Cov(X,Y)r

    s s

    Unitats: Es adimensional

    Valors: Estan afitats entre1 y +1

    -1: Correlaci negativa perfecta

    0: Sense correlaci

    +1: Correlaci positiva perfecta

    r = 0,779

    r = - 0,160

  • 7/21/2019 Introduccio a la estadstca

    15/20

    Introducci a lestadstica. Estadstica descriptiva 15

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 29

    ?

    Estadstica. Tema 1

    ProfessorsdestadsticadelETS

    dEnginyeriaIndustrialdeBarcelona

    Introducci a lestadstica

    Sntesi numrica de dades

    Representacions grfiques

  • 7/21/2019 Introduccio a la estadstca

    16/20

    Introducci a lestadstica. Estadstica descriptiva 16

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 31

    Histogrames / Diagrames de punts

    Diagrames de punts:

    Especialment adequatquan es tenen poques

    dades

    Histogrames:

    Quan interessavisualitzar la variabilitatde les dades

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 32

    Diagrames en srie temporal

    Quan interessa levoluci deles variables al llarg del temps

  • 7/21/2019 Introduccio a la estadstca

    17/20

    Introducci a lestadstica. Estadstica descriptiva 17

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 33

    Boxplo t

    5, 7, 7, 9, 9, 9, 9, 9, 9, 9, 10, 11, 11, 11, 11, 11, 14, 15, 16, 18

    Orden: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

    Q1 Mediana Q3

    ltims valors abans dentrar a la zona danomalies

    3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

    Zonaanomaliesextremes

    Zonaanomaliesextremes

    Zonaanomaliesmoderades

    ZonaanomaliesmoderadesQ1 Q3

    1,5*IQR 1,5*IQR IQR 1,5*IQR 1,5*IQR

    * * * o

    Fixa latenci en les mesures de posici i en els valors extrems

    IQR = Q3 Q1Valor de la dada ms petita quecau a la zona verda

    Valor de la dada ms gran quecau a la zona verda

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 34

    Boxplot. Exemples

    Lunes Martes Mircoles Jueves Viernes

    8

    9

    10

    Humedad

    1 2

    100

    150

    200

    Sex

    Weight

    Pes en funci del sexe en un grupde 92 estudiants

    Evoluci de la humitat dun producte(pinso) fabricat al llarg duna setmana

  • 7/21/2019 Introduccio a la estadstca

    18/20

    Introducci a lestadstica. Estadstica descriptiva 18

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 35

    Diagrama de correlaci

    115,5114,0112,5111,0109,5108,0106,5105,0103,5102,0

    30000

    28000

    26000

    24000

    22000

    20000

    Potncia (CV)

    Preu

    (Euros)

    Touran 1.4 TSI Advance

    5008 1.6 THP Premium

    308 SW 1.6 THP Premium

    308 CC 1.6 THP Sport

    3008 1.6 THP Premium 156

    207 CC 1.6 THP Sport

    Lancer 2.0DI-D Instyle

    Carens 2.0 Emotion

    Santa Fe 2.2CRDi C las.4x2 5p

    FR-V 1.8 i-VTEC

    CR-V 2.0 i-VTEC Elegance

    Accord To u. 2.0 Elegance

    Accord 2.0 Elegance

    Mondeo 2.0TDCi Titanium Croma 1.9Mjt 16vJourney 2.0CRD SE

    Avenger 2.0 VVT SE

    Epica 2.0 LTX

    X1 sDrive 18d

    118d

    Scatterplot of Preu (Euros) vs Potncia (CV)

    Per estudiar possibles relacions entrevariables. Minitab presenta moltes

    possibilitats: Estratificaci, identificaci depunts (Brush), collocaci detiquetes...

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 36

    Diagrama de barres

    Per representardistribucions defreqnciesassociades a unavariable qualitativa.

  • 7/21/2019 Introduccio a la estadstca

    19/20

    Introducci a lestadstica. Estadstica descriptiva 19

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 37

    Diagrama de Pareto

    100

    50

    0

    OtherECADB

    100

    50

    0

    OtherECADB

    100

    50

    0OtherECADB

    Mes = enero

    Tipo de reclamacin

    Count

    Mes = febrero Mes = marzo

    Mes = abril Mes = may o Mes = junio

    Mes = julio Mes = agosto Mes = septiembre

    B

    D

    A

    C

    E

    Other

    reclamacin

    Tipo de

    Pareto Chart of Tipo de reclamacin by MesCount 245 126 57 33 23 16

    Percent 49,0 25,2 11,4 6,6 4,6 3,2Cum % 49,0 74,2 85,6 92,2 96,8 100,0

    Tipo de reclamacin OtherECADB

    500

    400

    300

    200

    100

    0

    100

    80

    60

    40

    20

    0

    Count

    Percent

    Pareto Chart of Tipo de reclamacin

    Cas particular de diagrama de barres.Representa les parts en que es potdividir un problema ordenant-les de

    ms a menys freqent. Molt utilitzats enlmbit del control i la millora de laqualitat.

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 38

    Altres

    Existeixen moltes possibilitats. Per exemple, per analitzar la relacientre una variable i altres dues es pot fer servir un diagrama de contorn(Contour Plot).

  • 7/21/2019 Introduccio a la estadstca

    20/20

    Introducci a lestadstica Estadstica descriptiva 20

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 39

    ?

    Estadstica. Tema 1: Introducci a lestadstica / Estadstica descriptiva 40

    Una pgina amb molt bons grfics

    www.gapminder.org