ANALISIS EXPLORATORIO de DATOS - inf.utfsm.clhallende/download/Esta-1-2003/Cap2.2003... · No es...

47
Universidad Técnica Federico Santa María Departamento de Informática ILI-280 Capítulo 2: Capítulo 2: ANALISIS EXPLORATORIO ANALISIS EXPLORATORIO de de DATOS DATOS Estadística Computacional Estadística Computacional 1º Semestre 2003 1º Semestre 2003 Profesor :Héctor Allende Página : www.inf.utfsm.cl/~hallende e-mail : [email protected]

Transcript of ANALISIS EXPLORATORIO de DATOS - inf.utfsm.clhallende/download/Esta-1-2003/Cap2.2003... · No es...

Universidad Técnica Federico Santa María

Departamento de Informática

ILI-280

Capítulo 2:Capítulo 2:ANALISIS EXPLORATORIOANALISIS EXPLORATORIO

dedeDATOSDATOS

Estadística ComputacionalEstadística Computacional1º Semestre 20031º Semestre 2003

Profesor :Héctor AllendePágina : www.inf.utfsm.cl/~hallendee-mail : [email protected]

2Profesor:H. Allende

Clasificación/ Tipos de Datos

Cualitativo (Categorías)Nominal Viña = 1 ; Santiago = 2 ; Temuco = 3 44

Ordinal Pobre = 1; Aceptable = 2; Bueno = 3; Excelente = 4

Cuantitativo (Números)Intervalar temperatura, viscosidad, distancia, duración

Razón peso/altura NOTA:

El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.

Por ejemplo promedio, mediana y variancia no tienen sentido con datos categóricos (si con proporciones)

NOTA:

El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.

Por ejemplo promedio, mediana y variancia no tienen sentido con datos categóricos (si con proporciones)

3Profesor:H. Allende

Escalas de MedidaClasificación : Nominal, Ordinal, Intervalos y

Razón

Variables : Discretas y Continuas Categóricas, Cuantitativas

Organización : Frecuencia absolutaFrecuencia relativa

A partir de nivel ordinal :Frecuencia absoluta acumuladaFrecuencia relativa acumulada

4Profesor:H. Allende

Variables Categóricas: (Escala Nominal)Moda ( Medida del centro )Tasa de Variación ( Medida de Dispersión )

Variables Cualitativas: (Escala Ordinal)Moda, MedianaTasa de Variación, Índice de Dispersión

Variables Cuantitativas: (Escala Intervalar)Moda, Mediana, Media, Media TruncadaTasa de Variación, Índice de Dispersión, VarianzaRango, Rango Intercuartílico (IQR), MEDA

Medidas de homogeneidad

XS

Señal de Ruido η = - log CV = 2

2SX

5Profesor:H. Allende

Escala Nominal

Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.

• La variable induce una partición sobre la población la información puede clasificarse en clases o categorías.

• Cada clase debe estar perfectamente definida y diferenciada de las demás.

• La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:

Ejemplos alumnos por cursos: primero (1), segundo (2),...., sexto (6) año; sexo: masculino (M), femenino (F); Colegio: Mackay (1); Santiago College (2), St George (3), etc.

6Profesor:H. Allende

Escala Ordinal

Dónde existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de areglar los elementos de acuerdo al orden establecido.

La variable admite grados de calidad:existe una relación de orden total entre las clases.

No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases.

Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)

7Profesor:H. Allende

Escala Intervalar

Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantidicarla diferencia de todos los individuos pertenecientes a los intervalos, clases o categorías distintas.

Está involucrado en concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.

Ejemplos: temperatura al interior de un silo, interes sólo clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), .....,(30, 35°)}. Puntaje promedio PAA, interesa clasificar en tramos de 25 puntos.

8Profesor:H. Allende

Escala Intervalar

Tabligramas.

Tablas de Frecuencia.

Histogramas: valores discretos y continuos.

Usar 5 a 20 clases (intervalos o grupos).(considerar anchos de clases, límites y marca de clase).(polígono de frecuencias – dibujar en marca de clase).

Frecuencia Acumulada - Ojiva.(graficar en límite superior).

9Profesor:H. Allende

Escala de Razón

Su usa cuando no sólo el orden y tamaño del intervalo son importantes; .

La única razón entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no

10Profesor:H. Allende

Organización/Presentación

Frecuencia Relativa.

Se llama frecuencia relativa de la clase ci a la proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra. Se de nota por fi. Se puede verificar que

fi = --- nótese que .... Σ ni = 1k

i = 1

ni

n

k

i = 1

11Profesor:H. Allende

Organización/Presentación

Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.

Frecuencia Absoluta.

Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenecena dicha clase y se denota por ni. Como las clases c1, c2, ..... ck una partición de la muestra, es fácil verificar que

n = Σ ni número total de observaciones o tamaño de la muestra

k

i = 1

k

i = 1

12Profesor:H. Allende

Representación de Datos Cualitativos

Reglas:Cada observación debedebe estar en una, y en una sola, categoría.Todas las observaciones deben ser consideradas.

Tablas Proveen el mayor detalle.Gráficos de Barras Utilizar Pareto.

Gráficos Circulares o de Torta .

13Profesor:H. Allende

Tablas

107

60

51

25

10

8

1

2

3

4

5

6

Clase Descripción # Observ.

14Profesor:H. Allende

Escala Nominal

120

Diagramas de Pareto107

100

80

40

60

Frec

uenc

ia

6051

2520

10 8

01 2 3 4 5 6

Clase

15Profesor:H. Allende

Escala Nominal65

40%

10%Diagramas Circulares

3%4%4

1

320%

223%

16Profesor:H. Allende

Escala Ordinal

9

Diagramas en Bloques8

7

6

5

4

3

2

1

0Pobre Regular Aceptable Bueno Muy Bueno

17Profesor:H. Allende

Escalas de MedidaPresentación :-Tablas de frecuencias

-Gráficos: Diagramas de Bloques, -Circulares, Barras -Diagrama acumulativo

Ejemplo: 40 Datos10 8 711 7 2 9 1 312 3 6 8 0 4 313 8 2 6 5 7 2 4 114 1 3 8 0 3 2 8 5 715 2 3 0 8 8 316 0 1 0 2

TABLIGRAMA

18Profesor:H. Allende

Tabla de FrecuenciaN° Clases ≈ 1 + 3.3 log n ≈ 7Rango = máx { xi } - mín { xi } = 162 - 107 = 55Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8

Límites

106.5 - 114.5114.5 - 122.5122.5 - 130.5130.5 - 138.5138.5 - 146.5146.5 - 154.5154.5 - 162.5

Marca

110.5118.5126.5134.5142.5150.5158.5

FrecuenciasABS - REL - REL. AC.

5358766

Construir:HistogramaDiagramaacumulativo

19Profesor:H. Allende

Histograma

9

8

7

6

5

4

3

2

1

0107 116 125 134 143 152 161

20Profesor:H. Allende

Polígono de Frecuencias

9

8

7

6

5

4

3

2

1

099 170107 116 125 134 143 152 161

21Profesor:H. Allende

Frecuencia Acumulada - Ojiva

0123456789

107 116 125 134 143 152 16199 170

10111213141516171819202122232425262728293031323334353637383940

22Profesor:H. Allende

Datos no agrupados

X1, X2, .........., X2n+1

Mo = Moda = dato con mayor frecuenciaMe = Mediana = X(n+1)

= Media =

= Media truncada =

X

∑−+

+=−+

α

αα

12

1)()212(

1 n

iiXn

αX

∑+

=+

12

1121 n

iiXn

23Profesor:H. Allende

Datos no agrupados

V = Tasa de Variación = 1 - fMD = Índice de Dispersión = (rangQ3-rangQ1)/(K-1)

S2 = Varianza =

IQR = 1/2 (Q3 - Q1)

MEDA = Mediana Xi - Me

∑ −+ i

)X(Xn i

2

121

i

24Profesor:H. Allende

Datos no agrupados

13

231 2QQQQQ

−−+

33

Sm

Mr = ∑ −+ i

ri XXn

)(12

1

Medidas de Simetría:

I.S. =

γ1 =

Medidas de Forma:

γ2 = −44

Sm 3

25Profesor:H. Allende

Datos Agrupados

=

k

i 1

∑=

−k

i

XXiif

1

2)(

=

−1i

XXiif

k Clases

=∑ iX

if *

S2 =

MD = ∑

X

26Profesor:H. Allende

Datos Agrupados

e

e

en

Nn

aLMe)

2( 1−−

+=

L : Límite inferior Clase mediana (C Med)Ne-1 : Frecuencia Acumulada hasta ante C Medne : Frecuencia Absoluta C Medae : Amplitud C Medn : Tamaño de la muestra

27Profesor:H. Allende

Datos Agrupados

+

+=21

1

ggg

MaLMo

L : Límite inferior Clase modalaM : Amplitud Clase Modalg1 : nM-n1 g2 : nM-n2nM : Frecuencia absoluta Clase Modaln1 : Frecuencia absoluta Clase anterior a Clase Modaln2 : Frecuencia absoluta Clase posterior a Clase Modal

i

i

i

Q

Q

Qin

Nin

aLQ

+=− 1

4

28Profesor:H. Allende

TransformacionesSea yi = h ( xi ) con i = 1,...,n

1. Lineales yi = axi + b

y = ax + bSy = a Sx

2. No lineales yi = ln xi = h( xi )

y = h(x) + h”(x) SX2

Sy2≈ Sx

2 [ h’ (x)]2

i.e. y = ln x - ( Sx2 / x2 )

Sy2 ≈ ( Sx

2 / x2 ) = CV 2

21

21

29Profesor:H. Allende

Transformaciones

3. Box-Cox Transformaciones (1964)

h (x) = Xλ = ( x + m )λ - 1 λ ≠ 0 x > -m

m

ln ( x + m ) λ = 0 m > 0

30Profesor:H. Allende

Relaciones Linealizables

1. y = K xβ ln y = a0 + a1 ln x2. y = K ± ( β / x ) y = a0 ± a1 x-1

3. y = K eβx ln y = a0 + a1 x4. y = K e-β/x ln y = a0 + a1 x-1

5. yt = K + β cos t y = a0 + a1 xtsiendo xt = cos t

6. y(λ) = yλ - 1 = a0 + a1 x

yλ-1 dy = a1 w = dydx dx

ln w = ln a1 + ( 1 - λ ) ln y

31Profesor:H. Allende

Análisis de una muestra estratificada

E2

n2 V2

2X

E1n1 V11X

Emnm VmmX

∑=

=m

hh nn

1

nnp h

h =

m- estratos

Supongamos que la variable admite una clasificación en k-clases, representadas por X1, X2,.....Xk.

32Profesor:H. Allende

Análisis de una muestra estratificadanih = Cantidad de individuos de la submuestra del

estrato “h” que pertenece a Ci.

h

ih

nn

=ihf ∑=

=k

i 11ihf ∑

=

=k

ihih nn

1

∑=

−=k

ihih XXV

1

2)(ihf∑=

=k

iih XX

1ihf

∑=

=m

hhp

1ihi ff

33Profesor:H. Allende

Análisis de una muestra estratificada

Entonces:

2

11)(∑∑

==

−+=m

hhh

m

hhhT XXpVpV

∑=

=m

hnh XpX

1

erraT VVV intint +=

34Profesor:H. Allende

EjemplosSe tiene 3 criaderos de aves. En el criadero (1) se ponen 50 pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos. Al cabo de un cierto tiempo se pesan los 350 pollos, encontrándose que algunos están muertos y los vivos pesan entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos muertos se supondrán de peso cero, y el cero actuará como centro del supuesto intervalo. Los otros intervalos serán [1,00 ; 1,50] [1,50 ; 2,00] [2,00 ; 2,50].

CalcularCentros

01,251,752,25

Frecuencias Absolutas(1) (2) (3)5 10 1010 20 3030 150 505 20 10

raer

Thh

VVVXVX

intint ,,,,

Note que existen 3 estratos y 4 clases

35Profesor:H. Allende

Ejercicio

Estrato (1) P1=1/7Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2

0 0,1 0 -1,525 2,325 0,23251,25 0,2 0,250 -0,275 0,0756 0,01511,75 0,6 1,050 0,225 0,0501 0,03042,25 0,1 0,225 0,725 0,525 0,0525

Estrato (2) P2=4/7fi2 fi2X1 Xi-X2 ( )2 fi2( )2

0,05 0 -1,662 2,76 0,1380,10 0,125 -0,412 0,17 0,0170,75 1,312 0,088 0, 01 0,0070,1 0,225 0,588 0,34 0,034

X1=1,525V1=0,331

X2=1,662V2=0,196

36Profesor:H. Allende

Estrato (3) P3=2/7fi3 fi3X1 Xi-X3 ( )2 fi3( )2

0,10 0 -1,475 2,17 0,2170,30 0,375 -0,225 0,05 0,0150,50 0,875 0,275 0, 08 0,0400,20 0,225 0,775 0,60 0,060

X3=1,475V3=0,0332

Estratos Ph Media Varianza PhXh PhVh Xh-X (X-Xh)2 Ph( )2

Xh Vh

(1) 1/7 1,525 0,331 0,218 0,047 -0,064 0,004 0,00057(2) 4/7 1,662 0,196 0,949 0,112 0,033 0,001 0,00057(3) 2/7 1,475 0,332 0,422 0,095 -0,114 0,013 0,00557

1,589 0,254 0,0067

37Profesor:H. Allende

ResultadosSe ha obtenido, entonces:

• Media Total X = 1,589

•Varianza promedio dentro de los estratosVintra= 0,254

•Varianza entre estratosVinter= 0,0067

•Varianza TotalVT= 0,2607

38Profesor:H. Allende

Estadística BivariadaNotación:

fij := frecuencia conjunta = fr(xi,yj)

fii = = frecuencia marginal =

fi j = = frecuencia marginal =

fi/j = = frecuencia condicional =

∑j

ijf ∑ =j

iji xyx )(),( rr ff

∑i

ijf ∑ =i

jji yyx )(),( rr ff

j

ij

ff

•)(

),()/(

j

jiji y

yxyx

r

rr f

ff =

39Profesor:H. Allende

Estadística BivariadaNotación:

Análogamente, se tiene:

fj/i = = frecuencia condicional =

•i

ij

ff

)(),(

)/(i

jiij x

yxxy

r

rr f

ff =

Independencia Estadística

X e Y son variables estadísticamente independientes ssi:

ó)()/( jij yxy rr ff =

ó•= ii/j ff

)()/( iyi xyx rr ff =

j•= ffj/i

40Profesor:H. Allende

Estadística BivariadaIndependencia Estadística

como ⇒•×= ij/iij fff •• ×= ijij fff

Asociación de Variables

Datos no agrupados cov(x,y) =

Datos agrupados : cov(x,y) =

Coeficiente de Correlación = r =

))((1 yyxxn ii −−∑

))(( yyxx ii −−∑ ifCov (x,y)

Sx Sy

41Profesor:H. Allende

Tabla de Contingencia

Y B1 B2 ..... Bj ..... Bs Total

A1 n11 n12 ..... n1j ..... n1s n1

A2 n21 n22 ..... n2j ..... n2s n2

Ai ni1 ni2 ..... nij ..... nis ni

Ar nr1 nr2 ..... nrj ..... nrs nr

Total n 1 n 2 ..... n j ..... n s n

X

42Profesor:H. Allende

Tabla de Contingencia

Para i = 1,....,r se tiene:

Además de:

∑=

• =s

jiji nn

1(Suma de los valores de la fila i-ésimade la tabla de contingencia de frecuencias)

∑=

• =r

iijj nn

1

••

•• = nni

if••

•• =

nn j

jfj

ij

nn

••

==j

iji/j f

ff

43Profesor:H. Allende

Tabla de ContingenciaFallas Anuales

Temperatura 120 140 160 Marginal Averías

2 20 15 103 12 7 54 4 10 25 - 5 10

Marginal

Obtener :Distribuciones marginalesDistribuciones condicionales (4 averías), Mediay Varianza condicional

44Profesor:H. Allende

Modelo EstadísticoModelo Estadístico (Lineal)(Lineal)

x , y son variables independiente y dependiente respectivamente. Además ε una variable estadística que representa el error.

Los parámetros β0 y β1 pueden ser estimados a partir de los datos {(xi , yi)}i=1,...,n mediante método de mínimos cuadrados.

Entonces

εββ ++= xy 10

iiiii xyyye 10 ββ ˆˆˆ −−=−=Sea ;

45Profesor:H. Allende

∑ ∑= =

−−=n

i

n

iiii xyminemin

1 1

210

2 )(1010

ββββββ

∑=

=n

iiE eSC

1

2

x

xy

SCSC

=1β̂ xy 10 ββ ˆˆ −=

∑=

−=n

iix xxSC

1

2)( ))(( yyxxSC i

n

iixy −−=∑

=1

∑=

=n

iieVNE

1

2

46Profesor:H. Allende

Curvas de Regresión

t 0 1 2 3 4 5 6 V(t) 30 60 46 32 10 4 17

20 40 26 14 820 12

V(t) 25 40 46 29 12 6 17

Sea xt = sen t yt = V(t)

Luego y(t) = a + b xt + εt

∑ −−=t

ttbababxayminbaQmin 2

,,)(),(

47Profesor:H. Allende

202 ==xSyxb ),cov(ˆ325,ˆˆ =−= xbya

∑ =− 45222 ,)ˆ( tt yy12762 =yS

% de Ajuste del Modelo =

%%,ˆ

981009801 2

2

=∗=− ∑y

t

Se