Post on 19-Oct-2018
Universidad Técnica Federico Santa María
Departamento de Informática
ILI-280
Capítulo 2:Capítulo 2:ANALISIS EXPLORATORIOANALISIS EXPLORATORIO
dedeDATOSDATOS
Estadística ComputacionalEstadística Computacional1º Semestre 20031º Semestre 2003
Profesor :Héctor AllendePágina : www.inf.utfsm.cl/~hallendee-mail : hallende@inf.utfsm.cl
2Profesor:H. Allende
Clasificación/ Tipos de Datos
Cualitativo (Categorías)Nominal Viña = 1 ; Santiago = 2 ; Temuco = 3 44
Ordinal Pobre = 1; Aceptable = 2; Bueno = 3; Excelente = 4
Cuantitativo (Números)Intervalar temperatura, viscosidad, distancia, duración
Razón peso/altura NOTA:
El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.
Por ejemplo promedio, mediana y variancia no tienen sentido con datos categóricos (si con proporciones)
NOTA:
El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.
Por ejemplo promedio, mediana y variancia no tienen sentido con datos categóricos (si con proporciones)
3Profesor:H. Allende
Escalas de MedidaClasificación : Nominal, Ordinal, Intervalos y
Razón
Variables : Discretas y Continuas Categóricas, Cuantitativas
Organización : Frecuencia absolutaFrecuencia relativa
A partir de nivel ordinal :Frecuencia absoluta acumuladaFrecuencia relativa acumulada
4Profesor:H. Allende
Variables Categóricas: (Escala Nominal)Moda ( Medida del centro )Tasa de Variación ( Medida de Dispersión )
Variables Cualitativas: (Escala Ordinal)Moda, MedianaTasa de Variación, Índice de Dispersión
Variables Cuantitativas: (Escala Intervalar)Moda, Mediana, Media, Media TruncadaTasa de Variación, Índice de Dispersión, VarianzaRango, Rango Intercuartílico (IQR), MEDA
Medidas de homogeneidad
XS
Señal de Ruido η = - log CV = 2
2SX
5Profesor:H. Allende
Escala Nominal
Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.
• La variable induce una partición sobre la población la información puede clasificarse en clases o categorías.
• Cada clase debe estar perfectamente definida y diferenciada de las demás.
• La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:
Ejemplos alumnos por cursos: primero (1), segundo (2),...., sexto (6) año; sexo: masculino (M), femenino (F); Colegio: Mackay (1); Santiago College (2), St George (3), etc.
6Profesor:H. Allende
Escala Ordinal
Dónde existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de areglar los elementos de acuerdo al orden establecido.
La variable admite grados de calidad:existe una relación de orden total entre las clases.
No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases.
Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)
7Profesor:H. Allende
Escala Intervalar
Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantidicarla diferencia de todos los individuos pertenecientes a los intervalos, clases o categorías distintas.
Está involucrado en concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.
Ejemplos: temperatura al interior de un silo, interes sólo clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), .....,(30, 35°)}. Puntaje promedio PAA, interesa clasificar en tramos de 25 puntos.
8Profesor:H. Allende
Escala Intervalar
Tabligramas.
Tablas de Frecuencia.
Histogramas: valores discretos y continuos.
Usar 5 a 20 clases (intervalos o grupos).(considerar anchos de clases, límites y marca de clase).(polígono de frecuencias – dibujar en marca de clase).
Frecuencia Acumulada - Ojiva.(graficar en límite superior).
9Profesor:H. Allende
Escala de Razón
Su usa cuando no sólo el orden y tamaño del intervalo son importantes; .
La única razón entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no
10Profesor:H. Allende
Organización/Presentación
Frecuencia Relativa.
Se llama frecuencia relativa de la clase ci a la proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra. Se de nota por fi. Se puede verificar que
fi = --- nótese que .... Σ ni = 1k
i = 1
ni
n
k
i = 1
11Profesor:H. Allende
Organización/Presentación
Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.
Frecuencia Absoluta.
Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenecena dicha clase y se denota por ni. Como las clases c1, c2, ..... ck una partición de la muestra, es fácil verificar que
n = Σ ni número total de observaciones o tamaño de la muestra
k
i = 1
k
i = 1
12Profesor:H. Allende
Representación de Datos Cualitativos
Reglas:Cada observación debedebe estar en una, y en una sola, categoría.Todas las observaciones deben ser consideradas.
Tablas Proveen el mayor detalle.Gráficos de Barras Utilizar Pareto.
Gráficos Circulares o de Torta .
14Profesor:H. Allende
Escala Nominal
120
Diagramas de Pareto107
100
80
40
60
Frec
uenc
ia
6051
2520
10 8
01 2 3 4 5 6
Clase
16Profesor:H. Allende
Escala Ordinal
9
Diagramas en Bloques8
7
6
5
4
3
2
1
0Pobre Regular Aceptable Bueno Muy Bueno
17Profesor:H. Allende
Escalas de MedidaPresentación :-Tablas de frecuencias
-Gráficos: Diagramas de Bloques, -Circulares, Barras -Diagrama acumulativo
Ejemplo: 40 Datos10 8 711 7 2 9 1 312 3 6 8 0 4 313 8 2 6 5 7 2 4 114 1 3 8 0 3 2 8 5 715 2 3 0 8 8 316 0 1 0 2
TABLIGRAMA
18Profesor:H. Allende
Tabla de FrecuenciaN° Clases ≈ 1 + 3.3 log n ≈ 7Rango = máx { xi } - mín { xi } = 162 - 107 = 55Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8
Límites
106.5 - 114.5114.5 - 122.5122.5 - 130.5130.5 - 138.5138.5 - 146.5146.5 - 154.5154.5 - 162.5
Marca
110.5118.5126.5134.5142.5150.5158.5
FrecuenciasABS - REL - REL. AC.
5358766
Construir:HistogramaDiagramaacumulativo
21Profesor:H. Allende
Frecuencia Acumulada - Ojiva
0123456789
107 116 125 134 143 152 16199 170
10111213141516171819202122232425262728293031323334353637383940
22Profesor:H. Allende
Datos no agrupados
X1, X2, .........., X2n+1
Mo = Moda = dato con mayor frecuenciaMe = Mediana = X(n+1)
= Media =
= Media truncada =
X
∑−+
+=−+
α
αα
12
1)()212(
1 n
iiXn
αX
∑+
=+
12
1121 n
iiXn
23Profesor:H. Allende
Datos no agrupados
V = Tasa de Variación = 1 - fMD = Índice de Dispersión = (rangQ3-rangQ1)/(K-1)
S2 = Varianza =
IQR = 1/2 (Q3 - Q1)
MEDA = Mediana Xi - Me
∑ −+ i
)X(Xn i
2
121
i
24Profesor:H. Allende
Datos no agrupados
13
231 2QQQQQ
−−+
33
Sm
Mr = ∑ −+ i
ri XXn
)(12
1
Medidas de Simetría:
I.S. =
γ1 =
Medidas de Forma:
γ2 = −44
Sm 3
25Profesor:H. Allende
Datos Agrupados
=
k
i 1
∑=
−k
i
XXiif
1
2)(
=
−1i
XXiif
k Clases
=∑ iX
if *
S2 =
MD = ∑
X
26Profesor:H. Allende
Datos Agrupados
e
e
en
Nn
aLMe)
2( 1−−
+=
L : Límite inferior Clase mediana (C Med)Ne-1 : Frecuencia Acumulada hasta ante C Medne : Frecuencia Absoluta C Medae : Amplitud C Medn : Tamaño de la muestra
27Profesor:H. Allende
Datos Agrupados
+
+=21
1
ggg
MaLMo
L : Límite inferior Clase modalaM : Amplitud Clase Modalg1 : nM-n1 g2 : nM-n2nM : Frecuencia absoluta Clase Modaln1 : Frecuencia absoluta Clase anterior a Clase Modaln2 : Frecuencia absoluta Clase posterior a Clase Modal
i
i
i
Q
Q
Qin
Nin
aLQ
−
∗
+=− 1
4
28Profesor:H. Allende
TransformacionesSea yi = h ( xi ) con i = 1,...,n
1. Lineales yi = axi + b
y = ax + bSy = a Sx
2. No lineales yi = ln xi = h( xi )
y = h(x) + h”(x) SX2
Sy2≈ Sx
2 [ h’ (x)]2
i.e. y = ln x - ( Sx2 / x2 )
Sy2 ≈ ( Sx
2 / x2 ) = CV 2
21
21
29Profesor:H. Allende
Transformaciones
3. Box-Cox Transformaciones (1964)
h (x) = Xλ = ( x + m )λ - 1 λ ≠ 0 x > -m
m
ln ( x + m ) λ = 0 m > 0
30Profesor:H. Allende
Relaciones Linealizables
1. y = K xβ ln y = a0 + a1 ln x2. y = K ± ( β / x ) y = a0 ± a1 x-1
3. y = K eβx ln y = a0 + a1 x4. y = K e-β/x ln y = a0 + a1 x-1
5. yt = K + β cos t y = a0 + a1 xtsiendo xt = cos t
6. y(λ) = yλ - 1 = a0 + a1 x
yλ-1 dy = a1 w = dydx dx
ln w = ln a1 + ( 1 - λ ) ln y
31Profesor:H. Allende
Análisis de una muestra estratificada
E2
n2 V2
2X
E1n1 V11X
Emnm VmmX
∑=
=m
hh nn
1
nnp h
h =
m- estratos
Supongamos que la variable admite una clasificación en k-clases, representadas por X1, X2,.....Xk.
32Profesor:H. Allende
Análisis de una muestra estratificadanih = Cantidad de individuos de la submuestra del
estrato “h” que pertenece a Ci.
h
ih
nn
=ihf ∑=
=k
i 11ihf ∑
=
=k
ihih nn
1
∑=
−=k
ihih XXV
1
2)(ihf∑=
=k
iih XX
1ihf
∑=
=m
hhp
1ihi ff
33Profesor:H. Allende
Análisis de una muestra estratificada
Entonces:
2
11)(∑∑
==
−+=m
hhh
m
hhhT XXpVpV
∑=
=m
hnh XpX
1
erraT VVV intint +=
34Profesor:H. Allende
EjemplosSe tiene 3 criaderos de aves. En el criadero (1) se ponen 50 pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos. Al cabo de un cierto tiempo se pesan los 350 pollos, encontrándose que algunos están muertos y los vivos pesan entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos muertos se supondrán de peso cero, y el cero actuará como centro del supuesto intervalo. Los otros intervalos serán [1,00 ; 1,50] [1,50 ; 2,00] [2,00 ; 2,50].
CalcularCentros
01,251,752,25
Frecuencias Absolutas(1) (2) (3)5 10 1010 20 3030 150 505 20 10
raer
Thh
VVVXVX
intint ,,,,
Note que existen 3 estratos y 4 clases
35Profesor:H. Allende
Ejercicio
Estrato (1) P1=1/7Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2
0 0,1 0 -1,525 2,325 0,23251,25 0,2 0,250 -0,275 0,0756 0,01511,75 0,6 1,050 0,225 0,0501 0,03042,25 0,1 0,225 0,725 0,525 0,0525
Estrato (2) P2=4/7fi2 fi2X1 Xi-X2 ( )2 fi2( )2
0,05 0 -1,662 2,76 0,1380,10 0,125 -0,412 0,17 0,0170,75 1,312 0,088 0, 01 0,0070,1 0,225 0,588 0,34 0,034
X1=1,525V1=0,331
X2=1,662V2=0,196
36Profesor:H. Allende
Estrato (3) P3=2/7fi3 fi3X1 Xi-X3 ( )2 fi3( )2
0,10 0 -1,475 2,17 0,2170,30 0,375 -0,225 0,05 0,0150,50 0,875 0,275 0, 08 0,0400,20 0,225 0,775 0,60 0,060
X3=1,475V3=0,0332
Estratos Ph Media Varianza PhXh PhVh Xh-X (X-Xh)2 Ph( )2
Xh Vh
(1) 1/7 1,525 0,331 0,218 0,047 -0,064 0,004 0,00057(2) 4/7 1,662 0,196 0,949 0,112 0,033 0,001 0,00057(3) 2/7 1,475 0,332 0,422 0,095 -0,114 0,013 0,00557
1,589 0,254 0,0067
37Profesor:H. Allende
ResultadosSe ha obtenido, entonces:
• Media Total X = 1,589
•Varianza promedio dentro de los estratosVintra= 0,254
•Varianza entre estratosVinter= 0,0067
•Varianza TotalVT= 0,2607
38Profesor:H. Allende
Estadística BivariadaNotación:
fij := frecuencia conjunta = fr(xi,yj)
fii = = frecuencia marginal =
fi j = = frecuencia marginal =
fi/j = = frecuencia condicional =
∑j
ijf ∑ =j
iji xyx )(),( rr ff
∑i
ijf ∑ =i
jji yyx )(),( rr ff
j
ij
ff
•)(
),()/(
j
jiji y
yxyx
r
rr f
ff =
39Profesor:H. Allende
Estadística BivariadaNotación:
Análogamente, se tiene:
fj/i = = frecuencia condicional =
•i
ij
ff
)(),(
)/(i
jiij x
yxxy
r
rr f
ff =
Independencia Estadística
X e Y son variables estadísticamente independientes ssi:
ó)()/( jij yxy rr ff =
ó•= ii/j ff
)()/( iyi xyx rr ff =
j•= ffj/i
40Profesor:H. Allende
Estadística BivariadaIndependencia Estadística
como ⇒•×= ij/iij fff •• ×= ijij fff
Asociación de Variables
Datos no agrupados cov(x,y) =
Datos agrupados : cov(x,y) =
Coeficiente de Correlación = r =
))((1 yyxxn ii −−∑
))(( yyxx ii −−∑ ifCov (x,y)
Sx Sy
41Profesor:H. Allende
Tabla de Contingencia
Y B1 B2 ..... Bj ..... Bs Total
A1 n11 n12 ..... n1j ..... n1s n1
A2 n21 n22 ..... n2j ..... n2s n2
Ai ni1 ni2 ..... nij ..... nis ni
Ar nr1 nr2 ..... nrj ..... nrs nr
Total n 1 n 2 ..... n j ..... n s n
X
42Profesor:H. Allende
Tabla de Contingencia
Para i = 1,....,r se tiene:
Además de:
∑=
• =s
jiji nn
1(Suma de los valores de la fila i-ésimade la tabla de contingencia de frecuencias)
∑=
• =r
iijj nn
1
••
•• = nni
if••
•• =
nn j
jfj
ij
nn
••
==j
iji/j f
ff
43Profesor:H. Allende
Tabla de ContingenciaFallas Anuales
Temperatura 120 140 160 Marginal Averías
2 20 15 103 12 7 54 4 10 25 - 5 10
Marginal
Obtener :Distribuciones marginalesDistribuciones condicionales (4 averías), Mediay Varianza condicional
44Profesor:H. Allende
Modelo EstadísticoModelo Estadístico (Lineal)(Lineal)
x , y son variables independiente y dependiente respectivamente. Además ε una variable estadística que representa el error.
Los parámetros β0 y β1 pueden ser estimados a partir de los datos {(xi , yi)}i=1,...,n mediante método de mínimos cuadrados.
Entonces
εββ ++= xy 10
iiiii xyyye 10 ββ ˆˆˆ −−=−=Sea ;
45Profesor:H. Allende
∑ ∑= =
−−=n
i
n
iiii xyminemin
1 1
210
2 )(1010
ββββββ
∑=
=n
iiE eSC
1
2
x
xy
SCSC
=1β̂ xy 10 ββ ˆˆ −=
∑=
−=n
iix xxSC
1
2)( ))(( yyxxSC i
n
iixy −−=∑
=1
∑=
=n
iieVNE
1
2
46Profesor:H. Allende
Curvas de Regresión
t 0 1 2 3 4 5 6 V(t) 30 60 46 32 10 4 17
20 40 26 14 820 12
V(t) 25 40 46 29 12 6 17
Sea xt = sen t yt = V(t)
Luego y(t) = a + b xt + εt
∑ −−=t
ttbababxayminbaQmin 2
,,)(),(