Estadística y Probabilidades (Documento 1: Estadística Descriptiva) UACh, Valdivia

download Estadística y Probabilidades (Documento 1: Estadística Descriptiva) UACh, Valdivia

of 33

Transcript of Estadística y Probabilidades (Documento 1: Estadística Descriptiva) UACh, Valdivia

UNIVERSIDAD AUSTRAL DE CHILE FACULTAD DE CS. ECONMICAS Y ADMINISTRATIVAS INSTITUTO DE ESTADISTICA

BAIN 052 ESTADSICA Y PROBABILIDAD PARA INGENIERAASIGNATURA DEL CURRICULUM DE LAS CARRERAS DE INGENIERA DE LA FACULTAD DE CIENCIAS DE LA INGENIERA, DE LA UNIVERSIDAD AUSTRAL DE CHILE

APUNTES DE CLASESVersin Segundo Semestre 2011

Profesores Gastn Vergara Daz Luis Ojeda Silva Magaly Moraga Crdenas Osvaldo Rojas Quintanilla Noviembre 2011

Unidad de Aprendizaje ESTADSTICA DESCRIPTIVABAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

I

I. EL MTODO ESTADSTICO II. PROCESAMIENTO ESTADSTICO DE UNA VARIABLE: DISTRIBUCIN DE FRECUENCIAS III. RESUMENES NUMRICOS: ESTADGRAFOS DE POSICIN, DISPERSIN Y FORMA 3.1. Estadgrafos de posicin central (o estadgrafos de tendencia central) 3.2. Estadgrafos de posicin no central (o simplemente de estadgrafos de posicin) 3.3. Estadgrafos de dispersin 3.4. Estadgrafos de forma IV. APLICACIONE EN EL MBITO DE LA INGENIERA

1

I. EL MTODO ESTADSTICO 1.1. Qu es la Estadstica? La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir y analizar los datos. As como de realizar inferencias a partir de ellos con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. Estadstica Descriptiva e Inferencial La Estadstica se puede dividir en dos grandes ramas: la Estadstica Descriptiva y la Estadstica Inferencial. Estadstica Descriptiva: procedimientos empleados para organizar y resumir conjuntos de observaciones en forma cuantitativa. El resumen de los puede hacerse mediante tablas, grficos o valores numricos. Los conjuntos de datos que contienen observaciones de ms de una variable permiten estudiar la relacin o asociacin que existe entre ellas. Estadstica Inferencial: mtodos empleados para inferir algo acerca de una poblacin basndose en los datos obtenidos a partir de una muestra. Los datos estadsticos son clculos aritmticos realizados sobre los valores obtenidos en una porcin de la poblacin, seleccionada segn criterios rigurosos. 1.2. El mtodo estadstico - etapas de un estudio estadstico El Mtodo Estadstico es un procedimiento que se aplica al ciclo completo de una investigacin, desde el enunciado del problema hasta la evaluacin de los resultados obtenidos. El Mtodo Estadstico nos entrega un procedimiento estructurado de trabajo, el cual se organiza en tres grandes fases: planificacin, ejecucin y conclusiones. i) Planificacin. Plantear hiptesis y objetivos: Planteamiento del problema, especificacin de hiptesis y definicin de objetivos. Disear el experimento: Definicin de la poblacin y la muestra, las unidades estadsticas (unidades elementales, elementos o unidades de anlisis), las variables o caractersticas y las unidades de medida, los datos y los parmetros. Determinacin de las tcnicas de muestreo e instrumentos de recoleccin. Especificacin de las tcnicas estadsticas de anlisis. ii) Ejecucin: Recolectar los datos y analizarlos. Recoleccin, Depuracin y Organizacin de los datos. Presentacin de los datos (los cuales deben expresarse de forma que su lectura sea sencilla. Existen 3 formas de presentacin: con palabras para pocos datos-, mediante tablas estadsticas y mediante grficos estadsticos). Resumen de los datos. Inferencia en los casos en los que se trabaja con muestras. iii) Obtencin de conclusiones. Explicar el sentido de todos los resultados obtenidos y recomendar o tomar las decisiones finales. 1.3. Conceptos ligados a la definicin estadstica del problema Poblacin: Es el conjunto de todos los elementos que cumplen ciertas propiedades y entre los cuales se desea estudiar un determinado fenmeno (pueden ser hogares, nmero de tornillos producidos por una fbrica en un ao, lanzamientos de una moneda, etc.). Llamamos poblacin estadstica o universo al conjunto de referencia sobre el cual van a recaer las observaciones. Muestra: es el subconjunto de la poblacin que es estudiado y a partir de la cual se sacan conclusiones sobre las caractersticas de la poblacin. La muestra debe ser representativa, en el sentido de que las conclusiones obtenidas deben servir para el total de la poblacin. Individuo: (unidades estadsticas, unidades elementales, elementos o unidades de anlisis): cada uno de los elementos de la muestra o de la poblacin (personas, tornillos, hospitales, comercios) y sobre los que recaer la observacin. Variable: cada uno de los rasgos o caracterstica de los elementos de una poblacin y que varan de un individuo a otro (salario, color de ojos, sexo, nmero de hijos). Los datos: son los valores que alcanzan las unidades en las variables estudiadas Parmetro: es un solo valor obtenido para describir en forma sumaria las caractersticas pertinentes o un estado de naturaleza acerca de una poblacin. Una poblacin puede que tenga muchas caractersticas y, por consiguiente , tambin muchos parmetros, Sin duda, no todos los parmetros de una poblacin son necesarios en una situacin problemtica dada; su eleccin depende de la naturaleza del problema. Estadgrafo o estadstico: Es una funcin definida sobre los valores de la muestra. Se usa a menudo para estimar un parmetro y resumir las caractersticas en la muestra.

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

2

1.4. Clasificacin de las variables Clasificacin de las variables segn su naturaleza. Las variables pueden ser cualitativas o cuantitativas. Generalmente se utiliza el trmino modalidad cuando hablamos de caracteres cualitativos y el trmino valor cuando estudiamos caracteres cuantitativos. Una variable no es sino el conjunto de las distintas modalidades o valores que toma un carcter. o Variables cualitativas (o categricas): aquellas que no aparecen en forma numrica, sino como categoras o atributos (sexo, profesin, color de ojos, tipo de torno). o Variables cuantitativas: las que pueden expresarse numricamente (temperatura, salario, nmero de goles en un partido, dimetro de un perno, largo de un perno). Se pueden cuantificar los resultados experimentales por medio de instrumentos adoptando unidades de medida para valorar los diferentes resultados. Variables cuantitativas segn el tipo de valores que pueda tomar pueden ser discretas o continuas. Variables discretas: son el resultado de contar y slo toman valores enteros (nmero de hijos, nmero de defectos, nmero de clientes que llegan a una estacin de servicio); Variables continuas: son el resultado de medir, y pueden contener decimales (temperatura, peso, altura, dimetro). Se pueden subdividir a voluntad. Pueden tomar, entonces, cualquier valor de un determinado intervalo. Clasificacin de las variables segn la escala de medida. Las variables pueden corresponder a cuatro niveles de medicin: o Nominal: hace referencia a datos que slo pueden clasificarse en categoras; existen slo conteos; no existe orden particular para los grupos. Ejemplo: color de ojos, marca de computadores. o Ordinal: corresponde a aquellos datos que se pueden agrupar en categoras y ordenarlas segn algn tipo de gradacin. Ejemplo; nivel de dolor, nivel de preferencia. o de Intervalo: incluyen la nocin de orden y admiten las operaciones de suma y resta. Aqu se pueden establecer relaciones de igualdad y desigualdad, de orden y de igualdad de intervalos. Esto supone que hay una unidad de medida constante y uniforme a lo largo de todos los valores posibles de esta variable. En una escala intervalo el valor cero es un valor obtenido por consenso, es decir, arbitrario y no tiene un significado de ausencia del atributo. o de Razn: tiene las caractersticas de la escala de intervalo, pero se agrega un punto cero absoluto tal que significa ausencia del atributo y la razn o cociente de dos nmeros es significativo pudindose aplicarles todo tipo de instrumental matemtico. Ejemplo: ingreso familiar. Elemento de una variable: Se distinguen los 5 elementos: Nombre o denominacin de la variable. Definicin o conceptualizacin. Conjunto de valores inherentes de la variable o categoras (cdigos) definidas por el investigador. Procedimientos para categorizar las unidades de anlisis. Algunos resmenes numricos; Parmetros o estadgrafos Cuadro 1. Ejemplos de descripcin de los elementos de una variable Ejemplo 1 Ejemplo 2 Nombre: Estado civil. Nombre: Ingresos. Definicin: Situacin civil en relacin con las leyes y Definicin: Recursos monetarios netos, incluyendo las costumbres el pas. bonificaciones que percibe una persona por su Categoras: 01) Soltero(a) ocupacin principal y secundaria durante el perodo de 02) Casado (a) referencia de la encuesta. 03) Viudo (a) Categoras: En forma de niveles o simplemente 04) Divorciado (a) intervalos. d) Categorizacin:Cul es su estado civil? Niveles de Ingreso: Alto. Medio. Bajo e) Estadgrafos: Proporcin de solteros. Intervalos: Por ejemplo 4 intervalos Menos de 100.000; 100.001 a 300.000; 300.001 a 700.000; 700.001 y ms. Categorizacin: Cul es su ingreso total el ltimo mes? Estadgrafos: Ingreso medio. Dispersin de los ingresos.Fuente: Elaboracin propia.

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

3

1.5. Fuentes de datos estadsticos Fuentes secundarias: Se pueden encontrar datos (estadsticas) relacionadas en artculos publicados, tesis, revistas, peridicos, etc. Fuentes primarias: La informacin deber recolectarse y analizarse. Algunas formas de recolectar datos de primera mano es mediante registros, diseo de experimentos, encuestas (muestrales, censales), etc. II.- PROCESAMIENTO ESTADSTICO DE UNA VARIABLE: DISTRIBUCIN DE FRECUENCIAS 2.1. Distribucin de frecuencias La distribucin de frecuencias es la representacin estructurada, en forma de tabla, de toda la informacin que se ha recogido sobre la variable que se estudia. Contiene un listado de las distintas modalidades del fenmeno considerado, con la frecuencia absoluta, relativa y acumulada de cada una. Cuando el nmero de modalidades es demasiado grande (esto ocurre siempre con las escalas continuas) se agrupan en clases. TABLA 1. Modelo de tabla de distribucin de frecuencias Variable (Valor) fa(X) X1 X2 ... Xi ... Xn fa(X1) fa(X2) ... fa(Xi) ... fa(Xn) Faa(Xi) =j 1

Simple

Frecuencia absoluta Acumulada

Simple

Frecuencia relativa Simple en Acumulada porcentaje fr(X)*100 fr(X1)% fr(X2)% ... fr(Xi)% ... fr (Xn)% Fra(Xn) =j 1

Faa(X) Faa(X1) = fa(X1) Faa(X2) = fa(X1) + fa(X2) ...i

fr(X) fr(X1) = fa(X1)/n fr(X2) = fa(X2)/n ...

Fra(X) Fra(X1) = fr(X1) Fra(X2) = fr(X1) + fr(X2) ...i

Acumulada en porcentajeFra(X)*100 Fra(X1)% Fra(X2)% ...

fa ( X j )...n

fr(Xi) = fa(Xi)/n ...

Fra(Xi) =j 1

fr ( X j )...n

Fra(Xi)% ...

Faa(Xn) = n =j 1

fa ( X j )

fr (Xn) = fa(Xn)/n

fr ( X j )=1

Fra(Xn)% =100%

nFuente: Elaboracin propia.

1

Frecuencia absoluta de una modalidad es el nmero de veces que se repite esa modalidad como resultado de un experimento. Frecuencia relativa es la frecuencia absoluta partida por el nmero total de observaciones. Porcentaje: La frecuencia relativa es un tanto por uno, sin embargo, hoy da es bastante frecuente hablar siempre en trminos de tantos por ciento o porcentajes, por lo que esta medida resulta de multiplicar la frecuencia relativa por 100. Frecuencia acumulada (Absoluta o relativa): Igual que en cada uno de los anteriores casos pero sumando, no slo, los resultados de la modalidad de que se trate, sino tambin los de todas las precedentes. No es vlido para datos de escalas nominales, ya que en ellas no existe el orden. Porcentaje acumulado: Se define como la frecuencia relativa acumulada por 100. 2.2 Procesamiento estadstico de una variable nominal

En la Distribucin de frecuencias slo tienen sentido las frecuencias absolutas simples, relativas simples y relativas simples en porcentaje.Ejemplo: Construya una tabla de distribucin de frecuencias para la especialidad de los profesionales del rea de ingeniera de CODELCO, considerando una muestra de 20 profesionales. Datos del problema: Variable X: Especialidad de los profesionales del rea de ingeniera de CODELCO Tipo de variable: Cualitativa, Nominal. Categorias de La variable: I = Informtico; C = Civil; E=Electrnico; M = Mecnico; R = Riesgos Datos: X1= C X2=I X3= M X4= E X5= M X11= M X12= C X13= E X14= M X15= I X6= M X7= R X8= C X9= I X10= M X16= M X17= C X18= R X19= M X20= R

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

4

Tabla 3. Distribucin de profesionales segn especialidad ESPECIALIDADES fa(X) INFORMTICA fa(I)=3 CIVIL fa(C)=4 MECNICA ELECTRNICA RIESGOSFuente: Elaboracin propia.

fr(X) fr(I)=0,15 fr(C)=0,20 fr(E)=0,40 fr(M)=0,10 fr(R)=0,15

fr(X)% 15 20 40 10 15 100

fa(E)=8 fa(M)=2 fa(R)=3 20 1

Ejercicio: Practicar con datos de Tabla en Anexo 1.2.3. Procesamiento estadstico de una variable ordinal o cuantitativa discreta con pocos valores En este caso, en la distribucin de frecuencias cobran sentido todas las columnas del modelo de Tabla 1. Ejemplo: Construya una tabla de distribucin de frecuencias para la variable correspondiente al nmero de trabajadores por empresa, en una muestra de 20 empresas pequeas de la Regin de Los Ros. Datos del problema: Variable X: Nmero de trabajadores por empresa Tipo de variable: Cuantitativa, discreta, de razn. Datos: E1 = 6 E2 = 5 E3 = 4 E4 = 4 E13 = 6 E14 = 2 E19 = 5 E5 = 3 E6 = 3 E7 = 4 E8 = 4 E17 = 4 E18 = 6 E20 = 3 E9 = 5 E10 = 5 E11 = 4 E12 = 5 E15 = 4 E16 = 3 Clasificacin: Ubicar el valor menor de la variable X: Xmn = 2 Ubicar el valor mayor de la variable X: Xmx = 6 Se identifican los valores distintos de X y se denotan por xi (para destacar el hecho de la reduccin de datos que estamos realizando). x1= 2 x2= 3 x3= 4 x4= 5 x5= 6 Aqu: m=5 (De los 20 valores hay 5 distintos). Tabla 4. Distribucin de frecuencias del nmero de trabajadores de 20 empresas. Nmero de fa(Xi) fr(Xi) fr(Xi)% Faa(X) Trabajadores Xi 2 1 1/20=0,05 5 1 3 4 4/20=0,20 20 5 4 7 7/20=0,35 35 12 5 5 5/20=0,25 25 17 6 3 3/20=0,15 15 20 TOTAL n =20 1 100Fuente: Elaboracin propia.

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

Fra(X) 0,05 0,25 0,60 0,85 1

Fra(X)% 5 25 60 85 100

Ejercicio: Practicar con datos de Tabla en Anexo 1.2.4. Representacin grfica de distribuciones de frecuencias: variables cualitativas o cuantitativas discretas con pocos valores. La representacin grfica de datos tiene la ventaja de que es capaz de ofrecer de forma inmediata una perspectiva global de los resultados de un estudio. GRFICO DE BARRAS Se puede usar para describir cualquier nivel de medicin (nominal, ordinal, de intervalo o de razn), pero fundamentalmente para las variables discretas.

5

Hay varios tipos de grficos de barras: 1) De barras simples; 2) De barras agrupadas (o pareadas); 3) De barras componentes. Grfico de barras simples: Cada valor de la variable se representa por una barra cuyo largo indica el nmero (o porcentaje) de veces que se ha repetido ese valor. En el eje de las abscisas se ubican los valores de la variable (modalidades o valores discretos) y en las ordenadas las frecuencias absolutas o relativas o porcentajes. Recomendaciones: El ancho de cada barra debe ser constante, al igual que el espacio entre ellas; pueden ser reemplazadas por lneas, si la variable toma muchos valores; el orden en que se presentan puede depender de su longitud o de algn criterio lgico; cada una debe tener un ttulo en el eje respectivo, pero NO dentro de ella; se disponen horizontalmente, cuando sus nombres son largos; en su interior no debe haber claves o leyendas; no es necesario achurarlas o pintarlas, pero si lo hace, el rayado o color debe ser el mismo para todas. Grfico 1. Distribucin de profesionales segn

8 7 6 5 4 3 2 1 0 Infomtica Civil Mecnica Electrnica Riesgos

especialidad Fuente: Elaboracin propia.

Ejercicio: Practicar con datos de Tabla en Anexo 1.GRFICOS DE BARRAS AGRUPADAS Objetivo: Mostrar asociacin entre variables. Tipo de variable: Cualquiera no continua. N de variables: 2 o ms sin exagerar. Grfico 2. Distribucin de profesionales por especialidad, segn

Riesgos Electrnica Mecnica Civil Infomtica 0 2 4 6Ventana El Teniente

8

10

empresa. Fuente: Elaboracin propia. GRFICO CIRCULAR Dividir un crculo en tantas porciones como clases hay. A cada clase le corresponde un arco proporcional a su frecuencia absoluta o relativa. Muy til para desplegar una distribucin de frecuencias relativas o porcentajes. Objetivo: Mostrar asociacin y/o composicin entre variables

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

6

Tipo de variable: Cualquiera no continua. N de Variables: 1 Cada frecuencia debe expresarse como proporcin del total. Dicha proporcin se aplica a los 360 que tiene la circunferencia. Es decir, consiste en subdividir por 360 la suma total de los datos y multiplicar por cada una de las sumas parciales. Los resultados de estas operaciones o valores en grados de cada sector, se marcan en el circulo con el transportador. Estos grficos tienen bastante aplicacin, especialmente en informes tcnicoeconmicos. Es recomendable incluir dentro de cada sector, el porcentaje del total al que corresponde. No olvide que no es recomendable para variables con ms de cuatro categoras. Grfico 3. Superficie, en porcentaje, de las provincias de la Regin de Los Lagos, a diciembre de 2006.Osorno 16%Llanquihue 23%

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

Valdivia 31% Palena 17%

Chilo 13%

Fuente: Elaboracin propia. Ejercicio: Practicar con datos de Tabla en Anexo 1. 2.5. Procesamiento estadstico de una variable discreta con muchos valores o variables continuas1

Cuando el nmero de valores posibles de una variable discreta sea grande, o cuando sta sea continua, conviene agrupar los datos en clases, para lo cual se deber tomaren cuenta las siguientes recomendaciones: Se usan los intervalos de clase. Sea m el nmero de intervalos de clase. Para este nmero, se debe tomar en cuenta: a. La naturaleza de la variable. b. El nmero de valores observados c. El rango o recorrido de la variable. d. La unidad de medida. e. Los objetivos del estudio. Reglas prcticas. Las clases han de ser excluyentes. Los lmites de cada clase deben tener ms precisin que las medidas realizadas. Aunque no tiene que ser necesariamente as, es conveniente que la amplitud de los intervalos sea constante. Todos los datos de una clase quedan representados por la marca de clase, que es el valor medio de intervalo que forma la clase. De esta manera, todos los clculos se realizan como si en lugar de tener N valores distintos en una clase, tuviramos N veces la marca de clase. Especficamente se debe decidir sobre: a) El nmero m de clases a considerar; b) La amplitud de cada clase; c) Los lmites de clase que definen los intervalos; d) Las marcas de clase. Al respecto algunas recomendaciones son:

1

La construccin de Tablas de Frecuencia, con intervalos de clase, supone una ligera prdida de informacin por la concentracin de datos originales en las marcas de clase. Observemos que no se registra el dato original xi sino que este se ubica dentro de un intervalo. A menor nmero de intervalos, mayor es la prdida de informacin. Pero, no es aconsejable usar un nmero elevado de intervalos, pues significara poco avance en la reduccin.

7

a. El nmero m de clases a considerar. Se elige un m tal que permita visualizar la estructura de los datos. Dependiendo de la cantidad de datos m vara generalmente entre 5 y 20 intervalos. Si se toman muchos intervalos se avanzar poco en el resumen de la informacin. Si son pocos, tal vez la reduccin sea exagerada. Una de las reglas ms frecuentemente utilizada para determinar m, es la regla de Sturges, que establece que tomar el entero superior ms prximo en la frmula siguiente: m= Nmero de clases = 1 + 3,322 Log(n) , donde n es el nmero de observaciones. b. La amplitud de cada clase;

Amplitud de clase

Valor mximo Valor mnimo Nmero de clases

c. Los lmites de clase que definen los intervalos han de ser tales que cada observacin se clasifique sin ambiguedad en una sola clase. Se recomienda que las clases sean de la misma longitud. d. La marca de clase. Es el punto medio de cada intervalo de clase.Xi LI i 2 LS i

Ejemplo: Para determinar cunto estudian los alumnos de lunes a viernes, se tom una muestra aleatoria de 30 estudiantes y se registr la cantidad de horas, por semana, que estudia cada uno. Organice los datos en una tabla de distribucin de frecuencias. Datos del problema: Variable X: Horas de estudio; Tipo de variable: Variable continua, de razn. Datos: 15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7; 17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9; 10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6. CLASIFICACIN Xmx = 33,8 Xmn = 10,3 Rango = Xmx-Xmn =23,5 n=30 Nmero de intervalos = m = 1+3,3*log 30=5,87..Aprox. 6 Amplit.intervalos = Ai = 23,5 /6 =3,92. Podemos tomar esta amplitud o cualquiera con valor superior. Si tomamos una amplitud modificada de 4, entonces se amplia el recorrido en los extremos desde 10 a 34. (Determine como se obtienen estos valores). Tabla 5. Distribucin de frecuencias de las horas de estudio de 30 estudiantes. Horas de estudio Xi fa(Xi) fr(Xi) fr(Xi)% Faa(X) Fra(X) Fra(X)% ]10-14] 12 6 0,20 20 1 0,20 20 ]14-18] 16 8 0,267 26,7 14 0,467 46,7 ]18-22] 20 9 0,30 30 23 0,767 76,7 ]22-26] 24 3 0,10 10 26 0,867 86,7 ]26-30] 28 3 0,10 10 29 0,967 96,7 ]30-34] 32 1 0,033 3,3 30 1,000 100 n=30 1 100 Fuente: Elaboracin propia. Ejercicio: Construya una tabla de frecuencia para los siguientes datos, realice el ejercicio en forma manual y a travs de computador, por ejemplo con Excel. Como recomendacin trabaje la variable en miles de dlares. Tabla 6. Precios de venta de 80 autos vendidos en marzo 2006 en Valdivia (US$) 20.197 20.372 17.454 20.591 14.968 17.356 18.442 18.722 23.651 24.453 14.266 15.021 25.683 27.872 16.766 17.633 17.962 19.845 16.587 20.269 32.851 16.251 17.047 21.285 26.076 29.492 15.890 18.740 21.324 21.609 25.670 12.546 12.935 16.873 22.449 25.337 17.642 20.613 22.251 22.277 25.034 21.533 24.443 16.889 19.442 14.891 17.818 23.237 17.004 14.357 17.155 16.688 20.657 23.613 16.331 19.817 21.220 27.655 17.895 17.203 20.765 22.783 23.661 29.277 23.285 24.896 17.445 18.556 17.642 18.981 21.052 22.799 12.794 15.263 19.374 21.571 18.639 21.296 33.625 14.399 Fuente: Cmara de Comercio. Ver ejemplo completo en Anexo 2.

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

8

2.6. Tablas o cuadros estadsticos Es el arreglo ordenado en columnas y filas, de datos estadsticos o caractersticas relacionadas, con el objeto de ofrecer informacin estadstica de fcil lectura, comparacin e interpretacin. Un cuadro estadstico es el resultado de trabajos previos (planeamiento, recopilacin, tabulacin, clculos, etc). Constituyen los cuadros de anlisis que se incluyen frecuentemente en el cuerpo de los estudios, investigaciones o informes. PARTES PRINCIPALES DE UNA TABLA ESTADSTICA (CUADRO): 1. Nmero de la TABLA; 2. Ttulo.; 3. Encabezamiento; 4. Cuerpo; 5. Nota de pie o llamadas; 6. Pie: Fuente. Nota. Llamada; 7. Elaboracin. 2.7. Representacin grfica de distribuciones de frecuencias: variables cuantitativas discretas con muchos valores o variables continuas. La tabla estadstica resume los datos que disponemos de una poblacin, de forma que sta se puede analizar de una manera ms sistemtica y resumida. Para darnos cuenta de un slo vistazo de las caractersticas de la poblacin resulta ms claro el uso de grficos. Todo grfico estadstico es la representacin de cantidades, nmeros o medidas por medio de figuras o dibujos, por lo tanto se construyen con relacin a una escala de medida que debe conocerse. El tamao y la forma del grfico debe interpretarse numricamente como una aproximacin del verdadero valor de la variable que representa. Las representacin grfica de distribuciones de frecuencias ms comunes son el grfico de tallo y hoja, el histogramas, el polgono de frecuencias, el grfico escalonado y la ojiva de frecuencias. GRFICO DE TALLO Y HOJA (Steam and Leaf) Es una tcnica estadstica para representar un conjunto de datos. Cada valor numrico se divide en dos partes: los dgitos principales son el tallo y el dgito siguiente es la hoja. Una ventaja de la representacin de tallo y hoja, comparado con la distribucin de frecuencias, es que no se pierde la identidad de cada observacin. Ejemplo: Los siguientes son los puntajes (0 a 100) Ejemplo en el Examen de Estadstica de 12 alumnos: 86, 79, Para las horas de estudio de los 30 alumnos. 92, 84, 69, 88, 91, 83, 96, 78, 82, 85. Construya una representacin de tallo y hoja para los datos. Diagrama de Tallo y hoja 10|3

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

6|9 7|8 9 8|2 3 4 5 6 8 9|1 2 6

Tallo

Hojas

12|9 9 13|5 7 14|0 2 15|0 4 7 16|6 17|1 4 8 18|3 3 6 9 19|7 20|3 7 8 21|4 23|0 7 2 26|1 27|1 29|8 33|8

HISTOGRAMA Objetivo: Mostrar una distribucin de frecuencias absolutas o relativas. Tipo de variables: Cuantitativas continuas o discretas con muchos valores. Nmero de variables: Una. Es la presentacin ms frecuente para datos agrupados. Las clases se marcan en el eje horizontal con la amplitud del intervalo. Las frecuencias de clase van en el eje vertical y se representan por las alturas de las barras que se trazan adyacentes entre s.

9

POLGONO DE FRECUENCIAS Objetivo: Mostrar una distribucin de frecuencias absoluta o relativa. Tipo de variables: Cuantitativas continuas o discretas con muchos valores. Nmero de variables: Una o de preferencia ms de una. Un Polgono de Frecuencias se construye a partir del histograma uniendo los puntos medios de las bases superiores de cada rectngulo. Son tiles en la comparacin de distribuciones de frecuencias. GRFICO DE FRECUENCIAS ACUMULADAS: GRFICO ESCALONADO Y OJIVA DE FRECUENCIAS. Se usa para determinar cuntos o qu proporcin de los valores de los datos es menor o igual (o mayor) que cierto valor. Objetivo: Mostrar distribucin de frecuencias acumuladas. Tipo de variables: Cuantitativas continuas o discretas con muchos valores. Nmero de variables: Una. Un histograma (Figura 1), un polgono de frecuencias (Figura 2), un diagrama escalonado (figura 3), o una ojiva de frecuencias (Figura 4), nos permiten un anlisis ms rpido de los datos. Ver ejemplo completo en Anexo 2. Figura 1 Figura 2 Figura 3 Figura 40, 31,21,2

1,2 1 0,8 0,6 0,4 0,2 011083,5 13996,5 16909,5 19822,5 22735,5 25648,5 28561,5 31474,5

0, 25

1

1

0, 2

0,8

0,8

0, 15

0,6

0,6

0, 1

0,4

0,4

0, 05

0,2

0,2

0 11083,5 13996, 5 16909, 5 19822, 5 22735, 5 25648, 5 28561, 5 31474,5 34387,5

0 11083,5 13996,5 16909,5 19822,5 22735,5 25648,5 28561,5 31474,5 34387,5

0

11083, 5

13996,5

16909,5

19822,5

22735,5

25648,5

28561,5

31474, 5

Grfico 4. Evolucin de la fuerza de trabajo ocupada en Chile y el la Regin de Los Lagos. 2001 2006.

120

Pas115Indice

Regin

110 105 100 2001 2002 2003Aos

2004

2005

2006

Fuente: Elaboracin propia sobre la base de datos aportados por el INE Regin de Los Lagos.

Ejercicio: Construya los grficos adecuados para el ejemplo de las horas de estudio de los 30 estudiantes. Como tarea adicional realice lo mismo con el los datos del precio de autos vendidos en el 2006.

10

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Nota: Complemetariamente existe una amplia variedad de grficos, dentro de los que podemos mencionar grficos lineales, pictogramas,etc. Los estudiantes deben investigar los distintos tipos de grficos utilizados con mayor frecuencia en publicaciones de ndole genrica como propios de la especialidad. Como ejemplo podemos mencionar el grfico lineal. GRFICOS LINEALES Expresan el comportamiento de dos (o ms) variables. La variable independiente se inscribe en el eje horizontal y la dependiente en el eje vertical. Objetivo: Mostrar asociacin entre variables. Tipo de Variables: Continua. N de Variables: 2 o ms sin exagerar.

III. RESUMENES NUMERICOS: ESTADGRAFOS DE POSICIN, DISPERSIN Y FORMA El objetivo de los resmenes numricos es reducir una serie de datos a unos pocos coeficientes que contengan la mayor parte de la informacin relevante, con el fin de descubrir regularidades estadsticas en el grupo analizado. Los estadgrafos de posicin de Tendencia Central tratan de ubicar e identificar el valor de la variable alrededor del cual tienden a centrarse los datos. Recuerde que: Los estadgrafos: resumen informacin de la muestra. Los parmetros: resumen en la poblacin. Las tablas de frecuencia y grficos nos dan una idea general del patrn de la distribucin de los valores, pero no nos indican un valor tpico, medio o promedio o central. 3.1. Estadgrafos de posicin central (tendencia central o centralizacin) Los estadgrafos de posicin nos facilitan informacin sobre la serie de datos que estamos analizando. Estos estadgrafos permiten conocer diversas caractersticas de esta serie de datos. Los estadgrafos de posicin son de dos tipos: a) Estadgrafos de posicin central (de tendencia central o de centralizacin): informan sobre los valores medios de la serie de datos. b) Estadgrafos de posicin no centrales (o simplemente de posicin): informan de como se distribuye el resto de los valores de la serie. a) Estadgrafos de posicin central (tendencia central o centralizacin) Valor que representa un conjunto de datos y que trata de sealar una posicin central de los dat os. Los ms utilizados son: El promedio aritmtico. (La Media Aritmtica). El valor ms comn. (La Moda). El valor central. (La Mediana). El clculo de los estadgrafos difiere del caso en que se dispone de los datos originales o no agrupados, de aquel en que no se dispone de ellos al encontrase agrupados en tablas de frecuencia. Cabe destacar que los valores calculados diferirn levemente por la prdida de informacin en las tablas de frecuencias. 1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las ms utilizadas: a) Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra: Para el clculo de los estadgrafos ser necesario distinguir los casos en los que los datos vengan agrupados, de aquellos en los que vengan sin agrupar. Datos originales (sin agrupar) Datos agrupados en tablas de frecuencian k

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

xi xi 1

xi f a ( xi ) xi 1

k

xi 1

xi f r ( xi )

n

n

La media aritmtica es el estadgrafo de posicin central ms utilizado. Lo ms positivo de la media es que en su clculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna informacin. Sin embargo, presenta el problema de que su valor se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anmalos podran condicionar en gran medida el valor de la media, perdiendo sta representatividad. Ejemplo (datos sin agrupar): Los siguientes son los puntajes (0 a 100) en el Examen de Estadstica de 12 alumnos: 86, 79, 92, 84, 69, 88, 91, 83, 96, 78, 82, 85. Obtenga la media aritmtica. Datos originales (sin agrupar)

x

1013 84,12 puntos 12

Investigue como obtener este estadgrafo a travs de la calculadora cientfica y planilla Excel.

11

Ejemplo (datos agrupados en tablas de distribucin de frecuencias): Un muestra aleatoria de 30 estudiantes de la UACh indic que las horas de estudio, por semana, que cada uno estudia, se distribuye como muestra la Tabla 7. Tabla 7. Horas de estudio de 30 estudiantes de la UACh. Horas de estudio Xi fa(Xi) fr(Xi) Xi* fa(Xi) ]10-14] 12 6 0,2000 72 ]14-18] 16 8 0,2667 128 ]18-22] 20 9 0,3000 180 ]22-26] 24 3 0,1000 72 ]26-30] 28 3 0,1000 84 32 ]30-34] 32 1 0,0333 n=30 1 568Fuente: Elaboracin propia.

Xi* fr(Xi) 2,400 4,2672 6,0000 2,4000 2,8000 1,0656 18,9327

Datos originales (sin agrupar)

Datos agrupados en tablas de frecuencia

x

570,2 19,007 horas 30

x

568 30

18,933 horas

x 18,9327 horas

Ejercicio: Obtenga la media para datos originales y agrupados en el ejemplo de los automviles. Interprete la cifra resultado. PROPIEDADES DE LA MEDIA ARITMTICA

DESVENTAJAS DE LA MEDIA ARITMTICA La media aritmtica es muy sensible a los valores extremos de la variable. Se desplaza en la direccin del valor extremo. Luego, no se recomienda usar como medida central en distribuciones muy asimtricas. Ejemplo: Sean los valores 1; 2; 3; 4 y 5; La media aritmtica es 3. Sean los valores 1; 2; 3; 4; 50. La media aritmtica es 12. b) Media geomtrica: Investigar su definicin y utilizacin c) Media armnica: Investigar su definicin y utilizacin 2.- Mediana: es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores). Datos sin agrupar: X +X n SI n ES IMPAR: SI n ES PAR: ( n ) ( ) +1100 80

1 ,00

0 ,80

M X ed (n 1) 2Datos agrupados:

M

2

2

ed

2

60

0,50

0 ,60

40

C 0.5

LIi

0.5 n Faa (x i -1 ) (LSi f a (x i )

32

0 ,40

LIi )

20

0 ,20

10 ,0 0 25 0 9,10 9,6 2 10,14

10,13

10,65

0 11 ,1 7

12

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Todas las variables de nivel de intervalo o de razn tienen Media Aritmtica. Al evaluar la media se incluyen todos los valores de la variable y su valor final puede no ser un valor observado. Un conjunto de valores slo tiene una media aritmtica. Es el nico estadgrafo de posicin tal que la suma de las desviaciones de cada valor respecto a la media es cero. Ejemplo. Para la propiedad 4: Sean los tres valores: 3, 8 y 4. La media es 5. La propiedad 4 indica que: (3 - 5) + (8 - 5) + (4 - 5) = - 2 + 3 1 = 0

Ejemplo: Calculo para datos sin agrupar. En primer trmino los datos se deben ordenar de menor a mayor.Valor Posicin 10,3 1 12,9 2 12,9 3 13,5 4 13,7 5 14 6 14,2 7 15 8 15,4 9 15,7 10 16,6 11 17,1 12 17,4 13 17,8 14 18,3 15 18,3 16 18,6 17 18,9 18 19,7 19 20,3 20 20,7 21 20,8 22 21,4 23 23 24 23,2 25 23,7 26 26,1 27 27,1 28 29,8 29 33,8 30

En este caso n es par, por lo tanto, X n X

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

18,3 18,3 18,3 2 2 Ejemplo: (datos agrupados en tablas de frecuencia): Muestra aleatoria de 30 estudiantes indic las horas por semana que estudia cada uno: Tabla 8. Horas de estudio de 30 estudiantes de la UACh. Horas de estudio Xi fa(Xi) Faa(X) ]10-14] 12 6 6 ]14-18] 16 8 14 ]18-22] 20 9 23 ]22-26] 24 3 26 ]26-30] 28 3 29 ]30-34] 32 1 30 n=30 M ed2

n 2

1

Fuente: Elaboracin propia.

Lugar en que se encuentra la mediana

Datos agrupados en tablas de frecuencia

Lp

(30

50 1) 100

15,5

lugar16

Me

18

4

0,5 * 30 9

14

18,4horas

Ejercicio: Obtenga la media para datos originales y agrupados en el ejemplo de los automviles. Interprete PROPIEDADES DE LA MEDIANA Es nica para un conjunto de datos. No es afectada por valores extremos. Puede calcularse para variables ordinales, de intervalo y de razn. Usa menos informacin que la media, ya que slo depende del orden de los datos. 3.- Moda: es el valor que ms se repite en la muestra. Datos agrupados:

M od (X)

LI i

f a (x i ) - f a (x i 1 ) (LSi - LI i ) (f a (x i ) - f a (x i 1) ) (f a (x i ) - f a (x i 1))

Ejemplo (datos sin agrupar): Mo=12,9 horas y 18,3 horas Ejemplo (datos agrupados en tablas de distribucin de frecuencias): Muestra aleatoria de 30 estudiantes indic las horas por semana que estudia cada uno: Datos agrupados en tablas de Datos agrupados en tablas de frecuencia frecuencia Horas de estudio ]10-14] ]14-18] ]18-22] ]22-26] ]26-30] ]30-34]

Xi 12 16 20 24 28 32

fa(Xi) 6 8 9 3 3 1 n=30

Faa(X) 6 14 23 26 29 30

Mo

18

4

(9

9 3)

8 (9

8)

18,57 horas

13

VENTAJAS DE LA MODA La moda es vlida para todos los niveles de medida de las variables. No es afectada por valores muy extremos. Igual que la mediana, se puede usar en distribuciones con extremo abierto. DESVENTAJAS DE LA MODA Muchas variables no tienen moda, pues ningn valor aparece ms de una vez. Si existe puede no ser nica. Algunas variables tienen ms de una moda. Esto ocurre cuando la poblacin muestreada no es homognea respecto a ciertas variables del estudio. Por ejemplo una poblacin que incluya hombres (machos) y mujeres (hembras). Ver ejemplo completo en Anexos 3 y 4. 3.2. Estadgrafos de posicin no central (o simplemente de estadgrafos de posicin) Los Estadgrafos de posicin no central permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. El objetivo de estos estadgrafos es clasificar (localizar) a un individuo dentro de una determinada muestra. Dividen la distribucin de los datos en grupos iguales de acuerdo a un cierto porcentaje. Genricamente se llaman CUANTILES. Se define el cuantil de orden , C , como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada igual a , con 0 < < 1. Los ms usados son los percentiles (99), cuartiles (3), quintiles (4), deciles (10). Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados. Por ejemplo, el primer cuartil es el valor debajo del cual se clasifica al 25% de las observaciones, y sobre el cual se encuentra el 75% restante. Cmo se definira el Segundo Cuartil?, y el Tercer Cuartil?. Quintiles: son 4 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cinco tramos iguales, en los que cada uno de ellos concentra el 20% de los resultados. Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. Clculo de los cuantiles: El cuantil cr/k para r= 1,2,..., k 1, se define como aquel valor de la variable que divide la distribucin de frecuencias, previamente ordenada de forma creciente, en dos partes, estando el (r/k)% de sta formado por valores menores que cr/k. Para el clculo de los estadgrafos ser necesario distinguir los casos en los que los datos vengan agrupados, de aquellos en los que vengan sin agrupar. Datos sin agrupar: Si los datos vienen sin agrupar y se cumple que: a) Faa(xj-1) < (r/k)n < Faa(xj), entonces el r-simo cuantil de orden k ser cr/k= xj, valor al que corresponde la frecuencia absoluta acumulada Faa(xj). b) Si la situacin fuera de la forma Faa(xj-1) = (r/k)n < Faa(xj), entonces tomaramos cr/k como:

cr

Xjk

1

Xj

2

14

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

Datos agrupados: FRECUENCIA ABSOLUTA Faa(x1)=1 Faa(x2)=2 i es el menor intervalo que tiene frecuencia acumulada superior a (n). j-1 j Xj-1 xj Faa(xj-1)=j-1 Faa(xj)=j

N 1 2

VALOR x1 x2

C

LIi

n Faa ( x i -1 ) ( LSi fa (x i)

LIi )

n

xn

Faa(xn)=n

Ver ejemplo completo en Anexos 3 y 4.

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

Ejemplo: Con los datos siguientes, obtenga el Cuartil 1, decil 4 y cuantil 80,Valor Posicin 10,3 1 12,9 2 12,9 3 13,5 4 13,7 5 14 6 14,2 7 15 8 15,4 9 15,7 10 16,6 11 17,1 12 17,4 13 17,8 14 18,3 15 18,3 16 18,6 17 18,9 18 19,7 19 20,3 20 20,7 21 20,8 22 21,4 23 23 24 23,2 25 23,7 26 26,1 27 27,1 28 29,8 29 33,8 30

Cuartil 1= Q1=C25 (r/k)n = (1/4)*30 = 0,25 *30 = 7,5, por lo tanto Q1 = 15 horas. Decil 4= D4=C40 (r/k)n = (4/10)*30 = 0,40 *30 = 12, por lo tanto D4= (17,1 + 17,4)/2 = 17,25 horas.

Calcule el cuantil 80Ejemplo: Calculo de cuantiles para datos agrupados en tablas de distribucin de frecuencias: Muestra aleatoria de 30 estudiantes indic las horas por semana que estudia cada uno: Lugar en que se encuentran los cuantiles Datos agrupados en tablas de frecuencia Horas de 0,25 * 30 6 Xi fa(Xi) Faa(X) estudio C25 14 4 14 ,75 horas 8 ]10-14] 12 6 6 ]14-18] 16 8 14 ]18-22] 20 9 23 0,40 * 30 6 C40 14 4 17 horas ]22-26] 24 3 26 8 ]26-30] 28 3 29 ]30-34] 32 1 30 n=30

C80

__ 4

___* ___ ___ ___

___ horas

Diagramas de caja: Es una representacin grfica basada en los cuartiles que ayuda a ilustrar un conjunto de datos. Para elaborar el diagrama se requiere: el valor mnimo; Q1; la mediana (Q2), Q3, y el valor mximo.

15

Ejemplo: Realizar un grfico de caja para el ejemplo de la variable horas de estudio.Grfico de Caja y Bigotes

10

14

18

22

26

30

34

Horas de estudio

Ejercicio: Realice un grfico de caja para datos venta de automviles. 3.3. Estadgrafos de dispersin El objetivo de los estadgrafos de dispersin es determinar el grado de alejamiento de los datos respecto a un estadgrafo de tendencia central que, generalmente suele ser la media aritmtica. Nos dan una idea acerca de lo agrupados que estn los datos, y por lo tanto indican la homogeneidad de estos. En resumen, muestran la representatividad de los estadgrafos de tendencia central. A mayor dispersin menor representatividad. Por ejemplo un ro tiene una profundidad media de 0,90 m. Pero, la mxima profundidad puede ser 3 m o puede variar entre 0,35 m. y 2,10 m. Se toman por ejemplo los tres conjuntos pequeos de datos. Conjunto 1 Conjunto 2 Conjunto 3 0, 5,10 4,5,6 5,5,5 Qu media tienen los tres grupos?, Se puede establecer que los grupos son similares? Se puede observar el grado de dispersin de cada grupo? En resumen, a travs de los estadgrafos de dispersin se estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o menos concentrados, o ms o menos dispersos. Existen diversos Estadgrafos de dispersin, entre los ms utilizados podemos destacar las siguientes: 1.- Rango: Muestra la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado y el valor ms bajo. 2.-Varianza muestral: Indica el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media aritmtica. Se calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media aritmtica, multiplicadas por el nmero de veces que se ha repetido cada valor. La sumatoria obtenida se divide por el tamao de la muestra menos 1.

Datos originales (sin agrupar)n

Datos agrupados en tablas de frecuencia2

(x i S2 ni 1 1

x) 2

n

n

m

n S2 ni 1 1

x

2 i i 1

xi

(x i S2 ni 1 1

x) 2 f a (x i ) n -1

n 1

n(n 1)n

S

2 n 1 i 1

x i2 n 1

n n 1

n

n

2

x

2

n S2 ni 1 1

x i2 f a (x i )i 1

x i f a (x i )

n(n 1)n

x i2 f a (x i ) S2 ni 1 1

n n 1

n -1

x2

16

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn. 3.- Desviacin estndar: Se calcula como raz cuadrada de la varianza.

S

S2

Ejemplo: Obtenga, para los datos de horas de estudio. la varianza y desviacin estndar. Datos originales (sin agrupar) Datos agrupados en tablas de frecuencia

S2

30 * 11669,96 570,2 30(30 1)

2

28,702

S2

30 * 11616 568 30(29)

2

29,7195

S

28,702

5,3574

S

29,7195

5,4516

Ejercicio: Calcule en el ejemplo de los autos ambos estadgrafos de dispersin.

BAIN 052. ESTADSTICA Y PROBABILIDAD PARA INGENIERA | Profesores Vctor Figueroa Arcila.

4.- Coeficiente de varizacin de Pearson: se calcula como cociente entre la desviacin estndar y la media.

CV

S x

El inters del coeficiente de variacin es que al ser un porcentaje permite comparar el nivel de dispersin de dos muestras. Esto no ocurre con la desviacin estndar, ya que viene expresada en las mismas unidas que los datos de la serie. Por ejemplo, para comparar el nivel de dispersin de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones estndar (una viene expresada en centmetros y la otra en kilogramos). En cambio, sus coeficientes de variacin son ambos porcentajes, por lo que s se pueden comparar. Ejercicio Resumen: La tabla siguiente muestra las diferencias en peso encontrada al hacer un muestreo de 100 mediciones en un laboratorio de una serie de productos (Y: diferencia en mm del peso real en comparacin con el sealado por la etiqueta). Obtenga los estadgrafos planteados anteriormente. Intervalos fa(xi) [1,5 - 2,5] 43 ]2,5 - 3,5] 30 ]3,5 - 4,5] 17 ]4,5 - 5,5] 7 ]5,5 - 6,5] 3 5.- La Distribucin Normal y la Regla emprica. Si la muestra es simtrica y tiene la forma de una campana,

X X XVer ejemplo completo en Anexos 3 y 4. 3.4. Estadgrafos de forma

1s 2s 3s

68,25% 95,44% 99,73%

El objetivo de los estadgrafos de forma es indicarnos la cantidad de deformacin que tiene la distribucin de los datos respecto de una distribucin Normal. Los estadgrafos de forma permiten conocer la forma que tiene

17

la curva que representa la serie de datos de la muestra. En concreto, podemos estudiar las siguientes caractersticas de la curva: a) Concentracin: Indican si los valores de la variable estn ms o menos uniformemente repartidos a lo largo de la muestra. b) Asimetra: Indican si la curva tiene una forma simtrica, es decir, si respecto al centro de la misma (centro de simetra) los segmentos de curva que quedan a derecha e izquierda son similares. c) Curtosis: Indican si los valores de la distribucin estn ms o menos concentrados alrededor de los valores medios de la muestra. Simetra a) Concentracin: Investigar este tema. b) Asimetra: Hemos comentado que el concepto de asimetra se refiere a si la curva que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media aritmtica)

Sim tric a As a p s a im tric o itiv As a n ativ im tric eg a

Para cuantificar el nivel de asimetra se utiliza el llamado Coeficiente de Asimetra de Fisher, que viene definido por la siguiente expresin:

AsLos resultados pueden ser los siguientes:

1 n

k

(x ii 1

x) 3 f a (x i ) S3

c) Curtosis El Coeficiente de Curtosis analiza el grado de Curtosis concentracin que presentan los valores alrededor de la zona central de la distribucin. Se definen 3 tipos de distribuciones segn su grado de curtosis: Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal). Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable. Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable. El Coeficiente de Curtosis viene definido por la siguiente frmula: Los resultados pueden ser los siguientes: k K = 3 (distribucin mesocrtica). 1 (x i x) 4 f a (x i ) K > 3 (distribucin leptocrtica). n i1 K < 3 (distribucin platicrtica). K

M s c rtic eo a L p c rtic e to a P a latic rtic

S4

Ver ejemplo completo en Anexos 3 y 4.

18

UNIDAD DE APRENDIZAJE I. ESTADSTICA DESCRIPTIVA | Marzo 2011

As=0 (distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la media) As>0 (distribucin asimtrica positiva; existe mayor concentracin de valores a la derecha de la media que a su izquierda) As