1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

78
PR E ESTADÍ ROBABILIDAD Y ESTADÍSTICA Ingeniería Marzo 2013 ÍSTICA DESCRIPTIVA A

description

estadistica

Transcript of 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Page 1: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

PROBABILIDAD

ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA

PROBABILIDAD

Y

ESTADÍSTICA

Ingeniería

Marzo 2013

ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA DESCRIPTIVA

Page 2: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 2

Introducción

Qué es la Estadística: La estadística es una ciencia que tiene como finalidad

facilitar la solución de problemas en los cuales es necesario conocer algunas

características sobre el comportamiento de algún suceso o evento.

· conocer o mejorar el conocimiento de ese suceso · predecir el comportamiento de sucesos iguales o similares sin que estos

ocurran La Estadística posee un conjunto de técnicas que se emplean para la recopilación, organización, presentación, análisis e interpretación de los datos para tomar decisiones y resolver problemas.

¿Por qué hay que estudiar Estadística?

Si se revisan las mallas curriculares de las distintas carreras profesionales, veremos que en la mayoría existe por lo menos una asignatura de Estadística. Básicamente los contenidos de un primer curso de Estadística en diferentes carreras son los mimos, la mayor diferencia radica en los ejemplos utilizados.

La principal razón es que el rol más destacado de la Estadística es la recopilación, presentación, análisis de un conjunto de datos, a partir de los cuales se obtienen conclusiones y se toman decisiones.

Saber Estadística es de gran utilidad en cualquier área del conocimiento y en particular en Ingeniería. Ejemplos:

- Diseño y desarrollo y mejora en los proceso productivos como control de calidad, control de la variabilidad del proceso, …

- Estudios de materiales en cuanto a duración, dureza, elasticidad, ….

- Control de inventarios, con la estadística se analiza la tendencia de flujo de ciertos materiales y ciertos productos.

- Comparar los tiempos de ejecución de 3 algoritmos de ordenación (algoritmo de la burbuja, de selección, de inserción, quicksort, treesort)…

- … … …

Page 3: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 3

La mayor contribución de la Estadística en la resolución de problemas en ingeniería es su utilización como herramienta de aprendizaje. El aprendizaje que se obtiene mediante la estadística forma parte del denominado “Método Científico” El método científico es la estrategia de la investigación científica: afecta a todo ciclo completo de investigación y es independiente del tema en estudio. Al ser la Ingeniería la aplicación del conocimiento científico, todo proyecto en ingeniería debe contener los rasgos del método científico.

La estadística se puede clasificar como:

Estadística descriptiva

Tiene como objetivo caracterizar, describir y extraer conclusiones sobre una muestra de datos o de la población de interés.

Probabilidad

Mide la incertidumbre, deduce las leyes que rigen a los fenómenos que se investigan. Es la herramienta a partir de la que se desarrolla la inferencia estadística

Estadística Inferencial

Implica realizar inferencias acerca de la de la población a partir de datos muestrales y requiere cálculo de probabilidades. La inferencia de conclusiones generales a partir de datos de muestrales es siempre incierta Uno de los objetivos principales de la estadística es medir esa incertidumbre

Conocer los conceptos fundamentales

La Estadística Descriptiva utiliza, tablas, gráficos y resúmenes numéricos

Para realizar cualquier estudio estadístico, hay que tener en cuenta:

Cómo y de donde se recolectó la información

Qué se midió ¿atributos o cantidades?

Page 4: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 4

CONCEPTOS FUNDAMENTALES Población: Conjunto de elementos a los que se les estudia una característica” Tamaño población: N

- Los estudiantes de nuestra universidad - Las personas activa en Chile (población activa) - La flota de aviones de aviones de una compañía aérea

Censo : estudio completo de la población

A las medidas de resúmenes poblacionales como la me dia poblacional µ,

desviación estándar poblacional σ, …, se les denominan parámetros .

Muestra: subconjunto de elementos de la población sobre el cual se va a llevar el estudio). Tamaño muestra: n

Debería ser “representativo”

Está formado por miembros “seleccionados” de la población (individuos,

unidades de estudio, unidades de obseservación, unidades

experimentales).

A las medidas de resúmenes muestrales como la media de la muestra

“ x ”, desviación estándar de la muestra “s”…, se les d enomina

estadísticos.

¡De una población existen muchas muestras posibles, pero sólo observamos una!

Nota: A la hora de decidir sobre la forma de recoger la información de la muestra se utilizan distintos criterios, originando distintos tipos de muestreos. (Anexo 2) Encuesta: Técnica de investigación para obtener información de grupos de

personas mediante el uso de instrumentos como cuestionarios diseñados en

forma previa.

Diseño de experimentos: Metodología estadística que permite identificar y

cuantificar las causas de un efecto en un estudio experimental. El objetivo del

diseño de experimento es estudiar si utilizar un determinado tratamiento produce

mejora en el proceso o no.

Page 5: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 5

Variable: una variable es una característica observable que varía entre los

diferentes individuos de una población. La información que disponemos de cada

individuo es resumida en variables.

En la población de alumnos de Ingeniería de una uni versidad, es variable:

- El género: {Femenino, Masculino} ← var. cualitativa dicotómica

- Especialidad :{Informática, Industrial, Obras Civiles, …} ← var. cualitativa – politómica

- El número de asignatura aprobadas: {0,1,2,3,...} ← var. cuantitativa discreta

- Nivel de Educ. del padre: {Básica, Media Superior} ←var. cualitativa ordinal

- La altura (en cm.): {162 , 156, 170 ...} ← var. cuantitativa continua

- Edad (años): {17, 18, 19, …} ← var. cuantitativa continua . . .

Obs.: Se acostumbra denotar a las variables con let ras mayúsculas. X, Y, Z

Dato: valor de la variable asociado a un elemento de la población o muestra. (los valores de las variables se denotan con letras minúsculas)

Ejemplo: (archivo de datos)

Sujeto Sexo Edad Especialidad ……… (X1) (X2) (X3)

01 M 21 IND → observación 1

02 M 22 INF

03 F 31 OC

. . . .

. . . . . . . .

HAY QUE CONOCER EL TIPO DE

VARIABLE PARA UTILIZAR LA

HERRAMIENTA ESTADÍSTICA

ADECUADA

Page 6: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 6

La primera observación indica que el sujeto es de sexo masculino, tiene 21 años y

estudia Ingeniería Industrial. Cada una de estas tres mediciones es un dato para

cada una de las variables medidas para el sujeto 1.

El alumno de Ingeniería es la unidad de obser vación

Datos primarios

Son aquellos que el investigador obtiene directamente de la realidad,

recolectándolos con sus propios instrumentos.

Datos secundarios

Son registros escritos que proceden también de un contacto con la práctica,

pero que ya han sido elegidos y procesados por otros investigadores.

Las fuentes son información de datos secundarios deben ser fidedignas.

Los datos primarios y secundarios no son dos clases esencialmente diferentes

de información, sino partes de una misma secuencia: todo dato secundario ha

sido primario en sus orígenes, y todo dato primario, a partir del momento en

que el investigador concluye su trabajo, se convierte en dato secundario para

los demás.

Page 7: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 7

Clasificación de variables

Para realizar un análisis de datos, es indispensable saber cómo es la variable

que consideramos, pues ello determina el tipo de método estadístico que se

debe utilizar. Las variables se clasifican como:

Según su naturaleza

Cualitativas o atributos

No toman valores numéricos

(modalidades) y describen

cualidades. (no se pueden hacer

operaciones algebraicas con ellos).

Ejemplos: Estado Civil Profesión

Cuantitativas

Sus valores son numéricos (tiene

sentido hacer operaciones

algebraicas con ellos).

Ejemplos: Estatura

Número de errores

Según tamaño del recorrido

Dicotómica s

Toman uno de

dos valores.

Ejem.: Sexo

Discretas Corresponden en general a

contar el número de veces

que ocurre un suceso.

Tienen un recorrido finito o

infinito numerable.

Ejem.: Número de cargas familiares.

Continuas Entre dos valores,

son posibles infinitos

valores intermedios

Ejemplo: Altura (cm)

Page 8: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 8

Según el nivel de medición

La medición es el proceso mediante el cual se les asignan valores numéricos

a objetos siguiendo unas determinadas reglas. Los instrumentos que se

utilizan para llevar a cabo tal medición se les denominan escalas de medición.

El criterio utilizado convencionalmente para clasificar las escalas de medida es

el propuesto por Stevens (1946), quien establece cuatro tipos de escala:

nominal, ordinal, de intervalo y de razón .

NNNOOOMMMIIINNNAAALLL

ORDINAL

INTERVALAR

RAZÓN

EEESSSCCCAAALLLAAASSS DDDEEE MMMEEEDDDIIICCCIIIÓÓÓNNN

Únicamente permiten establecer relaciones de igualdad/desigualdad entre los objetos que se están midiendo.

NO INDICA ORDEN O JERARQUÍA

Ejemplos

SEXO:

Masculino (1) Femenino (2) PROFESIÓN:

Ingeniero (1) Profesor (2) Médico (3)

Page 9: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 9

NOMINAL

OOORRRDDDIIINNNAAALLL

INTERVALAR

RAZÓN

EEESSSCCCAAALLLAAASSS DDDEEE MMMEEEDDDIIICCCIIIÓÓÓNNN

Además de permitir relaciones de igualdad /desigualdad, permite establecer relaciones de orden (mayor o menor que) entre los objetos que se están midiendo.

EXISTE UN ORDEN O JERARQUÍA

Ejemplo

NIVEL EDUCACIONAL :

Univ. con doctorado (5) Univ. con Magister (4) Superior (3) Media (2) Básica (1)

Page 10: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 10

NOMINAL

ORDINAL

IIINNNTTTEEERRRVVVAAALLLAAARRR RAZÓN

EEESSSCCCAAALLLAAASSS DDDEEE MMMEEEDDDIIICCCIIIÓÓÓNNN

Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala

permite establecer relaciones de igualdad /desigualdad y de orden entre los objetos

que se miden. Los intervalos entre los números de la escala son iguales, por lo

tanto se puede realizar las operaciones suma y resta. Este tipo de escala carece de

un cero absoluto, por lo que no están permitidas ni la multiplicación ni la división

entre los números de la escala. Una escala de intervalo es, por ejemplo, la utilizada

para medir la temperatura. Como los intervalos de la escala son iguales, se puede

afirmar que la diferencia de temperatura que existe entre 25 y 28 grados es la

misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de la

escala es arbitrario -no existe ausencia de temperatura- no se puede afirmar,

por ejemplo, que 20 grados es exactamente la mitad de 40 grados.

Page 11: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 11

NOMINAL

ORDINAL

INTERVALAR

RRRAAAZZZÓÓÓNNN

EEESSSCCCAAALLLAAASSS DDDEEE MMMEEEDDDIIICCCIIIÓÓÓNNN

Es la escala que permite el nivel más alto de medición.

Además de las operaciones que permiten las escalas

anteriores, en una escala de razón existe el cero (0)

empírico, por lo cual se puede efectuar cualquier operación

aritmética con los números de la escala. El tiempo de

reacción, por ejemplo es una variable medida en escala

de razón. No sólo se puede afirmar que la diferencia entre

3 y 6 segundos es la misma que entre 6 y 9 segundos

(afirmación válida también en la escala de intervalos), sino,

además, que 6 s es el doble de 3 s Afirmación que es

posible establecer gracias a que en la escala de tiempo de

reacción existe el cero absoluto: cero significa ausencia de

tiempo de reacción.

Page 12: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 12

Clasificación de variables según su función

Ejemplo: Los hábitos de estudios influyen en el rendimiento académico de los

Estudiantes

VI = hábitos de estudio

VD = Rendimiento académico

V interv. = Aptitud personal

Nivel nutricional

… … …. … …

Ejercicios I

Ejercicio I-1 Determine en cada caso, si se trata o no de una variable.

- La edad mínima para poder votar por primera vez en Chile. - Número de errores diarios en una central telefónica. - Tiempo (en años) de experiencia laboral. - Profesión de los clientes de un banco. - Sueldo de los Ingenieros.

VI Independiente

Introduce o manipula el investigador

VD Dependiente

Se observa y se miden los cambios

Interviniente Es la que puede mediar en la relación entre VI y VD y que

puede influir en los resultados

Page 13: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 13

Ejercicio I-2

Se quiere analizar el número de horas de estudio semanal que dedican los alumnos postgrado del área Ingeniería de esta Universidad. Para ello se selecciona a 35 alumnos que están participando en postgrado.

Indique cual es la:

Población: Variable: Muestra:

Ejercicio I-3

El coeficiente intelectual (CI) promedio en la población adulta chilena es 100 puntos. Un investigador educacional está interesado en probar que las personas adultas que hablan más de un idioma tienen un CI superior a la media poblacional. En una muestra de 250 personas que hablan más de un idioma se obtuvo un promedio (CI medio) de 102. Complete:

Variable de interés (nombre)

X

Clasificación de la variable

Naturaleza Recorrido Medición

Promedio poblacional

µ

Promedio muestral

x

Ejercicio I-4

¿Qué situaciones se representan estadísticamente con una variable discreta y cuáles con una variable continua?

a. El número de defectuosos en la fabricación b. Los tipos de defectos encontrados c. El tiempo de vida de las unidades que se fabrican d. El costo de fabricación e. El nivel de satisfacción de los clientes f. Nº de pedidos que se hacen al mes g. El tiempo que transcurre desde que llega un pedido hasta que llega el

siguiente

Page 14: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 14

Ejercicio I-5

En el departamento de personal de una empresa con 10.000 trabajadores se quiere estimar los gastos familiares en salud de sus empleados para determinar la posibilidad de proporcionarles un plan de seguro médico. Si el gasto mensual ($) en salud de 10 empleados elegidos al azar fue:

71.060 233.852 158.916 54.910 329.460 134.368 111.758 274.550 204.136 115.634

Indique: Población: _______________________ Tamaño N =

Unidad de observación:

Variable: X =

Muestra: _________________________ Tamaño: n =

Interprete 1

n

ii

x=

=∑

Calcule 2

1i

n

i

x=

=∑

FMS

Page 15: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 15

Ejemplo 1 .Estadística descriptiva

Ejemplo 1 (ArmadoA12.xls) : El reporte de la inspección final de defectos de 150 productos para la línea de armado A12 se muestra en la tabla siguiente:

Producto Defecto Producto Defecto Producto Defecto Producto Defecto Producto Defecto

1 Rayado 31 Manchado 61 Manchado 91 Manchado 121 Manchado

2 Abollado 32 Rayado 62 Astillado 92 Doblado 122 Manchado

3 Astillado 33 Rayado 63 Rayado 93 Manchado 123 Rayado

4 Astillado 34 Manchado 64 Astillado 94 Manchado 124 Manchado

5 Otros 35 Manchado 65 Astillado 95 Astillado 125 Abollado

6 Manchado 36 Doblado 66 Manchado 96 Rayado 126 Astillado

7 Rayado 37 Manchado 67 Rayado 97 Manchado 127 Manchado

8 Astillado 38 Manchado 68 Rayado 98 Abollado 128 Manchado

9 Doblado 39 Manchado 69 Manchado 99 Manchado 129 Astillado

10 Rayado 40 Rayado 70 Manchado 100 Manchado 130 Doblado

11 Rayado 41 Astillado 71 Manchado 101 Doblado 131 Abollado

12 Manchado 42 Rayado 72 Manchado 102 Astillado 132 Manchado

13 Manchado 43 Otros 73 Manchado 103 Astillado 133 Rayado

14 Otros 44 Astillado 74 Otros 104 Rayado 134 Doblado

15 Abollado 45 Rayado 75 Rayado 105 Manchado 135 Astillado

16 Manchado 46 Rayado 76 Manchado 106 Astillado 136 Manchado

17 Rayado 47 Rayado 77 Manchado 107 Rayado 137 Rayado

18 Manchado 48 Doblado 78 Rayado 108 Manchado 138 Rayado

19 Otros 49 Manchado 79 Astillado 109 Manchado 139 Astillado

20 Rayado 50 Manchado 80 Rayado 110 Abollado 140 Manchado

21 Doblado 51 Manchado 81 Astillado 111 Manchado 141 Rayado

22 Doblado 52 Rayado 82 Manchado 112 Abollado 142 Rayado

23 Rayado 53 Otros 83 Manchado 113 Rayado 143 Rayado

24 Manchado 54 Rayado 84 Doblado 114 Manchado 144 Rayado

25 Manchado 55 Doblado 85 Manchado 115 Manchado 145 Manchado

26 Rayado 56 Manchado 86 Astillado 116 Astillado 146 Rayado

27 Abollado 57 Rayado 87 Manchado 117 Rayado 147 Manchado

28 Manchado 58 Rayado 88 Manchado 118 Rayado 148 Rayado

29 Rayado 59 Doblado 89 Manchado 119 Manchado 149 Rayado

30 Rayado 60 Rayado 90 Astillado 120 Astillado 150 Astillado

Identifique

Unidad de estudio: ______________

Variable de Interés: ___________________ y clasifí quela según:

Naturaleza:____________ T Recorrido:___________ N M edición:_________

Page 16: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R.

Reporte de la inspección final de defectos de 150 productos para la línea de armado A12.

Rayado Manchado Manchado Manchado

Abollado Astillado Doblado Manchado

Astillado Rayado Manchado Rayado

Astillado Astillado Manchado Manchado

Otros Astillado Astillado Abollado

Manchado Manchado Rayado Astillado

Rayado Rayado Manchado Manchado

Astillado Rayado Abollado Manchado

Doblado Manchado Manchado Astillado

Rayado Manchado Manchado Doblado

Rayado Manchado Doblado Abollado

Manchado Manchado Astillado Manchado

Manchado Manchado Astillado Rayado

Otros Otros Rayado Doblado

Abollado Rayado Manchado Astillado

Manchado Manchado Astillado Manchado

Rayado Manchado Rayado Rayado

Manchado Rayado Manchado Rayado

Otros Astillado Manchado Astillado

Rayado Rayado Abollado Manchado

Doblado Astillado Manchado Rayado

Doblado Manchado Abollado Rayado

Rayado Manchado Rayado Rayado

Manchado Doblado Manchado Rayado

Manchado Manchado Manchado Manchado

Rayado Astillado Astillado Rayado

Abollado Manchado Rayado Manchado

Manchado Manchado Rayado Rayado

Rayado Manchado Manchado Rayado

Rayado Astillado Astillado Astillado

Estadística Descriptiva

Defectos en línea de armado A12(150 productos examinados)

Frec

uenc

ia60

50

40

30

20

10

0

56

12

23

8

Defecto del productoManchadoDobladoAstilladoAbollado

eporte de la inspección final de defectos de 150 productos para la

Manchado

Manchado

Manchado

Abollado

Astillado

Manchado

Manchado

Astillado

Doblado

Abollado

Manchado

Doblado

Astillado

Manchado

Astillado

Manchado

Manchado

Manchado

Astillado

Defectos en línea de armado A12 (150 productos examinados)

Defecto del producto Frecuencia

Abollado 8 Astillado 23 Doblado 12

Manchado 56 Otros 6

Rayado 45 Total 150

El defecto más frecuente en la línea de armado es Manchado

Moda = manchado

Página 16

Defectos en línea de armado A12 (150 productos examinados)

6

45

OtroRayado

Defectos en línea de armado A12 (150 productos examinados)

Porcentaje

5,3

15,3

8,0

37,3

4,0

30,0

100,0

El defecto más frecuente en la

Page 17: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 17

Ejemplo 2 : : Datos sobre el números de averías en Febrero.2012 de 40 centrales eléctricas.

0 1 0 0 2 0 0 1 1 0 2 1 3 1 1 3 1 1 1 0 0 1 1 3 1 0 2 3 4 2 2 0 0 0 1 2 0 3 2 2

Identifique Unidad de estudio: ______________ Variable de Interés: ___________________ y clasifí quela según: Naturaleza:____________ T Recorrido:___________ N M edición:_________

Números de averías en Febrero.2012 de 40 centrales Eléctricas.

0 1 0 0 2

2 1 3 1 1

0 1 1 3 1

2 0 0 0 1

0 0 1 1 0

3 1 1 1 0

0 2 3 4 2

2 0 3 2 2

Tabla de frecuencias

N° de averías Frecuencia Porcentaje

Porcentaje acumulado

0 13 32,5 32,5 1 13 32,5 65,0 2 8 20,0 85,0 3 5 12,5 97,5 4 1 2,5 100,0 Total 40 100,0

Centrales eléctricas (40). Febrero 2012

Gráfico

Centrales eléctricas (40). Febrero 2012

N° de averías43210

Rec

uent

o

14

12

10

8

6

4

2

0

1

5

8

1313

Centrales eléctricas (40). Febrero 2012

Estadísticos (Medidas de resumen)

N° de averías40

0

1,20

1,00

0a

1,114

,637

,374

-,445

,733

0

4

,00

1,00

2,00

Válidos

Perdidos

n

Media

Mediana

Moda

Desv. típ.

Asimetría

Error típ. de asimetría

Curtosis

Error típ. de curtosis

Mínimo

Máximo

25

50

75

Percentiles

Existen varias modas. Se mostrará el menor de losvalores.

a.

Page 18: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R.

Ejemplo 3 Nota de Estadística

400 alumnos Semestre 2 - 2011

Medidas de resumen

Nota de Estadística Semestre 2 - 2011

Estadística Descriptiva

Gráfico s Nota de Estadística

Semestre 2 - 2011

Nota5,04,03,02,01,0

Frec

uenc

ia

100

80

60

40

20

0

86

96

74

53

30

Histograma

Tabla de frecuencias

Semestre 2 - 2012

Nota de Estadística

30 7,553 13,374 18,596 24,086 21,561 15,3

400 100,0

1 - 22 - 33 - 44 - 55 - 66 - 7Total

VálidosFrecuencia Porcentaje

Página 18

7,06,0

61

86

7,520,839,363,384,8

100,0

Porcentajeacumulado

Page 19: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 19

Identifique (ejemplo 3) Unidad de estudio: ______________

Variable de Interés: ___________________ y clasifí quela según: Naturaleza:____________ T Recorrido:___________ N M edición:_________

Ejemplo 4: Grafico de tendencia

Consumo humano de leche de cabra en España. (millones de litro)

Año 1990 1991 1992 1993 1994 1995 1996 1997 1998

Consumo 62,5 29,9 31,3 25,2 20,8 16,1 15,8 15,9 16,6

Año 1999 2000 2001 2002 2003 2004 2005 2006 Consumo 16,2 17,1 15,5 17,6 11,9 11,8 12,3 13,1

- El consumo anual de leche de cabra en el año 1991 disminuyó en 52,16% con respecto al consumo del año 1990 (variación porcentual)

- Determine la variación porcentual entre los años 2001 y 2002.

Variación porcentual = Final - 1 100

Inicial

Page 20: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 20

1Estadística Descriptiva Univariada

Organización de los datos

La estadística descriptiva, entrega las técnicas que permiten condensar grandes

grupos de datos mediante el uso de tablas de frecuencias, gráficos y medidas

de resumen como media, desviación estándar, correla ción.

Nota: Para resumir los datos siempre hay que tener en cuenta de que tipo es la variable que queremos analizar

Datos “en bruto” o directos

Cuando la información es recolectada, sea de una muestra o de una población,

esta se organiza en la secuencia en que fue obtenida. Esta secuencia de datos

registrados se encuentra desorganizada, lo que no permite extraer información

fácilmente, siendo difícil detectar cualquier patrón de variabilidad o estructura de

los datos.

Datos en bruto : Datos registrados en la secuencia en que fueron

recolectados, antes de ser procesados u ordenados.

Ejemplo pág. 15: (ArmadoA12.xls) : El reporte de la inspección final de defectos de 150 productos para la línea de armado A12 se muestra en la tabla siguiente:

Ejemplo 2 pág. 17: : Datos sobre el números de averías en Febrero.2012 de 40 centrales Eléctricas.

0 1 0 0 2 0 0 1 1 0

2 1 3 1 1 3 1 1 1 0

0 1 1 3 1 0 2 3 4 2

2 0 0 0 1 2 0 3 2 2

Page 21: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 21

Ejemplo 3: En abril. 2012 se recolectó información sobre la edad (en años) de 50 estudiantes diurnos seleccionados de una universidad. El valor de los datos, en el orden en que fueron recolectados se presenta a continuación.

21 24 29 26 36

18 19 19 25 25

25 31 23 23 23

22 21 22 21 19

25 18 27 21 21

19 25 34 27 33

20 22 19 22 23

19 19 18 19 26

28 20 22 20 21

23 36 23 25 24

Tabla o distribución de La presentació n gráfica frecuencias puede revelar de un Es una tabla que constituye vistazo las el resumen básico de principales los datos características de un conjunto de datos

Descripción estadística de una variable cualitativa

Gráficos

- Sectorial

- Barras

Separadas

- Diagrama

de Pareto

- Pictograma

Medida de resumen Moda: es el dato o

modalidad de mayor

frecuencia ≡ dato

más representativo

Page 22: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R.

Ejemplo 1: (p 15) El reporte de la inspección final de defectos para la línea de armado A12

se muestra en la tabla siguiente:

Defectos del

producto

Frecuencia absoluta

Abollado

Astillado

Doblado

Manchado

Rayado

Otros

Total 150

Frecuencia absoluta (ni): Número

Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto del total de datos

Gráfico sectorial :

Círculo dividido en porciones que

representan las frecuencias relativas o

porcentajes de una población o muestra

perteneciente a diferentes categorías.

Como sabemos, un círculo contiene 360 grados. Para

construir un gráfico sectorial, se multiplica por 360 la

frecuencia relativa de cada categoría, para obtener la

medida del ángulo correspondiente

Estadística Descriptiva

El reporte de la inspección final de defectos para la línea de armado A12

se muestra en la tabla siguiente: Defectos_Linea A12

Frecuencia absoluta n i

Frecuencia Relativa

f i = inn

8 0,05

23 0,15

56

150 1,00

Complete la tabla de frecuencias

): Número de veces que ocurre la modalidad i. i = 1,2, …,k

): Es la proporción de la categoría o modalidad respecto del total de datos. 0 < fi < 1 ; i = 1,2, …,k

Defectos en línea de armado A12 (150 productos examinados)

Defectos del producto

¿Cuál es Defecto más frecuente? ¿Cuánto mide el ángulo de sector Defecto Manchado?

Abollado

5,33%Astillado

Manchado

37,33%

Rayado

30,00%

Otros

4,00%

Página 22

El reporte de la inspección final de defectos para la línea de armado A12

Porcentaje %

5,33

15,33

37,33

100%

. i = 1,2, …,k

): Es la proporción de la categoría o modalidad respecto del total

de sector Defecto Manchado?

Astillado

15,33%

Doblado

8,00%

Page 23: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 23

Gráfico de Barras Separadas

Defectos en línea de armado A12 (150 productos examinados)

Diagrama de Pareto

Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las causas que los generan.

Su fundamento parte de considerar que un pequeño porcentaje de las causas producen la mayoría de los efectos. Se tratar de identificar ese pequeño porcentaje de causas “vitales ” para actuar prioritariamente sobre él.

Centrales eléctricas (40). Febrero 2011

Frec

uenc

ia

60

50

40

30

20

10

0

6

45

56

12

23

8

Defecto del productoOtroRayadoManchadoDobladoAstilladoAbollado

Page 24: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 24

Defecto frecuencia % frec. Acum. % acumulado Manchado 56 37,33 56 37,33

Rayado 45 30,00 101 67,33 Astillado 23 15,33 124 82,67 Doblado 12 8,00 136 90,67 Abollado 8 5,33 144 96,00

Otros 6 4,00 150 100 TOTAL 150 100,0%

Se calculan solamente para el diagrama Pareto (en este tipo de variable)

Descripción estadística de una variable cuantitati va

TABLAS Y GRÁFICOS

Si las observaciones en un conjunto de datos cuantitativos son discretos

(contables) o si los valores de la variable asumen sólo unos pocos valores

distintos, puede ser apropiado armar tablas de frecuencia con valores únicos.

La distribución de frecuencias (tabla)

- La distribución de frecuencias para variables cuantitativas discretas es

similar a la de variables cualitativas. Los valores que toma la variable se

ordenan de de menor a mayor lo que permite registrar en la tabla las

frecuencias acumuladas. La representación gráfica que se utiliza para este

tipo de variables es “barras separadas”

Distribución de frecuencias de la variable X

Nombre de la variable

X

Frec. Absoluta

n i

Frec. Relativa

ii

nf =

n

Frec. Abs. Acumulada

Ni

Frec. Relat. Acumulada

ii

NF=

n

x1 n1 f1 N1 = n1 F1 x2 n2 f2 N2 = n1 + n2 F2 x3 n3 f3 N3 = n1 + n2 + n3 F3

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. xk nk fk Nk = n Fk = 1

Total n 1

xi= valor que toma la variable. i= 1,2, …,k

Page 25: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 25

Variable X =

Unidad de observación =

• ¿Cuántas centrales tienen menos de 2 averías?

• ¿Qué porcentajes de centrales tienen 3 o menos averías?

• Qué porcentaje de centrales tienen más de 3 averías?

• Interprete:

n2 ≡

f3 ≡

N° de averías43210

1

5

8

1313N° de centrales

12

10

8

5

2

0

Ejemplo 2 : (p 18) Datos sobre el número de averías de 40 centrales eléctricas en Feb.2012 se resumen en la tabla siguiente: N° de averías Frec.

Absoluta ni

Frec. Relativa

fi

Frec. Abs. Acumulada Ni

Frec. Relat. Acumulada

Fi

0 13 13 0,325 1 13 26 2 3 5 4 1 40

Total 40 1,000

GRÁFICO DE BARRAS SEPARADA

Page 26: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 26

Cuando la variable es continua o el número de valo res posibles de una variable discreta sea grande, para construir la t abla de frecuencias, conviene agrupar los datos intervalos reales . Éstos agrupan todos aquellos casos contenidos entre dos valores, conoci dos como el límite superior e inferior.

Ejemplo: (p 21) En abril. 2012 se recolectó información sobre la edad (en años) de 50 estudiantes seleccionados de una casa de estudio superior. El valor de los datos, en el orden en que fueron recolectados se presenta a continuación. (Este es un ejemplo de datos cuantitativos en bruto)

21 24 29 26 36

18 19 19 25 25

25 31 23 23 23

22 21 22 21 19

25 18 27 21 21

19 25 34 27 33

20 22 19 22 23

19 19 18 19 26

28 20 22 20 21

23 36 23 25 24

Construyendo tablas de frecuencias

Al construir tablas de frecuencias es necesario tomar las siguientes 3 decisiones:

i) Número de clases (intervalos) Usualmente el número de intervalos de una distribución de frecuencias varía entre 5 y 20, dependiendo principalmente del número de casos con los cuales se cuente. La decisión del número de clases es decidida arbitrariamente por quien organiza la información. Reglas que puede ayudar a decidir el número de clases o intervalos: - Número de intervalos = n ; n = número de datos, o - Número de intervalos = [1 + 3,3· log n] (fórmula de Sturge) ii) Amplitud de intervalo: Aunque no es común tener clases o intervalos

de diferentes tamaños o amplitud, la mayoría del tiempo es preferible tener la misma amplitud de intervalo en todos ellos.

Para determinar esta amplitud cuando las clases o intervalos tienen el mismo tamaño, primero se debe encontrar la diferencia entre el mayor y el menor de los datos en los datos. Luego, la amplitud aproximada es obtenida dividiendo esta diferencia por el número deseado de clases o intervalos.

Page 27: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 27

valor máximo - valor mínimoAmplitud del intervalo =

número de intervalos

iii) Límite inferior de la primera clase o punto de partida

Cualquier número que sea igual o menor que el más bajo de los valores del conjunto de datos será conveniente para ser usado como el límite inferior del primer intervalo.

En el ejemplo (Edad): n = 50 máx = 36 mín = 18

Si utilizamos número de intervalos = [1 + 3,3· l og (50)] = 6

Amplitud = 36 18

= 36

Se lee

Edad

n° de alumnos

14 alumnos con edades entre 18 y menos de 21 años 18 – 21 14 17 alumnos con edades entre 21 y menos de 24 años 21 – 24 17

24 – 27 10 27 – 30 4 30 – 33 1

4 alumnos con edades entre 33 y 36 años 33 – 36 4 Total = 50

Frecuencias relativas y porcentaje

Es posible calcular la frecuencia relativa y el porcentaje de las distribuciones cuantitativas del la misma forma que en las distribuciones cualitativas o discretas.

Edad Marca de clase xi

Frec. Absoluta ni

Frec. Relativa fi

Porcentaje

18 – 21 19,5 14 0,28 28 21 – 24 22,5 17 0,34 34 24 – 27 25,5 10 0,20 20 27 – 30 30 – 33 33 – 36

Total = 50 1,00 100% También se pueden registrar las frecuencias acumu ladas

limite inferior + limite superiormarca de clase =

2

Page 28: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 28

Representación gráfica de distribuciones de frecu encias con datos en intervalos

Las representaciones gráficas más frecuentes de una tabla de frecuencias donde los datos han sido agrupados en intervalos son el histograma o el polígono de frecuencias .

Edad en años

Muestra de 50 estudiantes de una universidad (abril 2012)

Donde cada rectángulo corresponde con una clase y la altura es proporcional a la frecuencia de dicha clase o intervalo.

Formas de histogramas

Un histograma puede asumir diferentes formas. Las más comunes son: simétricos, asimétricos y uniforme o rectangular.

Simétrico Asimetría Positiva Asimetría Negativa

Interprete los tres histogramas

Edad393633302724211815

N° estudiantes

20

15

10

5

0

4

1

4

10

17

14

Histograma

x

32.527.522.517.512.57.52.5

Simétrica10

8

6

4

2

0

X

32.527.522.517.512.57.52.5

10

8

6

4

2

0

X

32.527.522.517.512.57.52.5

10

8

6

4

2

0

Page 29: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 29

Observación : Describir datos utilizando gráficos puede ayudar a iluminarnos acerca de las características principales de la información. Desafortunadamente, también pueden ser utilizados, casual o intencionadamente, para distorsionar información y desorientar a quien la recibe. Las siguientes son dos formas de hacerlo: 1. Cambiar la escala en uno o en ambos ejes (esto es alargando o acortando los ejes) 2. Truncando las frecuencias, es decir, comenzando el eje en un número mayor que

cero. Polígono de frecuencias

Gráfico alternativo al histograma Los polígonos de frecuencias se realizan trazando los puntos formados por las marcas de clase y las frecuencias, y uniéndolos mediante segmentos .

Polígono de frecuencias (Edad en años)

Muestra de 50 estudiantes de una universidad (abril 2012)

Edad39,037,536,034,533,031,530,028,527,025,524,022,521,019,518,016,515,0

N° alumnos

20

15

10

5

00

4

1

4

10

17

14

0

Page 30: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 30

Ejercicios II

En cada uno de los siguientes ejercicios debe indic ar cuál es: unidad de observación, la variable de interés y clasificarla según naturaleza , T_recorrido y N_medición.

Ejercicio II-1

El Ingeniero a cargo del control de calidad del agua de una ciudad, es responsable del nivel de cloración del agua. Dicho nivel debe acercarse bastante al que exige el Departamento de Sanidad. Para vigilar el cloro, sin necesidad de verificar cada galón de agua que sale de la planta, el Ingeniero muestrea diariamente algunos galones, mide el contenido de cloro y saca una conclusión sobre el nivel promedio de cloración que tiene el agua tratada ese día. La tabla anexa exhibe las concentraciones de cloro correspondiente a 30 galones seleccionados como muestra de un día. A partir de esta muestra diaria el Ingeniero obtiene sus conclusiones respecto a la población total a la que se le aplicó la cloración.

Diagrama de “tallo-hojas”

Tabla de Concentraciones de Cloro en partes por millón (ppm)

16.2 15.7 16.4 15.4 16.4 15.8 16.0 15.2 15.7 16.6 15.8 16.2 15.9 15.9 15.6 15.8 16.1 15.9 16.0 15.6 16.3 16.8 15.9 16.3 16.9 15.6 16.0 16.8 16.0 16.3

(Utilice una amplitud de 0.3 ppm).

Construya una tabla de distribución de frecuencias y un gráfico adecuado.

Ejercicio II-2

En un centro de computación, el número de veces que el computador se detiene, por error de máquina, diariamente, fue recolectado por un período de 70 días. Los datos obtenidos fueron los siguientes.

Nº de detenciones del computador por día. 0 1 0 2 0

0 8 3 2 1

2 5 1 0 6

0 0 1 0 4

0 0 0 0 3

0 4 1 1 3

3 3 0 2 1

3 0 1 1 2

0 6 1 2 4

0 2 0 0 0

1 0 2 0 2

0 2 2 5 0

0 3 1 2 0

0 0 0 1 4

- Tabule y grafique los datos adecuadamente. ¿Cuál es la proporción de días en que ocurren más de 3 detenciones?

Stem-and-Leaf Plot Frequency Stem & Leaf ,00 15 . 1,00 15 . 2 1,00 15 . 4 5,00 15 . 66677 7,00 15 . 8889999 5,00 16 . 00001 5,00 16 . 22333 2,00 16 . 44 1,00 16 . 6 3,00 16 . 889 Stem width: 1,0 Each leaf: 1 case(s)

Page 31: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 31

Ejercicio II-3

Un fabricante de envases de plástico desea analizar cuáles son las causas que generan los envases defectuosos que se producen. Se observan 248 envases defectuosos obteniendo:

Coloque los n i en las barras. Interprete el gráfico

Ejercicio II-4

En un proceso de fabricación de circuitos integrados las causas más comunes de fallas son: la contaminación (1), óxido(2), metalización (3), la corrosión(4), doping (5) ,los defectos del silicio (6) y varios (7). En un proceso de control de calidad de estos circuitos las causas de falla de 31 de ellos han resultado las siguientes:

corrosión óxido contaminación óxido

óxido varios óxido contaminación

metalización óxido contaminación contaminación

óxido contaminación contaminación contaminación

corrosión silicio varios contaminación

contaminación contaminación varios contaminación,

contaminación doping óxido óxido

metalización contaminación contaminación

Se pide: Construir una distribución de frecuencias y confeccione dos gráficos adecuados.

Ejercicio II-5

Al responsable en control de industrial de una empresa, debe analizar información entregada en un

Defectos

ColorFuera de medida

RoscaRoturaDesbalanceoAplastamiento

Frec

uenc

ia

100

80

60

40

20

0

Porcentaje

100%

80%

60%

40%

20%

0%

100,00%99,60%97,18%92,34%

76,61%

60,48%

Diagrama de Pareto

Page 32: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 32

histograma de la duración (tiempo hasta fallo en horas) de un test de fiabilidad 150 dispositivos electrónicos idénticos.

a. Construya la tabla de frecuencias (absolutas, relativas, absolutas acumulada y relativas

acumulada) b. Aproximadamente, ¿cuál es la duración más frecuente? c. ¿Qué porcentaje de dispositivos duraron entre 600 y menos de 1400 horas? d. ¿Qué porcentaje de dispositivos duraron menos de 900 horas? (aprox.) e. ¿Qué porcentaje de dispositivos duraron entre 400 y 1500 horas? (aprox.) f. Determine entre que valores de duración se encuentran el 50% de los dispositivos con

mayor duración. | 50% | 50% | Duración (hrs) 0 1600 Mín Máx

g. Complete la tabla siguiente y realice un gráfico adecuado:

Duración Frecuencia Porcentaje Poca ( < 400 h) Media (400 y menos de 1000 h) Bastante ( > 1000 h)

Total 150 100 Ejercicio II-6

Se seleccionaron de un proceso de fabricación, aleatoriamente 270 ladrillos y se llevó a

Duracion2000180016001400120010008006004002000

de dispositivos

60

50

40

30

20

10

0

336

182121

27

51

Histograma

Page 33: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 33

cabo una prueba para determinar la resistencia transversal de éstos. Se obtuvieron los siguientes datos:

Resistencia (MN/m 2) X

n i

1.5 – 3.5 3.5 – 4.5 4.5 – 5.5 5.5 – 6.5 6.5 – 7.5 7.5 – 8.5 8.5 – 9.5 9.5 – 10.5 10.5 – 11.5 11.5 – 14.5

2 4 24 81 78 51 18 9 2 1

• Construya un gráfico adecuado

El histograma es especialmente adecuado para repres entar tablas de frecuencias en el caso de variables de de nivel por lo menos interval ar (o discretas con un gran número de valores observados distintos). Este gráfico consist e en una serie de barras adyacentes cuyas superficies son proporcionales a la frecuenci a del intervalo sobre el cual se levantan . Si los intervalos son de igual amplitud, los rectán gulos serán de altura proporcional a la frecuencia correspondiente. Es decir, si la amplitu d del i-ésimo intervalo es a i y su frecuencia n i la barra deberá tener una altura h i que satisfaga :

i i i

ii

i

a ·h = k·n

n h = k

a

donde k es cualquier constante, aunque la misma para cada intervalo. ni ≡ frecuencia absoluta del intervalo i; hi ≡ frecuencia absoluta corregida

Se corrige la frecuencia solamente para graficar el histograma, cuando existen intervalos de distinta amplitud (no es usual intervalos de distinta amplitud)

• Determine el porcentaje de ladrillos con resistencia inferior a 8,5 MN/m2

• Determine el porcentaje de ladrillos con resistencia superior a 5 MN/m2

Page 34: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 34

Ejercicio II-7 En un estudio sobre el nivel de ruido en un concierto de rock se toma una muestra de 60 valores, medidos en decibelios y en distintos momentos del concierto. Los datos obtenidos se encuentran el el diagrama tallo-hojas siguiente

NIVEL DE RUIDO

Frequency Stem & Leaf 1,00 8 . 3 3,00 8 . 789 22,00 9 . 0000111123333334444444 21,00 9 . 555566677777777889999 11,00 10 . 00001122234 2,00 10 . 57

Encuentre: • Valor mínimo • Valor máximo • El % de mediciones inferior a 91 db. • El % de mediciones superior a 100 db.

Ejercicio II-8

Con el propósito de mejorar el tiempo de entrega desde una embotelladora de refrescos a máquinas vendedoras de una universidad, se ha obtenido 40 datos.

X:Tiempo de entrega en minutos

9,45 24,45 31,75 35,00 25,02 16,86 14,38 9,60 24,35 37,50 17,08 37,00 41,95 11,66 21,65 17,89 69,45 10,30 34,93 46,59 44,88 54,12 56,63 22,13 21,15 10,02 14,88 16,97 17,73 21,84 24,45 33,66 37,10 39,73 44,29 55,12 56,63 29,41 24,45 9,45

Organice los datos en una tabla de frecuencias con igual amplitud y confecciones un gráfico adecuado

Tiempo de entrega (min)

xi

Frecuencia Absoluta

ni

Porcentaje

9,45 - 19,45 14,45 13 32,5

59,45 - 69,45 64,45 1 2,5

Total 40 100,0

Page 35: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 35

Ejercicio II-9 En el departamento de montaje de una industria se producen diariamente cierta cantidad de productos defectuosos. Para estudiar ese fenómeno se decidió realizar un análisis de Pareto. Durante cuatro meses de observación se recogieron datos sobre el tipo de defectos de los productos y se contabilizaron un total de 350 defectos.

a. ¿Qué representa el 84% (polígono)?

b. Complete la tabla de frecuencias siguiente: Tipo de defectos N° de defectos porcentaje

Piezas erróneas Revestimiento arañado Montaje defectuoso Pieza faltante Rugosidad superficial Otras causas

Total

N° de defectos

100

80

60

40

20

0

Porcentaje

100%

80%

60%

40%

20%

0%

100%98%

92%

84%

74%

42%

Tipos de defectos

Otras causasRugosidad superficial

Pieza faltanteMontaje defectuoso

Revestimiento arañado

Piezas erróneas

Page 36: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 36

Medidas de Resumen

Entre las medidas que permiten resumir información proveniente de una

población o muestra, podemos considerar: medidas de posición, de dispersión o

variabilidad, de forma y de asociación

Medidas de posición : Tendencia Central - Percentiles

Tendencia Central: Moda - Promedio - Mediana

Son índices de localización central, empleados en la descripción de las

distribuciones de frecuencias. Las más usadas son la moda, la mediana y el

promedio.

Moda (M o) : Es el valor de la variable que ocurre más frecuentemente

Ejemplo (variable cualitativa): En una empresa se ha medido la satisfacción

laboral de una muestra de empleados.

Satisfacción Laboral Nº de empleados

Muy satisfechos 20

Satisfechos 25

Moderadamente satisfechos 22

Insatisfechos 18

Muy insatisfechos 10

En este caso la moda corresponde a la categoría “satisfechos”. Mo = satisfechos

Si la variable se encuentra es cuantitativa, la moda será la magnitud más frecuente.

Ejemplo (variable cuantitativa) : En la medición de responsabilidad en un grupo de

postulante a un cargo de ejecutivo, se han encontrado los siguientes puntajes : 81, 83,

83, 85, 86, 86, 87, 88, 90, 91, 92, 94, 95, 95, 95, 95, 96, 96, 97, 99, 101, 105, 107, 108,

109, 110, 115, 118, 120.

En este caso, la moda corresponde al puntaje 95.

Page 37: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 37

Y si los datos están agrupados en intervalos de clase, la moda será el punto medio del

intervalo más frecuente. La moda para datos agrupados en intervalos en tablas de

frecuencia, no es un valor exacto porque varía con las diferentes maneras de agrupar

una distribución.

Ejemplo : El sueldo mensual de un grupo de trabajadores textiles se distribuye como

indica la tabla a continuación.

Sueldo Marca de clase x i

Nº de trabajadores n i

300.000 – 350.000 325.000 13

350.000 – 400.000 375.000 18

400.000 – 450.000 425.000 24

450.000 – 500.000 475.000 20

500.000 – 550.000 525.000 15

En este caso la moda es 425.000 pesos, por ser el punto medio del intervalo más

frecuente.

A menudo encontramos distribuciones bimodales (con dos modas).

Limitación de la moda: no sabemos qué ocurre con el resto de la distribución de

datos.

Promedio Aritmético (o media Aritmética)

La media aritmética o promedio aritmético :

En general se utiliza letras mayúsculas para denotar a las variables, y

letras minúsculas para los valores que toma las variables (datos).

Sea X la variable cuantitativa de interés y sea x1, x2, …, xn los n valores

que posee dicha variable. El promedio aritmético se obtiene sumando los

valores de X y dividiendo luego por el número de datos. n

i1 2 3 n i =1

xx +x +x ...+x total

x = = n n n

=∑

Page 38: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 38

Ejemplo : Los siguientes valores indican el tiempo necesario en minutos para

llegar a su trabajo de un grupo (muestra) de 15 empleados de un ministerio

público.

25 30 50 60 35 65 48 90 75 50 22 45 25 35 50

X = Tiempo necesario en min. para llegar al trabajo

n = 15 Sumatoria =∑

=

n

1i

ix = 705 705

x = 15

= 47 min

Observación: La media de la población se define de la misma forma que

la media muestral pero se utiliza el símbolo µµµµ para denotarla:

µµµµ

N

i

1 2 3 Ni 1

xx +x +x ...+x

N N

total

N

== = =∑

Si los datos se encuentran en una distribución de f recuencias, es

necesario modificar la fórmula : n

nx

x

k

1i

ii∑== donde x i representa el

valor de la variable si es discreta o la marca de c lase si los datos

están tabulados en k intervalos.

Ejemplo: En un estudio de consumo de frutas, se entrevistó a 250 personas, una

de las preguntas realizadas fue ¿aproximadamente, cuantas frutas consumes

diariamente? La información obtenida a esa pregunta se muestra a

continuación:

n = 250

i ii

xn =∑

x =

= 2,184 frutas

Cantidad de frutas

Xi

nº de personas n i

i ix n⋅ 0 1 2 3 4 5

22 50 90 49 26 13

0 50

180 147 104 65

Total n = 250

Page 39: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 39

Ejemplo: Datos agrupados en intervalos (datos secundarios )

Sueldo mensual (X) de un grupo de trabajadores textiles.

Sueldo (miles de $)

Marca de clase x i

Nº de trabajadores n i

xini

300 – 350 325 13 4225

350 – 400 375 18

400 – 450 425 24

450 – 500 475 20

500 – 550 525 15 7875

Total 90 38550

X = Sueldo mensual

n Total = i ii

xn ∑ x 90 38550 38550

= 428,3390

≡ $428.333

Propiedades de la media aritmética o promedio aritm ético :

i. mínimo < x < máximo ii. El promedio de una constante es la constante. (demostración tarea)

iii. Si a los valores de una variable se les suma una constante, el promedio aumenta en esa misma magnitud. (demostración tarea)

iv. Si los valores de una variable son multiplicados por una constante, el promedio se amplificarán en la misma magnitud constante.

a, b ctesY = a + bX Y = a + bX ; .⇒ (Demostración tarea)

Del ejemplo anterior : Si a los trabajadores de la empresa textil le aumentan el sueldo en:

Complete

(Caso 1) $50.000,0 (Caos 2) 15% (caso 3) 7% + un bono fijo de $30.000 Sueldo actual

Y(1) = X + 50

(1) = Y

Y(2) = 1,15X

(3) = Y

Y(3) = 1,07X + 30

(3) = Y (m $)x = 428,333

Y = Sueldo aumentado

Page 40: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 40

Mediana (Me)

Mediana : es un valor tal que, ordenados en magnitud los n datos de una

variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.

Para el cálculo de la mediana la variable debe ser por lo menos ordinal

En datos no agrupados (directos), con n impar, el valor central es la mediana.

Ejemplo : 3, 5, 7, 8, 9, 12, 13, 15, 20. n = 9 datos. La mediana es el valor 9.

Se puede observar que la mediana es el valor que ocupa el lugar 1+ n

2

En datos no agrupados con n par , el valor de la mediana será el punto medio

entre los dos valores centrales.

Ejemplo : 5, 7, 9, 10, 14, 16, 17, 18. n = 8 datos; la mediana es el valor 12.

Es preciso ordenar los datos de menor a mayor para hacer el cálculo.

Ejemplo : Datos tabulados. Variable discreta

"X: Número de avería diarias en un taller

X

Frec. abs .

ni

Frec. abs. acum. Ni

0 1 2 3 4 5 6

40 26 14 6 3 0 1

40 66

Total n = 90

El valor de la mediana en datos tabulados (agrupado s) en intervalos

se analizará junto con el tema PERCENTILES. El cál culo de la M e es

aproximado y se determina a través de una fórmula q ue se obtiene de

la tabla de distribución de frecuencias acumuladas.

Me es el valor que ocupa el

lugar 1+ n= 45,5

2

Mediana = 1 avería.

Interpretación:

Page 41: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 41

Comparación entre x , Me y Mo

Desde un punto de vista descriptivo las tres medidas proporcionan

información complementaria, sus propiedades son distintas:

Estadísticos de tendencia central Observaciones

Media aritmética

x

n

ii =1

xtotal

x = = n n

- El nivel de medición de la variable X sea por lo menos en escala de intervalos.

- La media es muy sensible cuando existen datos atípicos o extremos.

- Es preferible utilizar el promedio aritmético como medida de resumen si los datos son homogéneos.

Mediana Me

Es un valor tal que, ordenados en magnitud los n datos de una variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.

- La mediana utiliza menos información que la media, ya que solo tiene en cuenta el orden de los datos y no su magnitud, por lo tanto, para poder calcular la mediana el nivel de medición de la variable X debe ser por lo menos en escala ordinal.

- La mediana se ve menos alterada por los datos atípicos o extremos.

Moda Mo

Es el valor de la variable que ocurre más frecuentemente

- Para el cálculo de la moda la variable puede tener cualquier nivel de medición, luego es la única medida de tendencia central que se puede calcular si el nivel de medición de la variable X es en escala nominal.

X ≠≠≠≠ Mediana ⇒⇒⇒⇒ asimetría, lo que sugiere heterogeneidad en los d atos.

∴∴∴∴ en este caso la Mediana es la medida de tendencia central adecuada para resumir los datos.

Page 42: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 42

Simétrica

X = Me = Mo

Asimetría positiva

Mo < Me < X

Asimetría Negativa

X < Me < Mo

Ejercicios III

Ejercicio III-1

Un fabricante de un dispositivo para cierto artículo electrónico informa en su propaganda que la vida útil de su producto es superior a 5 años. Una muestra aleatoria de 90 unidades vendidas hace 10 años, reveló la siguiente distribución de las duraciones:

Duración Frecuencia 0 - 2 10 2 – 4 20 4 – 6 25 6 – 8 22

8 – 10 13

a. Determine la duración promedio b. ¿Qué porcentaje de unidades duraron más de 5 años? Aprox.

Ejercicio III-2 En la fabricación de semiconductores, a menudo se utiliza una sustancia química para quitar el silicio de la parte trasera de las obleas antes de la metalización. En este proceso es importante la rapidez con la que actúa la sustancia. Se han comparado dos soluciones químicas, utilizando para ello dos muestras de obleas para cada solución. La rapidez de acción observada es la siguiente

Solución 1: 9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1 Solución 2: 10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3

a. Indique cuales son las variables involucradas en el problema y clasifíquelas.

b. Complete el cuadro siguiente (realice comentarios):

Solución n Promedio Mediana 1 2

aaaaaaa

x

32.5 27.5 22.5 17.5 12.5 7.5 2.5

Simétrica

10

8

6

4

2

0

X 32.5 27.5 22.5 17.5 12.5 7.5 2.5

10

8

6

4

2

0

X

32.527.522.517.512.57.52.5

10

8

6

4

2

0

Page 43: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R.

Ejercicio III-3

Media Ponderada o Promedio Ponderado

Sean x1 ,x2,....,xn , n datos y sea los número wcada xi i = 1,2,....n; con a lo menos un w

datos, está dado por:

Si cada observación tiene la misma ponderación, entonces el promedio y el promedio ponderado son iguales.

Ejemplo: Las notas parciales de Estadística I de un alumno son:

P1 (25%)

4,2

Promedio =

Ejercicio III-4

Promedio estratificado

X = Sueldo mensual (miles de $)

Planta Santiago (1)Promedio

1xN° de trabajadores

(suponga que se observó una muestra representativa de cada planta)

k

i i

i=1estr

n x

X = = n

Estadística Descriptiva

Media Ponderada o Promedio Ponderado

, n datos y sea los número w1 ,w2,....,wn, los pesos correspondiente a i = 1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los

i cada observación tiene la misma ponderación, entonces el promedio y el promedio

: Las notas parciales de Estadística I de un alumno son:

(25%) P2 (35%) P3 (40%)

5,7 2,1

X = Sueldo mensual (miles de $)

Santiago (1) Concepción (2) Antofagasta (3)

1x = 568,320 2x = 665,210 3x = 480,715

n1 = 215 n2 = 180 n3 = 96n = n1 + n2+ n3

(suponga que se observó una muestra representativa de cada planta)

Página 43

, los pesos correspondiente a > 0. Entonces el promedio ponderado de los

i cada observación tiene la misma ponderación, entonces el promedio y el promedio

Antofagasta (3) 480,715

= 96

Page 44: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 44

Cuartiles – Quintiles – Deciles - PERCENTILES

Son medidas estadísticas que dividen una serie ordenada de observaciones en 4, 5, 10, 100 partes iguales. Si dividimos en 4 partes iguales, tenemos los cuartiles (Qk) 1, 2 y 3. Cada parte le corresponde un 25%. | 25% | 25% | 25% | 25% | Mín Q1 Q2 Q3 Máx Si dividimos en 5 partes iguales, tenemos los quintiles (qk) 1, 2, 3 y 4. Cada parte le corresponde un 20%. | 20% | 20% | 20% | 20% | 20% | Mín q1 q2 q3 q4 Máx

Si dividimos en 10 partes iguales tenemos los deciles (Dk) Los Percentiles Pp son los valores que dividen un conjunto de datos ordenados de menor a mayor en 100 partes con igual (aproximadamente) número de datos.

p% (100 - p)% | | |

x(1) Pp x(n) Mín Máx

Si dividimos en 10 partes iguales tenemos los deciles (D) y en 100 partes iguales , los percentiles (Pp).

p% (100 - p)%

| | |

x(1) Pp x(n)

Mín. Máx.

Entre mín y Pp se encuentra el p% de los datos o entre Pp y máx se

encuentra el (100 – p)% de los datos.

Page 45: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 45

Recordemos se dividimos la serie de datos ordenada en dos partes iguales, tenemos

la mediana (Me)

Tenemos: Q1 = P25 Me = Q2 = D5 = P50 Q3 = P75

q1 = D2 = P20

q2 =

q3 =

q4 =

Cálculo de Percentiles (datos directos)

Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por 14 alumnos en un examen de Física II. (0 – 100 puntos)

84 52 85 61 74 77 65 63 57 64 72 55 68 76

Diagrama de puntos

Puntaje

Cálculo percentiles Pp

En la definición de percentil en un conjunto de datos “es el valor tal que el p% de los datos es menor o igual que él y el (100 – p)% de los datos es superior o igual a él”, puede que ningún valor cumpla exactamente la definición. Existen diversas formas de interpolar para el cálculo del Pp, en este curso vamos a utilizar el método AEMPIRAL explicado en la página 22 de texto “Probabilidad y Estadística”. Douglas C. Montgomery y George C. Runger (1996)

1ro) Se ordenan los n datos de menor a mayor

2do) Pp es el valor que ocupa el lugar j = np

100 . El método AEMPIRAL asigna la media

de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que ocupa la

posición siguiente a la parte entera de j cuando j = np

100 es un número decimal

Del ejemplo: P50 n = 14 p = 50 → percentil 50 está se encuentra en el

lugar j= 14 50 = 7

100

⋅ → P50 = 65 682+ = 66,5 = Me ≡ “el 50% de los estudiante

obtuvieron puntaje entre 52 y 66,5 puntos”

Page 46: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 46

- ¿Entre qué valores e encuentra el 25% de los mejores puntajes?

- Determine el percentil 75 e interprete. (Resp: P75 = 76 AEMPIRAL)

Cálculo de percentiles datos tabulados en intervalo s:

Los valores que toman los percentiles cuando tenemos la información agrupada

(intervalos reales) en una tabla de frecuencias de una variable cuantitativa son

aproximados.

Mediante interpolación lineal en el gráfico de frecuencias acumulada (ojiva) se

llega a la fórmula del percentil.

Puntaje en un test de aptitud

DISTRIBUCIÓN DE FRECUENCIA ACUMULADA

Puntaje X

Frec. Abs. Acumulada Ni

< 15 0 < 20 8 < 25 15 < 30 29 < 35 35 < 40 38 < 45 40

Puntaje X

N° de sujetos

ni

Frecuencias acumuladas Ni

(absoluta) Fi

(relativa)

15 – 20 8 8 0,200

20 – 25 7 15 0,375 j 25 – 30 14 29 0,725

30 – 35 6 35 0,875 35 – 40 3 38 0,950 40 – 45 2 40 1,000

n = 40

n = 40

lugar np

100=

n 5020

100⋅ =

el percentil 50 o mediana aproximadamente se encuentra en el lugar 20, observando la columna Ni de frec. acumuladas o el gráfico ojiva, el valor que ocupa el lugar 20 se encuentra en el tercer intervalo.

P50 = Me ∈ [25, 30)

Page 47: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 47

OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS)

Puntaje

P50 ∈ [25, 30) ← 25 es el límite inferior del intervalo j

30 – 25 = 5 es la amplitud del intervalo j

intervalo j Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j

frec. abs. acumulada anterior al intervalo j es 15

La fórmula que entrega la interpolación lineal pa ra el cálculo de percentiles con datos agrupados en intervalos reales es:

j-1p inf j

j

np100 - N

P = lim +amplitudnj

Aplicando la fórmula de percentil para datos agrupados

50

20 15P 25 5 26,79

14puntos

− = + ⋅ =

Interpretación …………………………….

- Suponga que al 15% de los puntajes más altos pasan a una segunda etapa, ¿a partir de qué puntaje se va a realizar el corte para seleccionar a dichos sujetos?.

- Determine e interprete el valor del percentil 10.

Interpolando

Linealmente, se

obtiene

Se utiliza cuando no se

tienen los datos de cada

unidad de observación

Page 48: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 48

Ejercicios IV

Ejercicio IV-1

El responsable en control de industrial de una empresa somete a un test de fiabilidad 150 dispositivos electrónicos idénticos y anota su duración (tiempo hasta fallo en horas).

La recogida de datos lleva al histograma siguiente:

a. Indique la variable de interés y clasifíquela según naturaleza, tamaño del recorrido y nivel de medición.

b. ¿Entre qué valores se encuentra el 30% de los dispositivos de mayor duración? c. ¿Qué porcentaje de dispositivos tienen duración entre 200 y menos de 1000

horas? d. ¿Qué porcentaje de dispositivos tienen duración entre 600 y 950 horas? e. Dibuje en el histograma el tiempo medio de fallo, la mediana y la moda . f. ¿El promedio es una medida adecuada para resumir la duración de los

dispositivos? Justifique su respuesta.

Duracion2000180016001400120010008006004002000

de dispositivos

60

50

40

30

20

10

0

336

182121

27

51

Histograma

Page 49: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R.

Ejercicio IV-2

En una industria, se realizan periódicamente un análisis de la medición del trabajo con el fin de determinar el tiempo requerido para generar una unidad de producción. En una planta de procesamiento se registró durante 20 días el número de horastotales requeridas para realizar cierta tarea. Los datos recogidos son:

128 119 95 97 113 109 124 132 146 128 103 135124 131 133 131 100 112 111 150

a) Determine las medidas de tendencia central. Interpreta resultados.b) ¿Cuánto tiempo (horas-trabajador) requieren como máximo el 25% de los días que

demoraron menos en realizar la tarea?. ¿Cuánto tiempo (horascomo mínimo el 25% de los días con mayor demora en realizar la tarea?

c) Indique qué medida de tendencia centrald) Determine el valor de (cuartil 3 e) Construya un diagrama de caja (gráfico basado en los cuartiles)

Gráfico de cajas (Tukey fue su creador)

Es un gráfico que suministra información sobre los valores mínimo y máximo, los

cuartiles de Tukey Q1, Q2 o mediana Q3, la existencia de valores atípicos y la

simetría de la distribución.

• Es necesario tener datos directos (sin agrupar en intervalos) para realizar el gráfico de cajas.

• Este gráfico es útil para hacer conjuntos de datos.

• La primera bisagra de Tukey (similar al cuartil 1) es el valor que ocupa la posición intermedia entre la mediana el valor más pequeño de la distribución; la segunda bisagra es la mediana; la tercera bisagra (simal cuartil 3) es el valor que ocupa la posición intermedia entre la mediana y el valor más grande de la distribución.

Estadística Descriptiva

realizan periódicamente un análisis de la medición del trabajo con el fin de determinar el tiempo requerido para generar una unidad de producción. En una planta de procesamiento se registró durante 20 días el número de horas

s para realizar cierta tarea. Los datos recogidos son:

128 119 95 97 113 109 124 132 146 128 103 135124 131 133 131 100 112 111 150

Determine las medidas de tendencia central. Interpreta resultados. trabajador) requieren como máximo el 25% de los días que

demoraron menos en realizar la tarea?. ¿Cuánto tiempo (horas-trabajador) requieren como mínimo el 25% de los días con mayor demora en realizar la tarea?

tendencia central puede ser representativa l valor de (cuartil 3 – cuartil 1). ¿Cómo puede interpretar esa diferencia?

Construya un diagrama de caja (gráfico basado en los cuartiles)

(Tukey fue su creador)

Es un gráfico que suministra información sobre los valores mínimo y máximo, los

Q1, Q2 o mediana Q3, la existencia de valores atípicos y la

simetría de la distribución.

Es necesario tener datos directos (sin agrupar en intervalos) para realizar

Este gráfico es útil para hacer comparaciones rápidas entre 2 o más

La primera bisagra de Tukey (similar al cuartil 1) es el valor que ocupa la posición intermedia entre la mediana el valor más pequeño de la distribución; la segunda bisagra es la mediana; la tercera bisagra (simal cuartil 3) es el valor que ocupa la posición intermedia entre la mediana y el valor más grande de la distribución.

Se sabe que un dato es atípico, si su valor no se encuentra en el

(Q1 – 1,5⋅⋅⋅⋅RI , Q3 + 1,5

RI = Q3 – Q1

Página 49

realizan periódicamente un análisis de la medición del trabajo con el fin de determinar el tiempo requerido para generar una unidad de producción. En una planta de procesamiento se registró durante 20 días el número de horas-trabajador

128 119 95 97 113 109 124 132 146 128 103 135

trabajador) requieren como máximo el 25% de los días que trabajador) requieren

como mínimo el 25% de los días con mayor demora en realizar la tarea?

cuartil 1). ¿Cómo puede interpretar esa diferencia?

Es un gráfico que suministra información sobre los valores mínimo y máximo, los

Q1, Q2 o mediana Q3, la existencia de valores atípicos y la

Es necesario tener datos directos (sin agrupar en intervalos) para realizar

rápidas entre 2 o más

La primera bisagra de Tukey (similar al cuartil 1) es el valor que ocupa la posición intermedia entre la mediana el valor más pequeño de la distribución; la segunda bisagra es la mediana; la tercera bisagra (similar al cuartil 3) es el valor que ocupa la posición intermedia entre la mediana y

Se sabe que un dato es atípico, si su en el intervalo

+ 1,5⋅⋅⋅⋅RI)

Page 50: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 50

MEDIDAS DE DISPERSIÓN ( O VARIABILIDAD)

Las medidas de tendencia central (promedio, mediana, moda) y los percentiles, dan información incompleta, acerca de las observaciones. Ejemplo : Los puntajes (X) obtenidos en una Test que mide capacidad de abstracción por 2 grupos de alumnos son los siguientes:

Grupo 1 4 3 5 6 4 5 5 7 5 6 Grupo 2 1 4 3 5 6 8 2 7 5 9

En ambos casos el promedio aritmético o media aritmética es 5 (x = 5) , pero sus gráficos son distintos

Diagramas de puntos

Los diagramas de ambos grupos muestran que los puntajes se distribuyen simétricamente respecto al 5, pero en el grupo 1 existe una menor dispersión que en el grupo 2, es decir, los grupos tienen igual promedio pero la variabilidad de los puntajes respecto a la media es distinta.

Las medidas de variabilidad indican la dispersión de los datos obtenidos por los sujetos o las unidades de medición. Cuando los datos están con baja dispersión se dice que es homogéneo. Cuando están altamente dispersos se dice que es heterogéneo. Las medidas de dispersión más utilizadas son las siguientes:

Amplitud o rango o recorrido, rango intercuartílico , desviación estándar, varianza y coeficiente de variación.

Rango o recorrido: Es la distancia en la escala de medidas entre los valores mayor y menor. Rango = valor máximo – valor mínimo

En el grupo 1: rango es 7 – 3 = 4 y en el grupo 2 rango es 9 – 1 = 8 lo que implica que el segundo grupo tiene puntajes más dispersos.

Page 51: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 51

El rango utiliza poco debido a marcada inestabilidad. Si hay un valor extremo en la distribución se tendrá la impresión de que la dispersión es grande, cuando en realidad si omitiésemos ese valor podríamos concluir que es una distribución compacta. Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos

Q3 = P75 Q1 = P25

RI se usa con mayor frecuencia acompañando a la med iana cuando la presencia de valores extremos hace poco recomendabl e el uso del promedio.

Defectos. No permite hacer una interpretación precisa de un valor dentro de una distribución. No interviene en relaciones matemáticas importantes en la inferencia estadística.

Desviación estándar o desviación típica (medida de dispersión asociada al promedio aritméti co)

Es la raíz cuadrada de la media de las desviaciones al cuadrado.

Dado un conjunto (o muestra) de datos x1, x2, …,xn de una variable X con nivel de medición en escala de intervalos o de razón, se define la desviación estándar o desviación típica como el promedio de las desviaciones di de los valores xi respecto a su promedio aritmético.

Desviación está ndar :

n2

ii =1

(x - x)s =

n

La desviación estándar toma valores no negativos y mide la dispersión: a mayor desviación estándar mayor dispersión.

El cuadrado de la desviación estándar s2, se denomina varianza .

n2

i2 i 1s

(x x)

n

=

−=∑

Las desviaciones di = (xi - x )

se elevan al cuadrado para convertirlas en positivas, además recuerde que

n

ii =1

(x - x)∑ = 0

y se extrae la raíz cuadrada para que la medida resultante tenga la misma unidad de medición de la variable.

Page 52: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 52

Del ejemplo Puntaje de un Test:

Grupo 1 Grupo 2 x x - x 2(x - x) x x - x 2(x - x)

3 -2 4 1 -4 16 4 -1 1 2 -3 9 4 -1 1 3 -2 4 5 0 0 4 -1 1 5 0 0 5 0 0 5 0 0 5 0 0 5 0 0 6 1 1 6 1 1 7 2 4 6 1 1 8 3 9 7 2 4 9 4 16

Total 50 0 12 50 0 60

Grupo

n

Promedio

Desviación estándar

Varianza

1 10 50

5 ptos10

= 12 = 1,0954 ptos

10

(1,0954)2

2 10 50

5 ptos10

= 60 = 2,4495 ptos

10

(2,4495)2

Se observa que ambos grupos tienen igual promedio p ero los datos del grupo dos tienen mayor dispersión o variabilidad.

Ventajas de la desviación estándar - Permite una interpretación precisa de los valores dentro de una distribución. - La desviación como el promedio pertenece a un sistema matemático que

permite su uso en métodos estadísticos más avanzados.

Propiedades de la desviación estándar (demostración tarea) - Si se suman a todos los valores de la variable un valor constante, el

promedio queda aumentado en ese valor, pero la desviación estándar permanece igual.

- Si se multiplica cada valor original por una constante, tanto el promedio como la desviación estándar queda amplificados por ese valor.

- La desviación estándar de una constante es cero.

Page 53: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 53

i=1

2n

in2 i=1i

2

2n

i=1i

x x -

n= n-1

(x -x)

n -1 s

=∑

∑∑

Observaciones :

− Notación de la varianza poblacional

N2

i2 i 1

(x µ)σ

N=

=∑

µ media de la población, N tamaño de la población

- En algunos textos de Estadística la fórmula de la v arianza (S2) de la muestra viene dada por:

2

2i

n

i=1= (x -x)

n -1s

Si los datos se encuentran tabulados las fórmulas de la varianza y desviación estándar son:

Varianza

k2

i i2 i 1x

(x x) n

n - 1s =

=∑

k

2

i i

i 1Desviación estándar: s

(x -x) n

n - 1

==∑

xi es el valor de la variable discreta en una tabla o la marca de clase en el intervalo i (datos agrupados en intervalos reales)

Ejemplo: Cierto tipo de resistencias de película de óxido metálico son agrupadas en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el número de resistencias que no cumplían con las especificaciones, resultando la siguiente tabla

llamada varianza corregida o cuasivarianza y se utiliza en Inferencia Estadística como la estimación de la varianza poblacional σσσσ2, es la fórmula que vamos a utilizar en este curso como varianza muestral.

Page 54: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 54

X = N° de resistencia defectuosas en cada paquete

X ni i ix n⋅ 2

i i(x - x) n⋅

0 5 0 31,25 1 10 10 22,50 2 16 32 4,00 3 15 45 3,75 4 9 36 20,25 5 3 15 18,75 6 2 12 24,50

Total n = 60 150 150

x = 60

125,00

2 125s =

59 = 2,119 ← varianza

Desviación estándar s = varianza

= 2,119 1,456=

2k

i ik2 i=1i ii

i=1

2k

i=1i

x n x n - n

n= =

n -1

(x -x)

n -1

Desviación est andar: Datos tabulados

s

⋅ ⋅⋅∑

∑∑

2k

i ik2 i=1i ii

2 i=1

2k

i=1i

x n x n - n

n= = n-1

(x -x)

n -1

Varianz a: Datos tabulados

s

⋅ ⋅⋅∑

∑∑

Page 55: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 55

Coeficiente de variación (CV) : Es una medida relativa de variabilidad

XXCV =

|x|s

Se utiliza para comparar la dispersión de variables que

aparecen en unidades distintas de medición o que toman valores de magnitudes muy diferentes , ya que no depende de la unidad de medición de las variables.

Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10 sujetos

sujeto 1 2 3 4 5 6 7 8 9 10

Peso (Y) 78 75 70 68 44 66 72 95 70 74 Estatura (X) 172 175 168 178 159 166 176 180 179 171

Para analizar cuál distribución de datos es más homogénea, se debe determinar los coeficientes de variación de cada variable

Variable Media Desv. típ. CV 100*CV (% de variabilidad)

Peso (Y) 71,20 12,541 0,176 17,614% Estatura (X) 172,40 6,620 0,038 3,840%

Interpretación: La variable estatura es más homogénea (menor % de variabilidad)

Del ejemplo de resistencia de película de óxido met álico: i

2

i iix n = 150 ; x n = 500∑ ∑

2(150)500

60 1,45659

s−

= =

Page 56: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 56

Ejercicios V

Ejercicio V-1

En un banco se realizó un estudio para medir el tiempo de atención necesario para que un cliente realice una transacción entre las 12:00 y 14:00 horas. Durante una semana se tomaron los tiempos de atención de 10 clientes diariamente, obteniéndose los siguientes datos:

Tiempo de atención (min)

0 – 2 2 – 4 4 – 6 6– 8 8 – 10 10 – 12 12 -14

Cantidad de clientes 17 11 7 7 4 2 2

a. Complete el siguiente cuadro interprete los resultados

Cuartil 1 Mediana Cuartil 3 RI Moda

b. Determine (aprox.) qué porcentaje de clientes demoraron a lo más tres min en su atención.

50 p- 17

100 p = 45%11

Resp .: 3 = 2 +

c. Grafique adecuadamente la tabla de frec, y muestre la ubicación del la mediana y

promedio (realice comentarios)

Ejercicio V-2

Si a es constante, demuestre que: ( )2n

i=1(x ) es mínimo para a = xi a−∑

Ejercicio V-3

Se ha hecho un seguimiento durante una serie de días del número de mensajes spam al día que un cierto usuario recibe en su correo electrónico. Los datos obtenidos se muestran a continuación:

N° de spam diario 0 1 2 3 4 5 6 Frecuencia observada 35 42 55 40 15 10 3

a. n = (interprete)

b. Determine e interprete las medidas de tendencia central

c. Determine una medida de dispersión adecuada

d. Realice un gráfico adecuado

Page 57: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 57

Ejercicio V-4

Se realizó un estudio sobre los costos operacionales (Y), en millones de dólares anuales, en empresas de dos rubros distintos( A ; B ). Se tomaron muestras de 25 empresas de cada rubro, obteniéndose:

Rubro Y = Costo operacional ii

y∑ i

2

i

y∑

A 5,3 4,4

4,4 8,2

2,8 1,5

7,5 6,2

8,5 4,8

4,2 7,2

3,9 6,4

5,3 5,4

2,7 7,1

8,2 5,9

3,9 6,4

4,2 7,5

5,2 137,1 833,9

B 3,5 6,1

4,5 4,0

4,1 4,8

3,6 5,4

5,2 3,5

4,6 5,4

2,9 4,3

4,0 4,8

4,7 2,6

5,5 5,4

2,9 3,5

5,9 3,8

4,9 109,9 505,4

Rubro A Frecuencia Tallo & Hoja 1,00 1 . 5 2,00 2 . 78 2,00 3 . 99 5,00 4 . 22448 5,00 5 . 23349 3,00 6 . 244 4,00 7 . 1255 3,00 8 . 225 Multiplicar por 10 -1

Rubro B Frecuencia Tallo & Hoja 3,00 2 . 699 0,00 3 . 5,00 3 . 55568 4,00 4 . 0013 6,00 4 . 567889 4,00 5 . 2444 2,00 5 . 59 1,00 6 . 1 Multiplicar por 10 -1

a. Compare la dispersión de los costos de operación, entre los dos rubros.

Rubro n y s CV % de variabilidad

A B

Comentarios: b. ¿Entre qué costos operacionales se ubica el 50% central de las empresas del rubro B? c. Según estimaciones, realizadas en las empresas del rubro A, los costos operacionales

aumentarán en un 3%. Determine e interprete la nueva mediana y la nueva desviación estándar.

Page 58: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 58

Ejercicio V-5

Se toman muestras, de barras planas de dos tipos de acero, de tamaño 80 y 100 respectivamente, para analizar la resistencia a la ruptura. Los siguientes gráficos muestran los tiempos máximos (Y), en minutos que soportan dichas barras antes de fragmentarse, cuando son sometidos a la tensión:

Muestra 1 Muestra 2

minutos minutos

a. En base a la información contenida en los gráficos, determine que distribución es más homogénea y que tipo de acero resistió en mejor forma la tensión aplicada. Justifique utilizando medidas de resumen adecuadas.

b. Si las barras de acero tipo 1 , se clasifican de acuerdo a su resistencia en {RB, RM, RA}

Baja resistencia (RB) : si soportan un tiempo máximo inferior a 5,5 minutos Alta resistencia (RA) : si soportan un tiempo máximo de por lo menos 14 minutos Resistencia media (RM) : en otro caso.

Muestre gráficamente la distribución de las barras de acuerdo a la nueva clasificación.

Medidas de Forma

Coeficiente de asimetría de Fisher

n3

i

i= 11

3

n ( x -x )

C A = g = ( n -1 ) ( n -2 )

s

CA = 0; si la distribución es perfectamente simétrica CA > 0; si hay asimetría positiva CA < 0; si hay asimetría negativa

Un coeficiente de asimetría mayor que 1 en valor absoluto puede considerarse alto.

Apuntamiento o curtosis CAp

Mide lo puntiaguda que es la distribuciónn

4

2i

i=1p 2 4

n(n+1) (x -x)(n-1)

CA = g = - 3 (n-1)(n-2)(n-3) (n-2)(n-3)s

Los valores positivos de CAp indicarán un fuerte apuntamiento (leptocúrtica), valores negativos indican una distribución más plana (platicúrtica) y si los valores son cercanos a cero el histograma o polígono de frecuencias tiene una forma parecida a una campana (mesocúrtica)

Page 59: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 59

Estadística Descriptiva Bivariada

Los datos que tratamos de analizar pueden incluir valores de dos variables relacionadas entre sí, por lo que es interesante su estudio conjunto. Los elementos de una muestra o de una población pueden clasificarse con dos criterios o variables diferentes. Observación: Se pueden analizar en forma conjunta más de dos variables. Caso 1: Descripción conjunta de dos variables cualitativa s - Tabla de doble entrada o tabla de contingencia

Existen dos tipos de tablas de contingencia: i) Cuando el objetivo es analizar la posible relaci ón entre dos

variables cualitativas ii) Comparar dos o más grupos en una variable cuali tativa

- Gráficos adecuados: Barras agrupadas, Sectorial, Barras divididas. - Medidas de resumen: Asociación (se estudiarán en la unidad de Inferencia)

Ejemplo i) La información que se presenta a continuación en la tabla y gráfico, corresponde a una parte de un estudio realizado con una muestra de 400 trabajadores de una industria metalúrgica con el objeto de investigar si el “desempeño en el programa de capacitación” y el “rendimiento en el trabajo” están relacionados.

Tabla 1

Calificación en el trabajo

Desempeño en el programa de capacitación

Total Bajo Medio Alto Deficiente 23 60 29 112 Promedio 28 79 60 167

Muy buena 9 49 63 121 Total 60 188 152 400

- De los trabajadores que obtuvieron bajo desempeño en el programa de

capacitación, ¿qué porcentaje tiene calificación deficiente en el trabajo?

- De los trabajadores que obtuvieron un desempeño alto en el programa de capacitación, ¿qué porcentaje tiene calificación muy buena en el trabajo?

- De los trabajadores que obtuvieron un desempeño alto en el programa de capacitación, ¿qué porcentaje tiene calificación deficiente en el trabajo?

Page 60: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R.

Ejemplo ii) Se desarrollan dos métodos para fabricar discos de un material

superconductor. Se elaboran 50 discos con cada método y se comprueba su superconductividad al en

Superconductores

Método 1 Método 2

Total

Estadística Descriptiva

Se desarrollan dos métodos para fabricar discos de un material superconductor. Se elaboran 50 discos con cada método y se comprueba su superconductividad al enfriarlos con nitrógeno líquido.

Superconductores (Si fallas) Fallas Total

31 19 5042 8 5073 27 100

Página 60

Se desarrollan dos métodos para fabricar discos de un material superconductor. Se elaboran 50 discos con cada método y se

friarlos con nitrógeno líquido.

Total

50 50

100

Page 61: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R.

Caso 2: Una variable cuantitativa y una variable cualita tiva (grupo) Tabla de de distribución de Gráficos adecuados:

- Diagrama de puntos paralelos (muestras pequeñas)- Polígonos de frecuencias en un mismo gráfico (hay que tener los

datos tabulados en intervalos, para comparar los grupos es conveniente

- Diagramas de cajas paralelas (datos directos, es un gráfico basado en los cuartíles)

Medidas de resumen: Tendencia central, Percentiles, Dispersión

Ejemplo : Los datos que se muestran a continuación son los grados de dureza Brinell obtenidos para muestras de dos aleaciones de magnesio:

Y = grado de dureza BrinellAleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2

Percentiles (bisagras de tukey)

ALEACION 25 50 1 63,5 64,6 2 63,9 66,0

Interpretación: ___________________

Estadística Descriptiva

: Una variable cuantitativa y una variable cualita tiva (grupo)

Tabla de de distribución de frecuencias (si n es grande) Gráficos adecuados:

Diagrama de puntos paralelos (muestras pequeñas) Polígonos de frecuencias en un mismo gráfico (hay que tener los datos tabulados en intervalos, para comparar los grupos es conveniente utilizar porcentaje) Diagramas de cajas paralelas (datos directos, es un gráfico basado en los cuartíles)

Medidas de resumen: Tendencia central, Percentiles, Dispersión

Los datos que se muestran a continuación son los grados de dureza Brinell obtenidos para muestras de dos aleaciones de magnesio:

Y = grado de dureza Brinell 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,271,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2

(bisagras de tukey) 75 RI 1,5·RI (P25 – 1,5RI, P

65,1 1,6 2,4 (61,1 ; 67,5)68,9

__________________

Página 61

: Una variable cuantitativa y una variable cualita tiva (grupo)

Polígonos de frecuencias en un mismo gráfico (hay que tener los datos tabulados en intervalos, para comparar los grupos es

Diagramas de cajas paralelas (datos directos, es un gráfico

Medidas de resumen: Tendencia central, Percentiles, Dispersión

Los datos que se muestran a continuación son los grados de dureza

66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2

1,5RI, P75 + 1,5RI) (61,1 ; 67,5)

Page 62: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 62

Informe: dureza Brinell

ALEACION n Media Desv. típ. C. V. Mín. Máx. 1 10 64,670 1,787 2 10 66,280 3,484

Total 20 65,475 2,818

Ejemplo : Una industria metalúrgica compra grandes cantidades de alambre de

acero en rollos de 150 metros, hasta la fecha esta compra la realiza en la empresa Alfha, otra empresa llamada Delta quiere también vender sus productos y hace una oferta bastante interesante porque el precio de cada rollo es muy inferior. Sin embargo es importante considerar la resistencia a la tracción (Y). Por ello se toman muestras al azar de rollos de acero provenientes de ambas empresas.

Los resultados se presentan en la tabla siguiente:

Resistencia (en Newton)

yi

Empresa

Alfha Delta

10,00 – 10,25 10,125 2 0 10,25 – 10,50 10,375 12 17 10,50 – 10,75 10,625 14 25 10,75 – 11,00 10,875 11 11 11,00 – 11,25 11,125 5 9 11,25 – 11,50 11,375 4 9 11,50 – 11,75 11,625 0 3

- Gráfico adecuado para representar la distribución de la resistencia de los alambres de acero fabricado por cada una de las empresas. Poligónos de frecuencias.

Y = resistencia a la tracción del alambre

Empresa n i ii

yn∑ i

2i

i

y n∑

Alfha 48 514,25 5514,5 Delta 74 799,00 8636,90625

Page 63: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R.

- Si la variabilidad de la resistencia del alambre de la empresa Delta no es superior a la de la empresa Alfha y ademen al menos 1,5 Newton sería aconsejable cambiar de proveedor.

¿Qué decisión se debería tomar en base a la información obtenida? Fundamente con cálculo de medidas adecuadas.

EMPRESA Media(promedio)

Alfha 10,71354Delta

Respuesta: _______________

- ¿Qué porcentaje de los rollos de alambre de acero de la empresa Delta supera la resistencia media de los rollos de alambre de acero de la empresa Alfha

Estadística Descriptiva

Si la variabilidad de la resistencia del alambre de la empresa Delta no es superior a la de la empresa Alfha y además la resistencia promedio es superior

,5 Newton sería aconsejable cambiar de proveedor.

¿Qué decisión se debería tomar en base a la información obtenida? Fundamente con cálculo de medidas adecuadas.

Media (promedio)

n Desv.

estandar C.V.

% de variabilidad

10,71354 48 0,32815 0,03063 3,063%

Respuesta: _______________

¿Qué porcentaje de los rollos de alambre de acero de la empresa Delta supera la resistencia media de los rollos de alambre de acero de la empresa

Página 63

Si la variabilidad de la resistencia del alambre de la empresa Delta no es

ás la resistencia promedio es superior ,5 Newton sería aconsejable cambiar de proveedor.

¿Qué decisión se debería tomar en base a la información obtenida?

% de variabilidad

3,063%

¿Qué porcentaje de los rollos de alambre de acero de la empresa Delta supera la resistencia media de los rollos de alambre de acero de la empresa

Page 64: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 64

Ejercicio: Un Gerente de producción de una gran industria automovilística norteamericana cree que los trabajadores de la planta A hacen un promedio salarial por hora menor con una mayor variabilidad que los trabajadores de la planta B. Muestras de 12 trabajadores de la planta A y 10 trabajadores de la planta B dieron los siguientes valores:

Salario (um ) por hora de un trabajador (Y) Planta A (1) 12.2 18.2 19.4 15.3 18.6 16.4 15.5 18.7 17.1 18.3 14.5 15.8 Planta B (2) 15.1 14.8 16.9 17.2 18.2 18.5 18.7 19.3 19.2 19.8

a. ¿Apoyan los datos al Gerente de producción? (utilice medidas de resumen)

n Promedio Desv. Estandar C.V.

b. Corrobore la conclusión de (a) con Box-Plots paralelos (diagrama de caja) c. Si a los trabajadores se les aumenta el sueldo hora de la siguiente forma:

Planta

Aumento

Determine (después del aumento): Promedio aritmético

Desviación estándar (sn-1)

C.V

A

5% + 0.8 um

B

1,5 um

. Caso 3 : 2 variables cuantitativas

Gráfico adecuado: Diagrama de dispersión Medida de resumen conjunta: Coeficiente de correlación lineal de Pearson

Page 65: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 65

Descripción conjunta de dos variables cuantitativas

Es frecuente que se pueda determinar el grado de relación entre 2 (o más) variables cuantitativas, ya que al tener este conocimiento, se puede predecir una variable a partir de la otra. Para expresar cuantitativamente el grado en que dos variables están relacionadas, es necesario calcular un coeficiente de correlación.

Coeficiente de correlación lineal poblacional : ρ

Coeficiente de correlación lineal muestral: r

Un coeficiente de correlación para variables cuanti tativas: es un número que indica el grado de asociación y la dirección de esa asociación. Indica cómo varía o cambia una característica cuando la ot ra característica o variable asociada cambia.

Sin el conocimiento de cómo una cosa varía con otra sería imposible hacer predicciones . La predicción sólo es posible basándose en el conocimiento de la relación que hay entre 2 variables.

Un coeficiente de correlación lineal (con variables por lo menos ordinales) nos proporciona 3 datos principales: - La existencia o no de una relación entre las variables estudiadas. - La dirección de la relación. - El grado de esta relación. Como por ejemplo:

• estatura y peso • el ingreso familiar y los gastos en educación

Para el cálculo de “r” (correlación muestral) es preciso tener 2 conjuntos de medidas de los mismos individuos (o parejas de individuos que tengan alguna forma de relación) Tabla de datos:

Gráfico adecuado: Diagrama de dispersión, muestra si hay relación lineal entre las variables

Sujeto 1 2 3 n

Variable X x1 x2 x3 … xn

Variable Y y1 y2 y3 … yn

La tabla contiene n pares ordenados

Page 66: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 66

Ejemplos a) Una correlación lineal positiva perfecta X Y 2 4 4 6 5 7 6 8 7 9 8 10 9 11 10 12 12 14 13 15 b) Una correlación lineal elevada positiva (+0,76) (relación directa )

X Y 13 11 12 14 10 11 10 7 8 9 6 11 6 3 5 7 3 6 2 1 En general, personas con alto puntaje en x también tendrán alto puntaje en y. c) Una baja correlación lineal positiva (+0,14)

X Y 13 7 12 11 10 3 8 7 7 2 6 12 6 6 4 2 3 9 1 6

r = 1

Page 67: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 67

d) Un caso de alta correlación lineal negativa (-0,70) (relación inversa)

X Y 12 7 10 3 9 8 8 5 7 7 7 12 6 10 5 9 4 13 2 11

El signo algebraico del coeficiente de correlación tiene que ver, por lo tanto, con la dirección de relación entre dos cosas, ya sea directa o inversa.

Significado de la correlación

El valor de de la correlación puede variar desde -1 (lo que indica correlación negativa perfecta), pasando por el 0 (q ue indica independencia completa o ninguna relación), hasta +1 (que signifi ca perfecta correlación positiva) La magnitud se relaciona con la intensidad o estrec hez de la relación.

Coeficiente de correlación lineal de Pearson

yx

xy

ss s

r =

n

i i

i 1xy

(x -x)(y -y)

n -1

s ==∑

X e Y variables cuantitativas

COVARIANZA n n

i in ni=1 i=1

i i i i

i=1 i=1xy

x y

(x -x)(y -y) x y - n

= n -1 n-1

s

=

∑ ∑∑ ∑

; -1 < r < 1

covarianza de una muestra (representativa de la población objeto), indica la dirección de la relación.

Page 68: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 68

Ejemplo: sujeto x y (x - x ) (y - y ) (x - x )2 (y - y )2 (x - x )(y - y )

1 13 11 5,5 3 30,25 9 16,5 2 12 14 4,5 6 20,25 36 27 3 10 11 2,5 3 6,25 9 7,5 4 10 7 2,5 -1 6,25 1 -2,5 5 8 9 0,5 1 0,25 1 0,5 6 6 11 -1,5 3 2,25 9 -4,5 7 6 3 -1,5 -5 2,25 25 7,5 8 5 7 -2,5 -1 6,25 1 2,5 9 3 6 -4,5 -2 20,25 4 9

10 2 1 -5,5 -7 30,25 49 38,5 Total 75 80 124,5 144 102

promedio x =7,5 y = 8,0

Desviación estándar de X: 2

x

(x - x) 124,5= 3,719

n - 1 9s = =∑

Desviación estándar de Y: 2

y

(y - y) 144= 4,000

n - 1 9s = =∑

Covarianza de (x,y): xy

(x -x)(y -y)102

= = 11,333n - 1 9

s =∑

Coeficiente de correlación lineal de Pearson: xy

11,333r = 0,762

(3,719)(4,000)=

Interpretación: _________________________________________

Covarianza positiva Interpretación: si hubiese relación lineal, esta sería directa

Page 69: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 69

Ejercicios VI

Ejercicio VI-1

Para determinada tarea en una fábrica, donde se necesita mucha destreza, se quiere investigar si “la productividad en el trabajo debe ser mayor al aumentar los años de experiencia”. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo. Los datos de años de experiencia y medición de productividad son los siguientes:

Empleado 01 02 03 04 05 06 07 08 09 10

Años de experiencia 4 6 10 2 12 6 5 10 13 9 Productividad 80 82 88 81 92 85 83 86 91 90

a. Realice el diagrama de dispersión y calcular el coeficiente r de Pearson. b. Interprete los resultados.

Ejercicio VI-2

El tiempo de respuestas (en nanosegundos) de un circuito lógico en frío (X) y el tiempo de respuesta tras una hora de uso intensivo (Y), para una muestra de 12 máquinas es el siguiente:

Máquina 1 2 3 4 5 6 7 8 9 10 11 12 Tiempo de respuesta en frío (X) 6 5 8 14 7 4 5 9 6 5 7 6 Tiempo de respuesta tras una hora de uso (Y) 4 8 15 8 9 6 9 6 11 7 5 9

a. Se desea pronosticar el tiempo que tardará un determinado circuito lógico tras una hora de funcionamiento intensivo, utilizando información del tiempo de respuesta en frío. Para un pronóstico fiable, las variables deben estar fuertemente relacionadas, utilizando una mediada estadística adecuada, ¿qué concluiría usted?

b. Se sabe que un dato es atípico, si su valor no se encuentra en el intervalo (Q1 – 1,5⋅⋅⋅⋅RI , Q3 + 1,5⋅⋅⋅⋅RI)

Detecte los posibles valores atípico en Y.

(Qk ≡ cuartil k RI ≡ Amplitud (rango) intercuartílica)

Ejercicio VI-3

Se están estudiando dos tipos de tubos para la utilización en cierta aplicación industrial. Se seleccionaron 12 ejemplares de cada tipo y se anotó su duración en semanas.

Tubo Semanas de duración

Tipo 1 26,3 32,7 29,6 25,6 34,6 40,3 39,1 32,3 28,2 36,7 32,6 38,8 Tipo 2 38,9 27,6 23,6 25,0 33,7 31,4 29,5 32,5 30,6 20,0 31,8 29,3

Analice en forma descriptiva ambos tipos de tubos e indique cuál debería seleccionarse para la aplicación industrial (Justifique con medidas de tendencia central y de dispersión)

Page 70: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 70

Ejercicio VI-4

Se está investigando la resistencia (en miles ohms) de cierto tipo de resistor. Para ello se probaron 80 resistores con el siguiente resultado:

Resistencia (miles ohms)

N° de resisteros

5,0 – 5,5 5,5 – 6,0 6,0 – 6,5 6,5 – 7,0 7,0 – 7,5 7,5 – 8,0 8,0 – 8,5

14 36 14 6 4 3 3

80

Con la información de la tabla de frecuencias, determine el porcentaje de resistores con resistencia atípica (outlier).

Ejercicio VI-5

En una empresa constructora se debe decidir por una de dos mezclas, para preparar concreto. Se tiene una mezcla estándar que es la que se ha utilizado en los últimos cuatro años, pero debido a nuevas exigencias para que las construcciones sean más resistentes, por ejemplo a los terremotos, es que los ingenieros a cargo experimentan con distintas mezclas y después de meses de experimentación, al parecer logran una mezcla que cumple con los estándares exigidos. Por otro lado, la mezcla estándar tiene costos de producción muy inferiores a la nueva mezcla, razón por la cual utilizarán la nueva mezcla solo si cumple de mejor manera con las exigencias mínimas requeridas, las cuales son:

i. La resistencia mínima a la compresión debe ser de 17,2 MN/m2. Esta resistencia mínima a considerar debe ser superada por el 96% o más de las muestras de prueba.

ii. La variabilidad de la resistencia debe ser inferior al 18%.

Se probaron 50 probetas con muestras de cada tipo de mezcla, las resistencias obtenidas se presentan en la tabla siguiente.

Resistencia MN/m2

N° de probetas Mezcla Estándar Mezcla Nueva

14 – 17 17 – 20 20 – 23 23 – 26 26 – 29 29 – 32

1 9

13 18 7 2

2 8

19 14 5 2

a. Utilizando medidas estadísticas adecuadas pruebe si se cumplen las condiciones i) y ii) adecuadas y en base a los resultados decida cuál de las dos mezclas es más adecuada.

b. Construya un gráfico adecuado que permita comparar la resistencia del concreto para estos dos tipos de mezclas.

P75 = 6,36 (miles ohms)

Page 71: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 71

Ejercicio VI-6

Se realizan mediciones del contenido de oxigeno en un una mina subterránea, para analizar la factibilidad de explotarla sin riesgos para los trabajadores. Se mide entonces el contenido de oxigeno en miligramos/litro a diferentes profundidades (metros), obteniéndose la siguiente información:

Profundidad 15 20 30 40 50 25 35 45 65 60 70 Contenido O 6,5 5,6 5,4 6,0 4,6 5,0 5.0 4,8 1,0 1,4 0,1

a. Determine e interprete la intensidad de la relación lineal entre las variables en estudio. b. Introduciendo ciertos sondajes, mediante tuberías especiales, la cantidad de oxígeno

en cada punto observado aumenta en 10%. El costo de esta operación es de 40 en miles de $ por metro de profundidad. ¿Cuál es la media, mediana y varianza del costo de la operación para lograr este aumento de oxigeno?

Ejercicio VI-7

Se analizan dos catalizadores para determinar la forma en que afecta el rendimiento de un proceso químico. El catalizador 1 es el que se viene empleando en la fábrica y se quiere averiguar si se puede sustituir por el catalizador 2, más barato, pero que, según el fabricante provoca un descenso del rendimiento. Se llevan a cabo 24 reacciones obteniendo para cada catalizador los rendimientos en porcentaje:

Catalizador

Y = rendimiento (%)

ii

y∑ i

2

i

y∑

1 93,1 91,7 99,9 90,3 96,2 92,7 92,7 89,0

2237,6 208924,80 92,0 94,0 98,2 96,1 97,9 87,0 89,4 92,6 93,8 90,3 92,8 91,1 91,1 89,4 94,2 102,1

2 91,5 89,2 92,8 95,3 95,1 96,4 87,0 91,7

2196,3 201164,17 87,2 90,9 91,3 92,6 91,4 91,5 91,4 95,5 90,6 88,2 87,8 89,9 90,4 90,6 91,0 97,0

a. Se aceptaría el cambio de catalizador, si los resultados de la pruebas arrojan una

diferencia promedio de ambos catalizadores inferior a 4 (%) y el catalizador alternativo debe tener rendimiento más homogéneo del que se utiliza actualmente. Con los resultados muestrales, ¿es aconsejable realizar el cambio?

b. Sabiendo que el 75% de las reacciones obtenidas con el Catalizador 2 tienen un rendimiento igual o superior a 90,15. Determine si existe algún resultado (reacción) atípica. Utilice regla de Tukey.

Page 72: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 72

Ejercicio VI-8

En una planta embotelladora de bebidas de fantasía, utilizan envases fabricados con 2 tipos de plástico, de similares condiciones. ( A y B ). Con muestras de 25 botellas fabricadas con cada t ipo de plástico se midió la resistencia (en psi). Algunos resultados parciales se encuentran a continuación:

X = Resistencia x∑ 2x∑

Plástico A 5087 1038093 Plástico A 4898 963332

a. Se estima que las botellas fabricadas con el plá stico B presentan una resistencia más homogénea, que las fabricadas con el plástico A. Utilizando una medida estadística adecuada, ¿qué puede comenta r de esta estimación?

b. Determine para cada tipo de envase entre que valo res (psi) se encuentran el 50% de las botellas con mayor resistencia

Resist_ A Stem-and-Leaf Plot Freq Stem & Leaf 1,00 18 . 2 2,00 18 . 59 1,00 19 . 0 4,00 19 . 5679 7,00 20 . 1222234 4,00 20 . 5689 2,00 21 . 01 1,00 21 . 9 2,00 22 . 14 1,00 22 . 5 Stem width: 10 Each leaf: 1 case(s)

Resist_ B Stem-and-Leaf Plot Freq Stem & Leaf 1,00 Extremes (=<171) 2,00 17 . 38 3,00 18 . 349 11,00 19 . 22344556679 5,00 20 . 35668 2,00 21 . 05 1,00 22 . 4 Stem width: 10 Each leaf: 1 case(s)

Atípico = 171

Page 73: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 73

Ejercicio VI-9 (Prueba 1 06/05/2010) Se ha comprobado que las aleaciones amorfas tienen una excelente resistencia a la corrosión. En Corrosión Science (septiembre 2007) se informó de la resistividad de una aleación amorfa de hierro, boro y silicio después de la cristalización. Se recocieron durante un cierto tiempo (X), expresado en minutos, una muestra de 100 especímenes de esta aleación a 700ºC. Luego se midió el potencial de pasivación, en mV (una medida de la resistividad de la aleación cristalizada) para cada espécimen. Los resultados son los siguientes:

X tiempo de recocido

(en minutos)

Y Potencial de pasivación (en mV) TOTAL -420; -400 -400; -380 -380; -360

10-25 0 15 0 15 25-40 14 10 6 30 40-55 3 9 15 27 55-70 0 9 19 28

TOTAL 17 43 40 100 a. Determine el grado de intensidad de la relación lineal entre estas dos variables.

Interprete el valor obtenido en el contexto del experimento.

b. Para los 72 especímenes, en que el tiempo de recocido es inferior a 55 minutos: i. Determine el porcentaje de especímenes comprendidos entre el promedio

y la mediana del potencial de pasivación. ii. Marque y achure el área comprendida entre el promedio y la mediana, en

el polígono de frecuencia de la distribución del potencial de pasivación. Interprete la información contenida en el gráfico.

c. Compare el porcentaje de variabilidad del potencial de pasivación, con el del tiempo de recocido, cuando hay una reducción en el tiempo del 5% y de 15 segundos para cada especimen ¿Cuál distribución resulta ser más homogenea? Utilice propiedades.

Page 74: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 74

Anexo 1

ROL DE LA ESTADÍSTICA EN LA INVESTIGACIÓN CIENTÍFI CA (Revista: Contribuciones Científicas y Tecnológicas , Junio 1985 pág. 7 – 9, USACH)

1.1. PLANTEAMIENTO GENERAL

El hombre busca constantemente una explicación racional para los fenómenos que lo rodena. EL MÉTODO CIENTÍFICO le ayuda a organizar adecuadamente la observación de los hechos y a determinar las leyes que los rigen. En la gran mayoría de las situaciones reales la determinación de tales leyes se complica por la multicasualidad del fenómeno estudiado.

1.2. MÉTODO CIENTÍFICO

El método científico es un procedimiento que se aplica al ciclo completo de una investigación, desde el enunciado del problema hasta la evaluación de los resultados obtenidos. En forma esquemática podemos distinguir las siguientes etapas en la aplicación del método científico.

1.2.a. Detección y Enunciado del Problema

Consiste en la descripción de una situación problema o en el planteamiento de una pregunta.

1.2.b. Formulación de una hipótesis

Es una posible explicación al problema planteado, de acuerdo al conocimiento científico existente.

1.2.c. Deducción de una consecuencia verificable

Debido a que la hipótesis es una explicación general puede, en algunos casos, no ser posible investigar directamente su veracidad. Se procede en estos casos a deducir, en forma lógica, consecuencias particulares de la hipótesis.

1.2.d. Verificación de la consecuencia

En ciencias exactas se puede hacer mediante demostraciones teóricas basadas en relaciones aceptadas en el estado actual del conocimiento; en ciencias no exactas (biológicas, sociales, etc.) la verificación se hace a través de recolección de la información, o de la observación de los fenómenos, lo cual hace necesario la aplicación de una serie procedimientos estadísticos .

1.2.e. Conclusión

Puede consistir en una aceptación, modificación o rechazo de la hipótesis

Page 75: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 75

ROL DE LA ESTADÍSTICA EN LA INVESTIGACIÓN CIENTÍFI CA (Revista: Contribuciones Científicas y Tecnológicas , Junio 1985 pág. 7 – 9, USACH)

1.3. MÉTODO ESTADÍSTICO

Al aplicar el método científico nos proponemos verificar la hipótesis inicial, investigando si las consecuencias deducidas de ella se comprueban o no al recoger, en forma sistemática, nuevas observaciones. Es el método estadístico el que nos proporciona las técnicas necesarias para recolectar y analizar la información requerida. Podríamos distinguir una fase de planificación y otra de ejecución.

1.3.a. Planificación

En esta fase debemos considerar

a.1. Definición de los objetivos

Corresponde formalmente a la descripción del problema que da origen a la investigación. Se debe señalar detalladamente lo que se pretende investigar, el qué, donde, cuándo y por qué.

a.2. Definición del universo (población objeto)

Se debe definir el grupo del cual se extraerá la información y al cual se generalizarán las conclusiones que se obtengan en la investigación y al cual se generalizarán las conclusiones que se obtengan en la investigación.

a.3. Diseño de la muestra

La teoría de Muestreo o de Diseño de Experimentos pueden garantizarnos que la información que generamos nos permitirá proyecciones válidas al universo de interés.

a.4. Definición de las unidades de observación, esc alas de clasificación y unidades de medidas

En una misma investigación puede haber varios objetivos parciales que requieren estudiar unidades de observación diferentes. La elección de unidades de medida es crucial ya que una equivocación puede resultar en un exceso de información o en una perdida irrecuperable de ella.

a.5. Preparación del plan de tabulación y análisis

El cuidado puesto en este aspecto nunca podría considerarse excesivo, debería llegarse, tal vez, hasta considerar alternativas de análisis adecuadas para compensar algunas alteraciones accidentales del plan de trabajo.

Page 76: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 76

ROL DE LA ESTADÍSTICA EN LA INVESTIGACIÓN CIENTÍFI CA (Revista: Contribuciones Científicas y Tecnológicas, Junio 1985 pág. 7 – 9, USACH)

1.3.b. Ejecución

En esta fase podemos reconocer:

b.1. Recolección de la información. b.2. Elaboración de la información. b.3. Análisis de lo resultados

Un esquema útil en la aplicación de método científico y que destaca un paralelismo con el método estadístico se resume en el diagrama siguiente:

Diagrama del método científico y del método estadís tico

Page 77: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 77

Anexo 2 Muestreos aleatorios Se seleccionan los elementos de la muestra por un procedimiento de azar (un sorteo). El investigador no decide que elementos van a tomar parte de la muestra, aunque debe conocer la probabilidad de selección de cada elemento. Estos tipos de muestreo permiten aplicar las técnicas de inferencia estadística.

Entre ellos se usan los siguientes:

Muestreo aleatorio simple con y sin reemplazamiento : Todos los elementos de la Población tienen la misma probabilidad de ser incluido en la muestra y la selección de cada uno de los elementos es independiente de la selección de otro. Si cuando se extrae un elemento de la Población para formar parte de la muestra, ya no puede extraerse de nuevo (no se reemplaza en la Población) el muestreo se llama Muestreo aleatorio simple sin reemplazamiento. Si por el contrario se devuelve a la Población y puede formar de nuevo parte de la muestra, el muestreo se dice Muestreo aleatorio simple con reemplazamiento. Muestreo estratificado : Este muestreo requiere que la Población esté dividida en grupos más o menos homogéneos con respecto a la característica que se investiga. A cada uno de estos grupos se le llama clase o estrato. Dentro de cada uno de estos estratos se selecciona la muestra con un muestreo aleatorio simple. La muestra que resulta se llama una muestra estratificada. Muestreo por conglomerados o Agrupado : Consiste en dividir la población en grupos parecidos entre sí y seleccionar aleatoriamente un conjunto de estos grupos. Para que sea eficiente los grupos han de ser bastante parecidos entre sí, ya que todos ellos han de ser modelos en miniatura de la población. La diferencia de un grupo con un estrato consiste en que los estratos han de ser diferentes entre sí, aunque homogéneos interiormente. Sin embargo, los grupos son parecidos entre sí, pero interiormente reflejan la variabilidad de la población de la que proceden.

Muestreo Sistemático : Se supone que los elementos de la población están ordenados con arreglo a algún criterio. Se seleccionan sucesivamente los elementos de k en k, comenzando por un elemento seleccionado aleatoriamente.

Muestreo Doble Múltiple y Secuencial : Este tipo de muestreo se usa principalmente en Control de Calidad. El muestreo Doble es un procedimiento mediante el cual se selecciona en primer lugar una muestra pequeña. Si la información obtenida con esta muestra nos parece suficiente, hemos terminado. Si esto no fuera así se procede a tomar una segunda muestra, normalmente más grande con la que completaremos la información. En el muestreo múltiple este procedimiento se repite sucesivamente un número finito de veces. Una modificación de este tipo de muestreo múltiple consiste en decidir para cada elemento que se incorpora a la muestra si tomamos un siguiente elemento o ya la muestra extraída es suficiente para nuestro propósito. El número de elementos de la muestras no es conocido a priori, ya que dependerá de la propia muestra ya extraída y de la regla de decisión empleada para cerrar la muestra o seguir muestreando.

Page 78: 1ESTAD DESCRIPTIVA-ING-2013 (texto) (1)

Cecilia Larraín R. Estadística Descriptiva Página 78

Muestreos no Aleatorios Este tipo de muestreo no permite, rigurosamente hablando, aplicar técnicas de inferencia estadísticas, ya que la formulación de estas técnicas se realiza bajo la hipótesis de la aleatoriedad de las muestras. Muestreo Dirigido o Adaptado : Se seleccionan para formar parte de la muestra elementos, que según la opinión de los encuestadores, sean representativos. Se suele emplear en las primeras fases del estudio para construir una muestra piloto. Muestreo por cuotas : Cada encuestador debe entrevistar a un cierto número de personas de unas características definidas. Por ejemplo: 15 hombres solteros con edades comprendidas entre 25 y 30 años, 22 mujeres casadas de edades comprendidas entre 30 y 50 años, 20 personas con hijos en edad escolar, etc. Muestro deliberado : Se selecciona la muestra en un sector de la Población por comodidad de acceso. Por ejemplo cuando se dispone fácilmente de una lista de personas, como la guía de teléfono, las matrículas de los automóviles, etc.