Estadistica Sanchez-Jara

49
Estadística Antonio Jara Sánchez-Caro 24 de enero de 2003

Transcript of Estadistica Sanchez-Jara

Page 1: Estadistica Sanchez-Jara

Estadística

Antonio Jara Sánchez-Caro

24 de enero de 2003

Page 2: Estadistica Sanchez-Jara

Índice general

1. Estadística Descriptiva 61.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2. Variables Estadísticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3. Variables Cuantitativas Discretas y Contínuas. . . . . . . . . . . . . . . . . . . 71.4. Frecuencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4.1. Frecuencia Absolutani . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4.2. Frecuencia Relativafi . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4.3. Frecuencia Absoluta AcumuladaNi . . . . . . . . . . . . . . . . . . . 8

1.4.4. Frecuencia Relativa AcumuladaFi . . . . . . . . . . . . . . . . . . . 8

1.5. Distribución de Frecuencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.5.1. Distribuciones no agrupadas. . . . . . . . . . . . . . . . . . . . . . . . 81.5.2. Distribuciones agrupadas. . . . . . . . . . . . . . . . . . . . . . . . . 8

1.6. Amplitud del Intervalo y Marca de Clase. . . . . . . . . . . . . . . . . . . . . 91.6.1. Amplitud del Intervalo

ci . . . . . . . . . . . . . . . . . . . . . . . . 9

1.6.2. Marca de Clasexi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.7. Representaciones Gráficas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.7.1. Diagrama de Barras. . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.7.2. Diagrama de Frecuencias Acumuladas. . . . . . . . . . . . . . . . . . 91.7.3. Histograma de Frecuencias. . . . . . . . . . . . . . . . . . . . . . . . 91.7.4. Polígono de Frecuencias Absolutas. . . . . . . . . . . . . . . . . . . . 101.7.5. Polígono de Frecuencias Acumuladas. . . . . . . . . . . . . . . . . . . 10

1.8. Medidas de Posición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.8.1. Media Aritmética

x . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.8.2. MedianaMe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.8.3. Moda (Mo). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.8.4. Cuantiles

CN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.9. Medidas de Dispersión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.9.1. Recorrido o Rango. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.9.2. Recorrido Intercuantílico. . . . . . . . . . . . . . . . . . . . . . . . . 151.9.3. Varianza S2

x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.9.4. Desviación Típica

Sx . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.9.5. Coeficiente de Variación de PearsonCV . . . . . . . . . . . . . . . . 16

1.9.6. Variable Tipificadazi . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.10. Momentos de la Distribución. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2

Page 3: Estadistica Sanchez-Jara

1.10.1. Momentos respecto al origen. . . . . . . . . . . . . . . . . . . . . . . 181.10.2. Momentos respecto a la media. . . . . . . . . . . . . . . . . . . . . . . 18

2. Variables Estadísticas Bidimensionales 202.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2. Distribuciones Conjuntas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3. Representaciones Gráficas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4. Distribuciones Marginales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5. Distribuciones Condicionadas. . . . . . . . . . . . . . . . . . . . . . . . . . . 212.6. Independencia Estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.7. Momentos de una distribución bidimensional. . . . . . . . . . . . . . . . . . . 22

2.7.1. Momentos con respecto al origen. . . . . . . . . . . . . . . . . . . . . 222.7.2. Momentos con respecto a la media. . . . . . . . . . . . . . . . . . . . 22

2.8. Regresión Lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.9. Coeficiente de Correlación Lineal. . . . . . . . . . . . . . . . . . . . . . . . . 232.10. Coeficiente de Determinación. . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3. Teoría de la Probabilidad 263.1. Fenómenos Deterministas y Aleatorios. . . . . . . . . . . . . . . . . . . . . . 263.2. Espacio Muestral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3. Sucesos y Tipos de Sucesos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.4. Operaciones con sucesos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.4.1. Unión de sucesos (A B). . . . . . . . . . . . . . . . . . . . . . . . . 273.4.2. Intersección de sucesos (A B). . . . . . . . . . . . . . . . . . . . . . 273.4.3. Leyes de De Morgan. . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.5. Definición Axiomática de la Probabilidad. . . . . . . . . . . . . . . . . . . . . 283.6. Otras definiciones de probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . 29

3.6.1. Definición frecuencial de la probabilidad. . . . . . . . . . . . . . . . . 293.6.2. Definición de Laplace. . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.7. Probabilidad Condicionada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.8. Sucesos Independientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.9. Probabilidad de la intersección de sucesos. . . . . . . . . . . . . . . . . . . . . 313.10. Probabilidad “a priori” y “a posteriori”. . . . . . . . . . . . . . . . . . . . . . 323.11. Probabilidad Total. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.12. Teorema de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4. Variable Aleatoria Discreta 354.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.1.1. Concepto de una variable aleatoria . . . . . . . . . . . . . . . . . . . . 354.1.2. Función de distribución de una variable aleatoria . . . . . . . . . . . . 354.1.3. Clasificación de una variable aleatoria discreta y contínua . . . . . . . 35

4.1.3.1. Variables aleatorias discretas . . . . . . . . . . . . . . . . . 364.1.3.2. Variables aleatorias contínuas . . . . . . . . . . . . . . . . . 36

4.2. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3

Page 4: Estadistica Sanchez-Jara

4.2.1. Función de masa de una variable aleatoria discreta . . . . . . . . . . . 364.2.1.1. Representación gráfica de la función de masa . . . . . . . . . 36

4.2.2. Distribución de probabilidad . . . . . . . . . . . . . . . . . . . . . . . 364.2.2.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2.3. Función de distribución de una variable aleatoria discreta . . . . . . . 374.2.3.1. Representación gráfica de la función de distribución . . . . . 374.2.3.2. Cálculo de probabilidades a partir de la función de distribución 38

4.2.4. Momentos con respecto al origen (αr) . . . . . . . . . . . . . . . . . . 384.2.4.1. Esperanza matemática. Propiedades . . . . . . . . . . . . . . 39

4.2.5. Momentos respecto a la esperanza . . . . . . . . . . . . . . . . . . . . 414.2.5.1. Varianza. Propiedades . . . . . . . . . . . . . . . . . . . . . 414.2.5.2. Desviación Típica . . . . . . . . . . . . . . . . . . . . . . . 41

4.2.6. Función característica. Propiedades . . . . . . . . . . . . . . . . . . . 414.2.7. Algunas distribuciones discretas . . . . . . . . . . . . . . . . . . . . . 41

4.2.7.1. Distribución de Bernoulli Bp . . . . . . . . . . . . . . . . 41

4.2.7.2. Distribución Binomial Bn p . . . . . . . . . . . . . . . . . 42

4.2.7.3. Distribución de Poisson Pλ . . . . . . . . . . . . . . . . . 42

4

Page 5: Estadistica Sanchez-Jara

Índice de figuras

1.1. Diagrama de barras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2. Diagrama de frecuencias acumuladas. . . . . . . . . . . . . . . . . . . . . . . 10

2.1. Nube de puntos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.1. Representación de la función de masa . . . . . . . . . . . . . . . . . . . . . . 364.2. Representación de la función de distribución . . . . . . . . . . . . . . . . . . . 38

5

Page 6: Estadistica Sanchez-Jara

1 Estadística Descriptiva

1.1. Introducción.

Existen dos formas de interpretar el término "estadística":

Se entiende por estadística, cualquier colección de datos numéricos clasificados según uncriterio.

1Es la ciencia que utiliza los números para el estudio de las leyes que dependen del azar.Tratando de descubrir mediante el razonamiento inductivo la causa general a la que obe-dece el modelo particularmente analizado.

En la vida cotidiana el hombre protagoniza dos tipos de fenómenos:

Deterministas: aquellos que dadas las mismas condiciones se obtienen los mismos resul-tados.

Aleatorios: aquellos que dadas las mismas condiciones se obtienen distintos resultados(lanzar un dado). Se suele decir que están regidos por la ley del azar.

La estadística descriptiva trata de la descripción numérica de conjuntos, siendo particularmenteútil cuando el número de elementos del conjunto es elevado. No pretende sacar conclusiones delconjunto, solo pretende describirlo.

1.2. Variables Estadísticas.

Estudiaremos dos tipos de variables:

Variables cualitativas: No toman valores númericos y describen cualidades.

Se representan con las primeras letras del abecedario en mayúsculas.

Ej: A, color de pelo.

Variables cuantitativas: Toman valores numéricos y se utilizan si el carácter que quere-mos valorar es susceptible a la medida.

Se representan con las ultimas letras del abecedario en mayúsculas.

Ej: X (altura), Y (peso).

1Es la definición académico-científica

6

Page 7: Estadistica Sanchez-Jara

1.3. Variables Cuantitativas Discretas y Contínuas.

Hay dos tipos de variables cuantitativas:

Variables discretas: Pueden tomar valores que estarán siempre asociados a números en-teros.

Variables contínuas: Dados dos valores cualesquiera, la variable puede tomar cualquiervalor intermedio entre los dos2.

1.4. Frecuencias.

1.4.1. Frecuencia Absoluta ni .Es el número de veces que se repite un valor de una variable.La suma de frecuencia absolutas es igual al número de individuos del grupo:

n

∑i 1

ni N

1.4.2. Frecuencia Relativa fi .Es la razón entre la frecuencia absoluta y el número de elementos que tenemos en el conjun-

to.

fi ni

N

Notas:

0 fi 1

∑ni 1 fi 1

Ejemplo:

xi ni fi Ni Fi

0 1 1/36 1 1/361 19 19/36 20 20/362 11 11/36 31 31/363 2 2/36 33 33/364 3 3/36 36 1

2Normalmente están asociadas a números reales.

7

Page 8: Estadistica Sanchez-Jara

1.4.3. Frecuencia Absoluta Acumulada Ni .Es la suma de las frecuencias absolutas hasta un valor determinado (i).

1.4.4. Frecuencia Relativa Acumulada Fi .Es la suma de las frecuencias relativas hasta un determinado valor (i).

1.5. Distribución de Frecuencias.

Es el conjunto de todos los valores que ha tomado la variable estadística acompañados desus correspondientes frecuencias.

Según cómo estén agrupados los datos tendremos dos tipos de distribuciones:

1.5.1. Distribuciones no agrupadas.

Una vez recogida la información, esta se dispone asociando a cada valor de la variable suscorrespondientes frecuencias. Se representan en una tabla como la que sigue:

xi ni fi Ni Fi

x1 n1 f1 N1 F1

x2 n2 f2 N2 F2...

......

......

xn nn fn Nn Fn

N 1

1.5.2. Distribuciones agrupadas.

Los datos se agrupan en intervalos cuando el número de valores que ha tomado la variableestadística es lo sufucientemente grande.

Se agrupan para optimizar el tratamiento de la información. El número de intervalos está,generalmente, entre 4 y 15, no siendo nunca superior al 10 % de los datos.

Una regla muy utilizada para elegir el número de intervalos es tomar el entero más próximoa n, siendo n el número de datos.

Se representa en una tabla como la siguiente:

Li Li 1 ni fi Ni Fi

L0 L1 n1 f1 N1 F1

L1 L2 n2 f2 N2 F2...

......

......

Ln 1 Ln nn fn Nn Fn

N 1

Nota: Los intervalos son cerrados por la derecha y abiertos por la izquierda .8

Page 9: Estadistica Sanchez-Jara

1.6. Amplitud del Intervalo y Marca de Clase.

1.6.1. Amplitud del Intervalo ci .Es la diferencia entre el valor superior e inferior de un intervalo.

ci Li 1 Li

1.6.2. Marca de Clase xi .Hace referencia al punto medio del intervalo. Se utiliza para calcular la media de la distribu-

ción.

xi Li 1 Li

2

1.7. Representaciones Gráficas.

1.7.1. Diagrama de Barras.

Se utiliza para variables discretas y en general para distribuciones no agrupadas. Ver figura1.1.

ni

xi

Figura 1.1: Diagrama de barras.

1.7.2. Diagrama de Frecuencias Acumuladas.

Se representan las frecuencias acumuladas en el eje de ordenadas (y) y los valores que tomala variable en el eje de abscisas (x). Ver figura 1.2

1.7.3. Histograma de Frecuencias.

Se utiliza para datos agrupados y se construye levantando sobre cada intervalo un rectángulode área proporcional a la frecuencia absoluta (ni) correspondiente a ese intervalo.

Dependiendo si los intervalos son o no uniformes se procederá de la siguiente forma:

9

Page 10: Estadistica Sanchez-Jara

ni

LiL1 L2 L3 L4 L5

Figura 1.2: Diagrama de frecuencias acumuladas.

Intervalos uniformes (igual amplitud): en este caso las alturas de los rectángulos seránigual a las frecuencias absolutas, ya que al ser las bases de los rectángulos iguales, lasáreas solo dependerán de las alturas, y por tanto de la frecuencia absoluta.

Intervalos no uniformes (distinta amplitud): tendremos que calcular las distintas alturas,ya que las bases de los rectángulos son diferentes.

El cálculo de la altura lo haremos calculando la densidad de frecuencia (d i).

di ni

ci

1.7.4. Polígono de Frecuencias Absolutas.

También dependerá de si los datos están o no agrupados.

Datos no agrupados: el polígono se construye uniendo los puntos más altos del diagramade barras.

Datos agrupados: en este caso se construye calculando primeramente la marca de clasede cada intervalo, luego unimos los puntos obtenidos con el primer valor del intervaloinicial y el último del intervalo final.

1.7.5. Polígono de Frecuencias Acumuladas.

El gráfico será siempre ascendente por el hecho de ser frecuencias acumuladas.Se utilizará para distribuciones agrupadas.

1.8. Medidas de Posición.

1.8.1. Media Aritmética x .x ∑n

i 1 xini

N

Propiedades:

10

Page 11: Estadistica Sanchez-Jara

La suma de las desviaciones de los valores de la variable con respecto a la media essiempre nula.

n

∑i 1

xi x ni 0

Si a todos los valores de la variable les sumamos una constante, es decir, les hacemos uncambio de origen, la media queda también sumada por esa constante.

Si a todos los valores de la variable les multiplicamos por una constante, es decir, leshacemos un cambio de escala, la media también queda multiplicada por esa constante.

1.8.2. Mediana Me .Es el valor de la distribución que deja a ambos lados el mismo número de observaciones.Para calcularla hay que ordenar las observaciones de menor a mayor. Es decir, la mediana es

el valor que ocupa el lugar central si el número de observaciones es impar.Si el número de datos es par, podrá decirse que existen dos valores medianos y, en tal caso

se calcula la media de los valores medianos.Ej: 1 2 3 4 5 Me 3Ej: 1 2 3 4 5 6 Me 3 4

2 3 5La mediana puede definirse también como el valor que tiene una distribución acumulada

igual a N2 . Para calcularla distinguiremos de nuevo si los datos están o no agrupados:

Datos no agrupados: Los datos no se repiten (frecuencias unitarias): se hace como en los ejemplos ante-riores. Los datos se repiten: tenemos que seguir los siguientes pasos:

1. Calcular las frecuencias absolutas acumuladas (Ni).

2. Calcular el número de observaciones que tiene la muestra dividido entre 2 ( N2 ).

Si N2 Ni Me xi xi 1

2Si N

2 Ni Me valor de la variable cuya Ni sea la inmediatamente superiora N

2

Ejemplo:

xi ni Ni

0 2 21 3 52 4 93 1 10

x 1410 1 4

Me 1 22 1 5 (porque N

2 Ni 102 5)

11

Page 12: Estadistica Sanchez-Jara

Ejemplo:

xi ni Ni

0 2 21 4 62 3 93 1 10

x 1410 1 4

N2 5, no coincide con ningún Ni por tanto Me 1

Datos agrupados: tenemos que seguir los siguientes pasos:

1. Calcular las frecuencias absolutas acumuladas (Ni).

2. Calcular el número de observaciones que tiene la muestra dividido entre 2 ( N2 ).

Si N2 Ni Me Li 1

Si N2 Ni El intervalo3 donde aparezca la Ni inmediatamente superior a N

2 es elque contiene a la mediana, que calcularemos mediante la siguiente fórmula:

Me Li N2 Ni 1

nici

Ejemplo:

Li Li 1 ni Ni ci

2 - 4 4 4 24 - 6 10 14 26 - 8 40 54 2

8 - 10 20 74 210 - 12 1 75 2

N2 75

2 37 5Me 6 37 5 14

40 2 7 175

Ejemplo:

Li Li 1 ni Ni ci

2 - 4 2 2 24 - 6 3 5 26 - 8 5 10 2

N2 10

2 5

Me 6

3Se le conoce como “intervalo mediano”

12

Page 13: Estadistica Sanchez-Jara

1.8.3. Moda (Mo).

Es el valor que más se repite en la distribución, el que tiene mayor frecuencia absoluta (n i).Para calcularla dependemos de nuevo de si los datos están o no agrupados:

Datos no agrupados: la moda se corresponde con el valor con mayor ni.

Ejemplo:

xi ni

2 53 44 67 2

Mo 4

Datos agrupados: en este caso distinguiremos entre intervalos de igual o distinta ampli-tud. Puede existir más de un valor modal. Intervalos con igual amplitud: se pueden utilizar diferentes métodos para seleccio-

nar el valor modal:

1. Mo Li 1

2. Mo Li

3. Mo xi

4. La distancia de la moda a los intervalos contiguos es inversamente proporcionala las frecuencias de dichos intervalos: Mo Li 1 ni 1

ni 1 ni 1ci

5. La distancia de la moda a los intervalos contiguos es directamente proporcionala las frecuencias de dichos intervalos: Mo Li 1 ni ni 1

ni ni 1 ni ni 1 ci Intervalos con distinta amplitud: es lo mismo pero con la densidad de frecuencia(di).

Nota: Li 1 es el extremo inferior del intervalo.

1.8.4. Cuantiles CN .Son valores de la distribución que la dividen en partes iguales. Dependiendo en cuántas

partes dividan a la distribución reciben varios nombres, cuartiles (4), deciles (10), percentiles(100). A continuación estudiaremos cómo calcular los cuantiles:

Tomaremos dos variables (r y k) que representarán:r - el cuantil que queremos calcular, por ejemplo si queremos calcular el cuartil 3, r 3.k- el números de cuantiles, es decir, si son cuartiles serán 4, deciles 10, etc..Tendremos que distinguir tambien si los datos están o no agrupados:

Datos no agrupados:

Si rk N Ni Cuantil xi xi 1

2

Si rk N Ni Cuantil valor de la Ni inmediatamente superior a r

k N

13

Page 14: Estadistica Sanchez-Jara

Datos agrupados:

Si rk N Ni Cuantil Extremo superior del intervalo

Si rk N Ni Cuantil Li r

k N Ni 1

nici

Ejemplo:Calcular el primer y el tercer cuartil (C1 y C3) de la siguiente distribución:

xi ni Ni

0 2 21 3 52 10 153 16 314 5 366 5 41

Para calcular el primer cuartil tomamos r 1 y k 4, por tanto tenemos: rk N 1

4 41 10 25.Cogemos el valor de Ni inmediatamente superior que es 15 y por tanto C1 2.

Para calcular el tercer cuartil tomamos r 3 y k 4, por tanto tenemos: rk N 3

4 41 30 75.Cogemos el valor de Ni inmediatamente superior que es 31 y por tanto C3 3.

Ejemplo:Calcular el primer y el tercer cuartil (C1 y C3) de la siguiente distribución:

Li Li 1 ni Ni

20 - 25 5 525 - 30 9 1430 - 35 14 2835 - 40 20 4840 - 45 26 7445 - 50 18 9250 - 55 7 9955 - 60 11 110

Para calcular el primer cuartil tomamos r 1 y k 4, por tanto tenemos: rk N 1

4 110 27 25

Calculamos N2 55

Como rk N no coincide con ningún Ni tenemos que aplicar la fórmula: Li r

k N Ni 1

nici donde

Li es el extremo inferior del intervalo en el que Ni es inmediatamente superior a N2 . Por

tanto: Li rk N Ni 1

nici 30 27 25 14

14 5 34 82

Para calcular el tercer cuartil tomamos r 3 y k 4, por tanto tenemos: rk N 3

4 110 82 5Calculamos N

2 55

14

Page 15: Estadistica Sanchez-Jara

Como rk N no coincide con ningún Ni tenemos que proceder de la misma forma que antes:

Li rk N Ni 1

nici 30 82 5 74

18 5 47 36

1.9. Medidas de Dispersión.

1.9.1. Recorrido o Rango.

Será la diferencia entre el valor máximo y mínimo de la distribución.

D xM xm

1.9.2. Recorrido Intercuantílico.

Será la diferencia entre el mayor y el menor cuantil.Por ejemplo, para los cuartiles sería RI C3 C1

1.9.3. Varianza S2x ! .

Es una medida de dispersión de los valores de la variable con respecto a la media.

S2x ∑n

i 1xi x 2ni

N

S2x ∑n

i " 1xi x 2ni

N ∑ni " 1x2

i x2 2xix ni

N ∑ni " 1 x2

i ni

N x2NN 2x ∑n

i " 1 xini

N ∑ni " 1 x2

i ni

N x2 2x2 ∑ni " 1 x2

i ni

N x2

Propiedades:

S2x # 0

Si a todos los valores de la variable les sumamos una constante, es decir, hacemos uncambio de origen, la varianza no se ve afectada. xi x; x $i xi k

S2x % ∑n

i 1x $i x $ 2ni

N

Si a todos los valores de la variable les multiplicamos por una constante, la varianza quedaafectada por la constante, concretamente, multiplicada por la constante al cuadrado.

S2x % k2S2

x

Nota: Las unidades de la varianza serán las mismas que las de la variable elevadas al cua-drado.

15

Page 16: Estadistica Sanchez-Jara

1.9.4. Desviación Típica Sx .Sx &(' S2

x *) ∑ni 1xi x 2ni

N

Propiedades:

Sx # 0

Si a todos los valores de la variable les sumamos una constante, es decir, hacemos uncambio de origen, la desviación típica no se ve afectada. Sx % ∑n

i " 1x %i x % 2ni

N

Si a todos los valores de la variable les multiplicamos por una constante, la desvacióntípica queda afectada por la constante, concretamente, multiplicada por la constante. Sx %+kSx

1.9.5. Coeficiente de Variación de Pearson CV .Es el resultado de la razón entre la desviación típica y la media aritmética.

CV Sx

x

Servirá para averiguar cuál es la dispersión relativa de una variable.Es adimensional, y por tanto, servirá para comparar la dispersión de dos o más distribuciones

con diferentes unidades de medida.No se puede utilizar si el valor de la media es nulo.

1.9.6. Variable Tipificada zi .Se denota como zi y se obtiene de la siguiente forma:

zi xi xSx

Propiedades:

z 0

S2z 1

Sz 1

16

Page 17: Estadistica Sanchez-Jara

Problema Consideremos una variable estadísitica cuya media aritmética es 70, y cuya desvia-ción típica es 10, sea el valor de la variable en la observación i-ésima igual a 90.

Calcular el valor tipificado e interpretar su significado.

zi xi xSx

90 7010 2

El valor de la variable está dos veces la desviación típica por encima de la media.

Calcular ahora para una observación i-ésima igual a 60.

z $i 60 7010 , 1

El valor de la variable está una vez la desviación típica por debajo de la media.

Problema Un estudiante obtiene en matemáticas una nota de 8.5, siendo 7.8 la nota media dela asignatura y con una desviación típica de 1.3.

En estadística la nota media es de 6.3 y la desviación típica 1.65, el estudiante obtiene unanota de 7.2.

Calcula:

¿En qué asignatura obtiene la mejor puntuación relativa?

zM 8 5 7 81 3 0 538

zE 7 2 6 31 65 0 545

Por tanto, la mayor puntuación relativa la obtiene en estadística.

¿En cuál de las dos asignaturas presenta la nota una mayor dispersión relativa?

CVM SM

xM 1 3

7 8 0 167

CVE SE

xE 1 65

6 3 0 262

La mayor dispersión se obtiene también en estadística.

1.10. Momentos de la Distribución.

Son unos valores que caracterizan la distribución. Distinguiremos dos tipos:

17

Page 18: Estadistica Sanchez-Jara

1.10.1. Momentos respecto al origen.

Al momento de orden r respecto al origen lo llamaremos αr y lo calcularemos según lasiguiente fórmula:

αr ∑ni 1 xr

i ni

N

Casos particulares:

Si r 0 α0 ∑ni " 1 x0

i ni

N ∑ni " 1 ni

N 1

Si r 1 α1 ∑ni " 1 x1

i ni

N x

Si r 2 α2 ∑ni " 1 x2

i ni

N

1.10.2. Momentos respecto a la media.

Al momento de orden s respecto a la media lo llamaremos ms y, lo calcularemos según lasiguiente fórmula:

ms ∑ni 1

xi x sni

N

Casos particulares:

Si s 0 m0 ∑ni " 1xi x 0niN ∑n

i " 1 niN N

N 1

Si s 1 m1 ∑ni " 1xi x 1ni

N 40

Si s 2 m2 ∑ni " 1xi x 2ni

N S2x

Nota: Cómo expresar la varianza en función de los momentos.

S2x ∑n

i 1xi x 2ni

N ∑ni 1 x2

i ni

N x2 a2 a21

Problema Un fabricante de tubos de televisión dispone de dos tipos de tubos, A y B. Los tubostienen una duración media de 1495 h. y 1875 h. respectivamente. Las desviaciones típicas son280 para A y 310 para B.

Determinar qué tubo presenta mayor dispersión absoluta y cuál presente mayor dispersiónrelativa.

A 1495 y SA 280

4Por la primera propiedad de la media.

18

Page 19: Estadistica Sanchez-Jara

B 1875 y SB 310Podemos decir directamente que el tipo B presenta mayor dispersión absoluta, ya que la

desviación típica es una medida de dispersión.Para ver la dispersión relativa debemos calcular el Coeficiente de Variación de Pearson

(CV ):

CVA SA

A 280

1495 0 187

CVB SB

B 310

1875 0 165

Por tanto, será el tubo A el que presente mayor dispersión relativa.

19

Page 20: Estadistica Sanchez-Jara

2 Variables Estadísticas Bidimensionales

2.1. Introducción.

En el tema anterior hemos visto como estudiar una característica de un determinado conjun-to. En este tema trataremos la idea de poder estudiar a la vez dos características de ese conjunto,que podrán ser cualitativas o cuantitativas.

2.2. Distribuciones Conjuntas.

Por el hecho de trabajar con dos características tendremos que utilizar dos variables.Hay que tener en cuenta que las frecuencias serán también bidimensionales.Para representar los valores de las variables utilizaremos la Tabla de Doble Entrada o Tabla

de Distribución Conjunta1 .Las frecuencias absolutas las representaremos con dos subíndices de la siguiente forma:

x \ y y1 y2 -.-.- y j -.-.- yk ni /x1 n11 n12 -.-.- n1 j -.-.- n1k n1 /x2 n21 n22 -.-.- n2 j -.-.- n2k n2 /...

......

......

...xi ni1 ni2 -.-.- ni j -.-.- nik ni /...

......

......

...xh nh1 nh2 -.-.- nh j -.-.- nhk nh /n / j n 1 n 2 -.-.- n / j -.-.- n / k N

Donde i corresponde a la variable x, y j a la variable y.Nota: ∑h

i 1 ∑kj 1 ni j N

2.3. Representaciones Gráficas.

La más utilizada el la Nube de Puntos.En caso de tener los datos agrupados, representaremos las marcas de clase en el eje de

abscisas.Ver figura 2.1.

1Si utilizamos variables cualitativas se la denomina Tabla de Contingencia.

20

Page 21: Estadistica Sanchez-Jara

Figura 2.1: Nube de puntos.

2.4. Distribuciones Marginales.

Puede ser interesante estudiar por separado las características del grupo, para ellos existenlas distribuciones marginales.

Como ya hemos visto en la tabla de doble entrada tenemos dos tipos.

Distribución marginal de la y: ni /Distribución marginal de la y: n / j

2.5. Distribuciones Condicionadas.

Son distribuciones en las cuales una variable está condicionada a un determinado valor de laotra variable.

xi 0 y y jni 0 y y j

x1 n1 j

x2 n2 j

... xi .... ni j

xh nh j

xi 0 x xi n j 0 x xi

y1 n1i

y2 n2i

... y j .... n ji

yk nki

Frecuencia relativa condicionada: fi 0 j ni j

n 1 j y f j 0 i ni j

ni 1Por ejemplo: fi 0 2 ni2

n 2 22.6. Independencia Estadística.

Se dice que dos variables son estadísticamente independientes cuando su frecuencia relativaconjunta ni j

N es igual al producto de las frecuencias relativas marginales.

ni j

N ni /N 3 n / j

N

fi 0 j ni j

n 1 j ni jN

n 1 jN ni 1

N 4 n 1 jN

n 1 jN

ni 1N

21

Page 22: Estadistica Sanchez-Jara

f j 0 i ni j

ni 1 ni jNni 1N ni 1

N 4 n 1 jN

ni 1N

n 1 jN

2.7. Momentos de una distribución bidimensional.

2.7.1. Momentos con respecto al origen.

El momento de orden r,s con respecto al origen de una variable bidimensional será:

αrs h

∑i 1

k

∑j 1

xri y

sjni j

N

Casos Particulares:

α10 ∑hi 1 ∑k

j 1 x1i y0

jni j

N ∑hi 1 ∑k

j 1 xini j

N ∑hi 1 xi ∑k

j 1ni j

N ∑hi 1 xi

ni 1N x

α01 ∑hi 1 ∑k

j 1 x0i y1

jni j

N ∑hi 1 ∑k

j 1 y jni j

N ∑kj 1 y j ∑h

i 1ni j

N ∑kj 1 y j

n 1 jN y

α20 ∑hi 1 ∑k

j 1 x2i y0

jni j

N ∑hi 1 ∑k

j 1 x2i

ni j

N ∑hi 1 x2

i ∑kj 1

ni j

N ∑hi 1 x2

ini 1N

α02 ∑hi 1 ∑k

j 1 x0i y2

jni j

N ∑hi 1 ∑k

j 1 y2j

ni j

N ∑kj 1 y2

j ∑hi 1

ni j

N ∑kj 1 y2

jn 1 jN

2.7.2. Momentos con respecto a la media.

mrs h

∑i 1

k

∑j 1

xi x r y j y s ni j

N

Casos Particulares:

m10 ∑hi 1 ∑k

j 1xi x 1 y j y 0 ni j

N ∑hi 1 ∑k

j 1xi x ni j

N ∑hi 1xi x ni 1

N 2 0

m01 ∑hi 1 ∑k

j 1xi x 0 y j y 1 ni j

N ∑hi 1 ∑k

j 1yi y 1 ni j

N ∑hi 1y j y n 1 j

N 0

m11 ∑hi 1 ∑k

j 1xi x 1 y j y 1 ni j

N ∑hi 1xi x ∑k

j 1y j y ni j

N 3Sxy

m20 ∑hi 1 ∑k

j 1xi x 2 y j y 0 ni j

N ∑hi 1xi x 2 ni 1

N 4S2x

m02 ∑hi 1 ∑k

j 1xi x 0 y j y 2 ni j

N ∑kj 1 ∑h

i 1y j y 2 ni j

N ∑kj 1y j y 2 n 1 j

N 5S2y

Momentos con respecto a la media expresados en función de los momentos con respecto al origen:

2Por la primera propiedad de la media3Se denomina covarianza4Será la varianza de x5Será la varianza de y

22

Page 23: Estadistica Sanchez-Jara

m20 ∑hi 1xi x 2 ni 1

N ∑hi 1x2

i x2 2xix ni 1N ∑h

i 1 x2i

ni 1N ∑h

i 1 x2 ni 1N ∑h

i 1 2xixni 1N α20 x2 2xx α20 x2 α20 α2

10

m11 ∑hi 1 ∑k

j 1xi x 1 y j y 1 ni j

N ∑hi 1 ∑k

j 1 xiy jni j

N y∑hi 1 ∑k

j 1 xini j

N x∑hi 1 ∑k

j 1 y jni j

N xy∑hi 1 ∑k

j 1ni j

N ∑hi 1 ∑k

j 1 xiy jni j

N y∑hi 1 xi

ni 1N x∑k

j 1 y jn 1 jN x y α11 α10α01 α10α01 α10α01 α11 α10α01

2.8. Regresión Lineal.

En esta sección estudiaremos la dependencia que tienen las dos variables (x e y) y la formaen la que se relacionan.

Podemos estudiar la regresión de dos maneras:

1. Regresión: consiste en analizar la forma de las dependencias entre las dos variables.

2. Relación: consiste en analizar el grado de dependencia de las dos variables.

Nos centraremos en la regresión.El objetivo es buscar una función (y f

x ) que relacione las dos variables. Esta función

deberá aproximar a una recta la representación de la nube de puntos.Para ello utilizaremos un método matemático que es la aproximación por mínimos cuadra-

dos, obteniendo dos rectas:

Recta de regresión de y sobre x: y ax b, donde a Sxy

S2x

y b y Sxy

S2x

x

Recta de regresión de x sobre y: x a $ y b $ , donde a $ Sxy

S2y

y b $ x Sxy

S2y

y

2.9. Coeficiente de Correlación Lineal.

Determina el grado y el sentido de la dependencia lineal que existe entre las variables.

R Sxy

Sx Sy

El rango de valores es: 1 R 1El signo dependerá de la covarianza (Sxy).

Casos Extremos:

Si R 1, existe correlación lineal total directa6 entre las variables.

Si R 0, no existe correlación entre las variables.

Si R 5 1, existe correlación lineal total inversa7 entre las variables.

6Sxy 6 0 7 si aumenta x, aumenta y.7Sxy 8 0 7 si aumenta x, disminuye y.

23

Page 24: Estadistica Sanchez-Jara

2.10. Coeficiente de Determinación.

Mide la capacidad explicativa del modelo que hemos creado.

R2 S2xy

S2x S2

y

Ejemplo: Si R2 0 9, significa que explico el 90% de la y en el caso y ax b.

Problema De la siguiente tabla de doble entrada, calcula:

La distribución marginal de la variable y (n / j).La distribución de la variable x condicionada a que la variable y tome el valor 3.

El momento m20

El coeficiente de determinación.

x \ y 1 2 3 4 ni /5 1 2 1 3 7

10 2 1 3 2 815 3 2 1 2 8n / j 6 5 5 7 23

Distribución marginal de la variable y:

y n / j1 62 53 54 7

23

Distribución marginal de la variable x:

x ni /5 710 815 8

23

Distribución de la variable x condicionada a que la variable y tome el valor 3:

x 9 y 3 ni / 9 y 35 1

10 315 1

5

m20 S2x ∑h

i 1x2

i ni 1N x2 120 65 10 222 16 20

24

Page 25: Estadistica Sanchez-Jara

m02 S2y ∑k

j 1y2

j n 1 jN y2 7 96 2 562 1 4

m11 Sxy ∑hi 1 ∑k

j 1xi x 1 y j y 1 ni j

N α11 α10α01 25 22 10 22 3 2 56 5 0 9R2 S2

xy

S2xS2

y 0 9 2

16 20 3 1 4 0 036

25

Page 26: Estadistica Sanchez-Jara

3 Teoría de la Probabilidad

3.1. Fenómenos Deterministas y Aleatorios.

Un fenómeno es un experimento, como pueda ser el lanzar un dado. Existen dos tipos defenómenos:

Deterministas: cuando al realizar un experimento en las mismas condiciones, siempreobtenemos el mismo resultado.

Aleatorios: cuando al realizar un experimento en las mismas condiciones, nunca podre-mos predecir el resultado.

3.2. Espacio Muestral.

Lo denotaremos como E.1

Es el conjunto formado por los posibles resultados de un fenómeno aleatorio.

Ejemplo Para el lanzamiento de una moneda al aire: E cara cruz Ejemplo Para el lanzamiento de un dado: E 1 2 3 4 5 6 Ejemplo Para el lanzamiento de dos monedas al aire: E cara cara cruz cruz cara cruz cruz cara 3.3. Sucesos y Tipos de Sucesos.

Un suceso es un subconjunto del espacio muestral. Para denotarlos usaremos letras mayús-culas.

Ejemplo Para el E 1 2 3 4 5 6 :A salir 2 2 B salir par 2 4 6 C salir impar 1 3 5

1En algunos textos se denota como Ω.

26

Page 27: Estadistica Sanchez-Jara

Existen seis tipos de sucesos:

1. Suceso Elemental: Aquel que está formado por un solo elemento del espacio muestral.

2. Suceso Compuesto: Aquel que está formado por varios elementos del espacio muestral.

3. Suceso Imposible: Aquel cuyos elementos son el conjunto vacío, por tanto se denotacomo φ. Ej: Para E 1 2 3 4 5 6 , F salir 7 φ.

4. Suceso Seguro: es el que se va a presentar siempre, por tanto, es el suceso que está com-puesto por los elementos del espacio muestral.

5. Suceso Contrario o Complementario: Sea A un suceso, definimos su complementario(A) como aquel suceso que está formado por los sucesos elementales que no pertenecen aA. Ej: Para E 1 2 3 4 5 6 , A salir par 2 4 6 , A 1 3 5 salir impar.

6. Sucesos Condicionados: Sean A y B dos sucesos, se llama suceso de A condicionado aB (A 9 B) si se presenta A una vez que se haya presentado B. Ej: B salir par 2 4 6 A salir 2 2 .

7. Sucesos Incompatibles: Sean A y B dos sucesos, se dice que son incompatibles si A B φ. En caso contrario se dice que son compatibles.

8. Sucesos Independientes: Sean A y B dos sucesos, se dice que son independientes si PA

B : PA P

B . En caso contrario se dice que son dependientes.

3.4. Operaciones con sucesos.

3.4.1. Unión de sucesos (A ; B).

Dados dos sucesos A y B su unión estará formada por los sucesos elementales que pertenecena A ó a B ó a ambos.

Propiedad: A A E

3.4.2. Intersección de sucesos (A < B).

Dados dos sucesos A y B su intersección estará formada por los sucesos elementales quepertenecen a A y a B simultáneamente.

Propiedad: A A φ

3.4.3. Leyes de De Morgan.

Hay dos:

A B A B

A B A B

27

Page 28: Estadistica Sanchez-Jara

3.5. Definición Axiomática de la Probabilidad.

La probabilidad es una medida de la incertidumbre asociada a los fenómenos o los experi-mentos que dependen del azar. Existen distintas definiciones de la probabilidad; nos centramosen la definición axiomática de Kolmogorov: La probabilidad es una función que se asigna a unnúmero real llamado probabilidad (P

A ).

Axiomas:

La probabilidad de un suceso es siempre mayor o igual a cero.

PA # 0

La probabilidad de un suceso seguro es siempre la unidad.

PE = 1

Sean A1 A2 .>?>?>? An sucesos incompatibles2 donde Ai A j φ, para todo i j.

PA1 A2 @>.>.>. An : P

A1 A P

A2 AB-.-.- P

An

P nCi 1

Ai D n

∑i 1

PAi

Consecuencias de los axiomas:

PA : 1 P

A

PA A E P

A F P

A (por el tercer axioma), P

E G 1 (por el primer axioma) H

PA D 1 P

A

PE D 0

0 PA 1

PA # 0 (por el primer axioma); E A A; P

E I 1 P

A J P

A ; P

A = 1 si A φ

Sean A y B dos sucesos compatibles H PA B K P

A A P

B F P

A B

A B = A B A A BA A B sucesos incompatibles, por tanto,

PA B = P A B A B A B MLN P

A B J P

A B J P

A B F P

B O P

A B J P

A F P

A B A P

A B P P

A J P

B F P

A B

Sean A, B y C sucesos compatibles H PA B C I

PA A P

B A P

C F P

A B F P

A C O P

B C A P

A B C

2A y B son sucesos incompatibles si A Q B R φ, en caso contrario serán compatibles.

28

Page 29: Estadistica Sanchez-Jara

3.6. Otras definiciones de probabilidad.

3.6.1. Definición frecuencial de la probabilidad.

Sea A un suceso cualquiera. Definimos frecuencia relativa de ese suceso como el cocien-te del número de veces que aparece dicho suceso entre el número de veces que se realiza elexperimento.

frA : no de veces que aparece el suceso

no de veces que se realiza el experimento

Ejemplo: Sea A un suceso consistente en lanzar una moneda y que salga “cara”.

frA : no de veces que sale cara

no de veces que se lanza la moneda

La frecuencia relativa de un suceso tiende a estabilizarse en torno a un valor, a medida queel número de veces que se realiza el experimento crece indefinidamente. A ese valor se le llamaprobabilidad frecuencial del suceso:

PA : lım

no de veces que se realiza el experimento S ∞frA

Tiene dos inconvenientes:

1. El número de veces que hay que repetir el experimento es muy elevado.

2. No es fiable; el resultado obtenido es aproximado.

3.6.2. Definición de Laplace.

Sea A un suceso. Se define la probabilidad como el cociente entre el número de casos favo-rables y el número de casos posibles.

PA : no de casos favorables

no de casos posibles

Ejemplo: Lanzo un dado.E 1 2 3 4 5 6 A salir par 2 4 6 luego, P

A : 3

6 12

Ejemplo: lanzo dos veces una moneda.E cara cara cara cruz cruz cara cruz cruz B salir la primera cara P

B : 2

4 12

29

Page 30: Estadistica Sanchez-Jara

3.7. Probabilidad Condicionada.

Dados dos sucesos A y B, la probabilidad de A condicionada a B se define como PA 9 B y

será:

PA 9 B : P

A B PB si P

B 0

PB 9 A : P

A B PA si P

A 0

3.8. Sucesos Independientes.

Sean A y B dos sucesos, diremos que son independientes si PA B K P

A P

B

Si dos sucesos son independientes PA 9 B T P

A U B

PB P

A P

B

PB , por tanto, P

A B T

PA 9 B P

B : P

A P

B

PA1 A2 -.-.- An : P

A1 P A2 J-.-.- P An

Problema Tengo una urna con 5 bolas blancas y 4 bolas rojas.

Si se extraen dos bolas con reemplazamiento, determinar la probabilidad de que la primerasea blanca y la segunda roja.

PB : 5

9 0 556

PR : 4

9 0 444

Si se extraen tres bolas con reemplazamiento, determinar la probabilidad de que la primerasea blanca, la segunda roja y la tercera blanca.

PB : 5

9 0 556

PR : 4

9 0 444

PB : 5

9 0 556

30

Page 31: Estadistica Sanchez-Jara

Si se extraen dos bolas sin reemplazamiento, determinar la probabilidad de que la primerasea blanca y la segunda roja.

PB : 5

9 0 556

PR : 4

8 0 5Si se extraen tres bolas sin reemplazamiento, determinar la probabilidad de que la primerasea blanca, la segunda roja y la tercera blanca.

PB : 5

9 0 556

PR : 4

8 0 5PB : 4

7 0 571

3.9. Probabilidad de la intersección de sucesos.

Distinguiremos si los sucesos son independientes o dependientes.

Sucesos dependientes. Sean A y B dos sucesos dependientes. Se verifica que la probabli-dad de su intersección es la probabilidad de A condicionada a B por la probabilidad de Be igual a la probabilidad de B concionada a A por la probabilidad de A.

PA B = P

A 9 B P

B : P

B 9 A P

A

Sucesos independientes. Sean A y B dos sucesos independientes. La probabilidad de suintersección será la probabilidad de A por la probabilidad de B.

PA B K P

A P

B

31

Page 32: Estadistica Sanchez-Jara

3.10. Probabilidad “a priori” y “a posteriori”.

Suponemos que tenemos un suceso H , llamaremos probabilidad a priori a la probabilidadque se le asigna individualmente al suceso H . Es decir, la probabilidad de que salga H .

Supongamos que partimos de cierta información (X ), la probabilidad a posteriori es la pro-babilidad de H condicionada a la información que tenemos (X ).

PH 9 X = P

H X PX

PX 9 H = P

H X PH

PH X = P

X 9 H P

H

PX

3.11. Probabilidad Total.

Sean H1 H2 .>?>?>? Hn incompatibles. Hi H j φ para todo i j. Sea A otro suceso,

PA : n

∑i 1

PA 9 Hi P

Hi

3.12. Teorema de Bayes.

Supongamos que tenemos H sucesos incompatibles (H1 H2 .>?>?>? Hn cuya unión será E > Seaun suceso cualquiera. El teorema de Bayes dice:

PHi 9 A D P

A 9 Hi P

Hi

PA

PA 9 Hi : P

Hi A PHi H P

Hi A = P

A 9 Hi P

Hi

Problema. El volumen de producción diario en tres plantas diferentes de una fábrica es de 500unidades en la primera, 1000 unidades en la segunda y 2000 unidades en la tercera. Sabiendoque el porcentaje de unidades defectuosas producidas en las tres plantas es del 1 %, 0,8 % y 2 %respectivamente, determinar la probabilidad de que:

1. Extraida una unidad al azar resulte NO defectuosa.

Llamaremos:

A producción de la primera planta H PA : 500

3500 0 143

32

Page 33: Estadistica Sanchez-Jara

B producción de la segunda planta H PB K 1000

3500 0 286

C producción de la primera planta H PC D 2000

3500 0 571

D pieza defectuosa

PD V P

D 9 A P

A W P

D 9 B P

B W P

D 9 C P

C V 0 01P

A X 0 008P

B X 0 02P

C V

0 0153

PD : 1 0 15 0 985

2. Habiendo sido extraida una unidad defectuosa, haya sido producida en la primera planta.o

PA 9 D : P

D 9 A P

A

PD 0 01 3 0 143

0 015 0 095

Problema. Una compañía dedicada al transporte público explota tres líneas periféricas de unagran ciudad, se observa que el 60 % de los autobuses cubren el servicio de la primera linea, el30 % cubren el servicio de la segunda linea, y el 10 % cubren el servicio de la tercera línea. Sesabe que la probabilidad de que diariamente un autobús se averíe es del 2 % en la primera línea,del 4 % en la segunda y del 1 % en la tercera. Determinar:

1. La probabilidad de que en un día un autobús sufra una avería

Llamamos:

θ1 Que sea de la primera línea

θ2 Que sea de la segunda línea

θ3 Que sea de la tercera línea

A Que se averíe

PA V P

A 9 θ1 P θ1 W P

A 9 θ2 P θ2 W P

A 9 θ3 P θ3 V 2

1000 6 4

1000 3 1

1000 1 0 025

2. Sabiendo que un autobús ha sufrido una avería en un día determinado, ¿Cuál es la proba-bilidad de que preste servicio en la primera línea?

Pθ1 9 A : P

A 9 θ1

PA 0 02 3 0 6

0 025 0 48

3aplicamos el punto 3.11

33

Page 34: Estadistica Sanchez-Jara

Problema. Demostrar:

1. PA 9 B A P

A 9 B D 1 siendo P

B ZY 0

Suponemos que A y B son sucesos independientes y por tanto PA B I P

A P

B

PA B K P

A P

B

PA 9 B : P

A U B

PB P

A P

B

PB P

A

PA 9 B [ P

A

PA J P

A : P

A A 1 P

A K 1

2. PA B 9 C = P

A 9 C J P

B 9 C O P

A B 9 C siendo P

C \Y 0

PA B K P

A A P

B

PA 9 B : P

A U B

PB

PA B 9 C F P ] A ^ B U C _

PC P ] A U C ^ B U C _

PC P

A U C P

B U C P

A U B U C

PC P

A U C

PC P

B U C

PC

PA U B U C PC P

A 9 C A P

B 9 C F P

A B 9 C

34

Page 35: Estadistica Sanchez-Jara

4 Variable Aleatoria Discreta

4.1. Introducción

4.1.1. Concepto de una variable aleatoria

Una variable aleatoria la representamos por ξ y es una función que va desde el espaciomuestral hasta el conjunto de los números reales. De tal forma que a cada suceso elemental leasigna una imagen.

ξ : E a`4.1.2. Función de distribución de una variable aleatoria

Es una función que va desde los números reales hasta el intervalo [0,1], de modo que paracualquier x la función de distribución lo que indica es la probabilidad de que la variable aleatoriatome valores menores o iguales al número que me dan.

F : ` 0 1 Lx F

x b P

ξ x

Que será la probabilidad acumulada hasta el valor x.

Propiedades

lımx Sc ∝ Fx [ 1

lımx Sd ∝ Fx [ 0

Es una función monótona creciente, sea x1 y x2 tal que x1 e x2 H Fx1 Ze F

x2

Es una función contínua por la derecha, lımh S 0 Fx h D F

x h Y 0

4.1.3. Clasificación de una variable aleatoria discreta y contínua

Las variables aleatorias se clasifican en variables aleatorias discretas y variables aleatoriascontínuas.

35

Page 36: Estadistica Sanchez-Jara

4.1.3.1. Variables aleatorias discretas

Son aquellas que toman valores aislados. Como por ejemplo, el lanzamiento de una moneda,puede tomar dos valores: cara o cruz.

4.1.3.2. Variables aleatorias contínuas

Son aquellas que pueden tomar cualquier valor dentro de un intervalo dado. Por ejemplo latemperatura.

4.2. Variables aleatorias discretas

4.2.1. Función de masa de una variable aleatoria discreta

También se conoce como Función de Cuantía.Es una función definida en el conjunto de los números reales y cuyas imágenes pertenecen

al intervalo cerrado [0,1], donde a cada valor del conjunto de números reales se le asocia laprobabilidad inducida cuando la variable aleatoria toma el valor xi.

F : ` 0 1 Lxi F

xi D P

ξ xi

4.2.1.1. Representación gráfica de la función de masa

x1 x2 xn...

Figura 4.1: Representación de la función de masa

Se representa mediante un diagrama de barras, se omite el eje de ordenadas, sobre el cualse ponen los valores que toma la variable, levantando una barra sobre cada valor de la variablecuya altura es la probabilidad de que la variable tome ese valor. Véase figura 4.1.

La suma de las alturas de todas las barras tiene que ser 1.

4.2.2. Distribución de probabilidad

Es una tabla que nos proporciona la información de todos los posibles valores que toma lavariable aleatoria acompañada de sus correspondientes probabilidades.

36

Page 37: Estadistica Sanchez-Jara

ξ xi x1 x2 -.-.- xn

Pξ xi ξ x1 ξ x2 -.-.- ξ xn

4.2.2.1. Ejemplo

Para el lanzamiento de una moneda la tabla sería:

ξ xi 0 1Pξ xi 1

212

4.2.3. Función de distribución de una variable aleatoria discreta

F : ` 0 1 Lx F

x [ P

ξ x [ ∑

i

Pξ xi

Ejemplo

Fx3 D 3

∑i 1

Pξ xi : P

ξ x1 A P

ξ x2 A P

ξ x3 : ∑

iFxi

La diferencia entre la función de distribución y la de masa es que para la primera es laprobabilidad acumulada y para la de masa es la probabilidad en el punto.

4.2.3.1. Representación gráfica de la función de distribución

Suponemos que la variable solo toma dos valores diferentes (x1 y x2). Para dibujarla nosbasamos en el diagrama de barras.

Vamos a considerar diferentes tramos:

Considero un valor x e x1para el cual Fx D P

ξ x D 0

El siguiente que considero será x1 x e x2 para el que Fx D P

ξ x [ P

ξ x1

El tercer tramo será x # x2 para el que Fx [ P

ξ x D P

ξ x1 A P

ξ x2 D 1

Fx bgfhji 0 x e x1

Pξ x1 x1 x e x2

Pξ x1 A P

ξ x2 : 1 x # x2

Una función de distribución de una variable aleatoria discreta debe quedar como en la figura4.2, siendo escalonada (“da saltos” en los puntos donde se concentra la probabilidad). El incre-mento que experimenta la función en cada salto es igual a la probabilidad correspondiente a esevalor (P

ξ xi ).

37

Page 38: Estadistica Sanchez-Jara

F(x)

xx1 x2

Figura 4.2: Representación de la función de distribución

4.2.3.2. Cálculo de probabilidades a partir de la función de distribución

Sea Fx la función de distribución de una variable aleatoria discreta y sean a y b dos núme-

ros reales cualesquiera tales que a e b, entonces se verifica que1:

1. Pa e ξ b : F

b F F

a

2. Pa e ξ e b : F

b F F

a F P

ξ b

3. Pa ξ b : F

b F F

a A P

ξ a

4. Pa ξ e b D F

b F F

a O P

ξ b A P

ξ a

4.2.4. Momentos con respecto al origen (αr)

Definimos momento de orden r con respecto al origen

αr ∑i

xri Pξ xi

Casos particulares:

2Para r 0, αo ∑i Pξ xi : ∑i P

ξ xi [ 1

Para r 1 recibe el nombre de esperanza matemática, valor esperado o valor probable.Se puede representar como:

α1 E ξ LJ M ∑i

xiPξ xi

1Ya que F k b lR P k ξ m b l , es decir, todos los puntos anteriores y el punto b.2La suma de todas las probabilidades es 1.

38

Page 39: Estadistica Sanchez-Jara

4.2.4.1. Esperanza matemática. Propiedades

La esperanza de una constante es igual a la constante

E C LA C

Si C es constante, Pξ C : 1

La esperanza de una constante por una variable aleatoria es igual a la constante por laesperanza de la variable aleatoria.

E C ξ LP C E ξ L(definición previa a la demostración) Sea ξ una variable aleatoria discreta y sea g ξ L unafunción de la misma, entonces se verifica que:

E g ξ MLA ∑i

gxi P

ξ xi

E C ξ LA ∑i C xi Pξ xi D C ∑i P

ξ xi D C E ξ L

La esperanza de una suma o resta de variables aleatorias es igual a la suma o resta de lasesperanzas.

E ξ1 n ξ2 LA E ξ1 Lon E ξ2 LEjemplo Lanzamos un dado una vez y consideramos la variable aleatoria ξ puntuación obtenida,determinar:

1. La distribución de probabilidad y su representación gráfica.

ξ xi 1 2 3 4 5 6Pξ xi 1

616

16

16

16

16

1 2 3 4 5 6

1/6 1/6 1/6 1/6 1/6 1/6

2. La función de distribución y su representación gráfica.

x e 1 H Fx D P

ξ x D 0

39

Page 40: Estadistica Sanchez-Jara

1 x e 2 H Fx b P

ξ x D P

ξ 1 D 1

6

2 x e 3 H Fx b P

ξ x D P

ξ 1 A P

ξ 2 [ 1

6 16 2

6

3 x e 4 H Fx b P

ξ x D P

ξ 1 A P

ξ 2 A P

ξ 3 : 1

6 16 1

6 36

4 x e 5 H Fx G P

ξ x G P

ξ 1 I P

ξ 2 I P

ξ 3 K P

ξ 4 p

16 1

6 16 1

6 46

4 x e 5 H Fx = P

ξ x = P

ξ 1 q P

ξ 2 q P

ξ 3 q P

ξ 4 q P

ξ

5 D 16 1

6 16 1

6 16 5

6

5 x e 6 H Fx = P

ξ x = P

ξ 1 q P

ξ 2 q P

ξ 3 q P

ξ 4 q P

ξ

5 A Pξ 6 D 1

6 16 1

6 16 1

6 16 6

6

1/6

2/6

3/6

4/6

5/6

6/6

1 2 3 4 5 6

3. La puntuación esperada (esperanza de la variable).

E ξ LA ∑i

xi Pξ xi D 1

16 2

16 3

16 4

16 5

16 6

16 3 5

Problema3 En un grupo de 50 alumnos el número de estudiantes que resuelve los problemaspropuestos en clase un día cualquiera es una variable aleatoria con la siguiente probabilidad:

Pξ x Fr kx x 1 2 .>?>?>? 20

5k x 21 22 .>?>?>? 50

Calcula:

El valor de k para que la función anterior sea efectivamente una ley de probabilidad.

Tiene que cumplir que ∑50i 1 P

ξ xi : 1

∑20i 1 k xi ∑50

i 21 5k 1 H k ∑20i 1 xi 5k ∑50

i 21 1 1 H 210 k 5k 30 1 H 360 k 1 H k 1

360 0 0028

La probabilidad de que un día resuelvan los problemas propuestos más de 20 alumnos( Y 20). (Ver fotocopias de problemas).

Cuál es la probabilidad de que lo resuelvan como mucho 5. Y la de que lo resuelvan másde 15 y menos de 25. (Ver fotocopias de problemas).

3de examen

40

Page 41: Estadistica Sanchez-Jara

Problema4 Se lanza una moneda tres veces y se considera la variable aleatoria ξ al número decaras obtenidas, se pide:

(Ver fotocopias de problemas).

Distribución de probabilidad de la variable aleatoria.

Número de caras esperado.

Varianza y función característica.

Probabilidad de que salga cara la primera vez si se sabe que la variable aleatoria toma elvalor 2 (ξ 2).

Esperanza y varianza a partir de la función característica.

4.2.5. Momentos respecto a la esperanza

4.2.5.1. Varianza. Propiedades

4.2.5.2. Desviación Típica

4.2.6. Función característica. Propiedades

4.2.7. Algunas distribuciones discretas

4.2.7.1. Distribución de Bernoulli Bp

Se usa para representar fenómenos en los que sólamente se pueden dar dos sucesos incom-patibles.

ξ 1 Pξ 1 [ p

ξ 0 Pξ 0 [ q

Función de masa Representa la probabilidad en los puntos.

fx [ P

ξ x D fh i p x 1

q x 00 resto

Esperanza Eξ : 1 p 0 q p

Eξ : p

Varianza Vξ D α2 α2

1 p p2 p1 p

Como 1 p q Vξ : p q

4de examen

41

Page 42: Estadistica Sanchez-Jara

Función Característica ϕξt \ E s eit ξ t ∑ j eit j P

ξ x j Z ei t 1P

ξ 1 V ei t 0 P

ξ

0 D ei t p qϕξ ei t p q

4.2.7.2. Distribución Binomial Bn p

Seguirá una distribución binomial si el resultado de sumar n variables independientes entresí donde cada una se distribuye como una Bernoulli de parámetro p.

ξ u Bn p

ξ ∑ni 1 ξi independientes

ξ ξ1 ξ2 B-.-.-. ξn

En definitiva, una distribución binomial puede ser considerada como una distribución deBernoulli que se repite n veces.

Función de masa Representa la probabilidad en los puntos.

fx b P

ξ x D r n

x px qn x x 0 1 2 .>?>? n0 resto

Esperanza Eξ I E ξ1 ξ2 v-.-.-M ξn LN E

ξ1 q E

ξ2 qv-.-.-M E

ξn F p p v-.-.-w p n p

Eξ : n p

Varianza Vξ E V ξ1 ξ2 &-.-.-x ξn Lb (por ser independientes) V

ξ1 = V

ξ2 =y-.-.-x

Vξn D p q p q z-.-.-. p q n p qVξ : n p q

Función Característica ϕξt I E s ei t ξ t E s ei t

ξ1 ξ2 K ξn t ei t

ξ1 ξ2 I ξn ei t ξ1

ei t ξ2 z-.-.-| ei t ξn

ϕξ ei tp q n

4.2.7.3. Distribución de Poisson Pλ

Sólo dependerá de un parámetro λ que será siempre positivo.Mediante esta distribución se representa el número de veces que se presenta un fenómeno en

un intervalo de tiempo o en una región del espacio.

Función de masa Representa la probabilidad en los puntos.

fx [ P

ξ x D~ e λ λx

x! x # 00 resto

Esperanza Eξ : λ

42

Page 43: Estadistica Sanchez-Jara

Varianza Vξ : λ

Función Característica ϕξ eλei t 1

Problema En un laboratorio se comprobó que la utilización de un producto mejoraba el 80 %de las reacciones químicas de cierto tipo. Si se utiliza dicho producto en 8 reacciones de ese tipo,calcular:

La probabilidad de que mejoren 5.

La probabilidad de que mejoren al menos 3.

El número de reacciones que se espera que mejoren.

ξi 1 Pξ 1 D 0 8 si mejora

ξi 0 Pξ 0 D 0 2 si no mejora

Se trata de una distribución de Bernoulli Bp donde p 0 8

Como son dos sucesos independientes, ξ ∑8i 1 ξi

ξ u B8 0 8

Pξ 5 D 8!

5! 3!0 85 0 23 0 15

Pξ 0 D 8!

0! 8! 0 80 0 28 0 28=Pξ 1 D 8!

1! 7! 0 81 0 27 Pξ 2 D 8!

2! 6! 0 82 0 26 Pξ # 3 D 1 P

ξ 0 F P

ξ 1 O P

ξ 2 D 0 998

Problema Suponiendo que la probabilidad del nacimiento de un chico es 12 , determinar la

probabilidad de que un una familia con cinco niños:

al menos uno sea niño

de obtener 1 ó 2 niñas

todos sean niños

43

Page 44: Estadistica Sanchez-Jara

Nos encontramos con una distribución binomial.ξi 1 P

ξ 1 D 0 8 si mejora

ξi 0 Pξ 0 D 0 2 si no mejora

ξ ∑5i 1 ξi

ξ u B5 0 5

Pξ 0 D

Pξ 3 D

Pξ 4 D

Pξ 5 D

Pξ # 1 D 1 P

ξ 0 D

Pξ 4 J P

ξ 3 :

Pξ 5 D

Problema El número de automóviles que llega a una gasolinera es de 210 por hora. Si dichaestación de servicio puede atender un máximo de 10 automóviles por minuto, determinar laprobabilidad de que en un minuto dado lleguen más de los que se pueden atender.

Nos encontramos con una Poisson, ello lo podemos deducir viendo que nos encontramosante una variable discreta que es coche. Además las distribuciones de Poisson hacen referenciaa intervalos de tiempo como es el caso.

λ 21060 3 5

Pλ : P

3 5

Pξ 10 P

ξ 0 V P

ξ 1 V P

ξ 2 V P

ξ 3 V P

ξ 4 V P

ξ 5 V P

ξ

6 J Pξ 7 A P

ξ 8 A P

ξ 9 J P

ξ 10 [

Pξ 0 D

Pξ 1 D

Pξ 2 D

Pξ 3 D

Pξ 4 D

Pξ 5 D

Pξ 6 D

Pξ 7 D

Pξ 8 D

Pξ 9 D

Pξ 10 D

Pξ Y 10 D 1 P

ξ 10 [ 0 02

44

Page 45: Estadistica Sanchez-Jara

Problema Aún estando sometidas a control diario los componentes electrónicos suministradospor una importante empresa, se estima que la probabilidad de que en un día sean vendidos rartículos defectuosos es 2

3 13 r

si r 0 1 2 3 .>?>?> determinar la probabilidad de que en un díasean vendidos:

Dos o más defectuosos.

Pξ # 2 D 1 P

ξ 1 O P

ξ 0 D 1 2

3

13 1 D 1

9 0 111

5 artículos defectuosos.

Pξ 5 D 2

3

13 5 0 0027

Tres o menos artículos defectuosos.

Pξ 3 D P

ξ 0 J P

ξ 1 A P

ξ 2 A P

ξ 3 D 2

3

1 1

3 19 1

27 [Problema Con el fin de estimar la posible ausencia de alumnos en horas clase en la asignaturade Estadística se analiza el número de dñias soleados en una semana lectiva (5 días) de prima-vera. Para ello se han examinado los datos meteorológicos de 1000 semanas primaverales delúltimo siglo obteniendo la siguiente tabla:

días soleados 0 1 2 3 4 5Frecuencia (semanas 38 144 342 287 164 25

Se pide ajustar una distribución binomial a los datos anteriores.

BINOMIAL ξ u B5 p

x 0 4 38 1 4 44 2 4 342 3 4 287 4 4 164 5 4 251000 2 47 E ξ LJ n p H p 2 47

5 0 494

Problema Se ha observado un telar durante cierto tiempo anotando el número de roturas porcada 10000 pasadas de lanzadera y se ha obtenido lo siguiente:

no de roturas 0 1 2 3 4 5 6Frecuencia 40 48 39 16 5 1 1

Ajustar una ley de Poisson y calcular las probabilidades del número de roturas.Pξ 0 D 0 254

Pξ 1 D 0 348

Pξ 2 D 0 238

Pξ 3 D 0 108

Pξ 4 D 0 037

Pξ 5 D 0 010

Pξ 6 D 0 0023

45

Page 46: Estadistica Sanchez-Jara

Problema En una determinada zona geogafica se pretende introducir un nuevo producto delque es razonable esperar sea demandado por el 0,4 % de los habitantes de dicha zona. Determinarla probabilidad de que consultados 1000 de estos dicho producto sea demandado por:

tres o más.

cinco o menos

ξi 1 Pξ 1 D 0 004 si se demanda el producto

ξi 0 Pξ 0 D 0 996 si no se demanda el producto

ξ u Bn p I B

1000 0 004 es binomial porque se da para 1000, es decir, se repite 1000

veces, por ello n 1000.

Pξ # 3 D 1 P

ξ 0 O P

ξ 1 F P

ξ 2 D 0 7619

Pξ 5 [ P

ξ 0 A P

ξ 1 A P

ξ 2 A P

ξ 3 J P

ξ 4 A P

ξ 5 [ 0 7852

Pξ x D n

x 0 004x 0 996n x n!x!n x ! 0 004x 0 996n x 1000!

0! 1000! 0 004x 0 996n x

Como nos encontramos en el caso de que prácticamente n ∞ y p 0 aproximamos conuna Poisson en la que λ n p 1000 3 0 004 4 por tanto:

Pξ x D e λ λx

x! calculamos ahora las probabilidades para cada uno de los casos que nosinteresan.

Pξ 0 D e 4 40

0! 0 0183

Pξ 1 D e 4 41

1! 0 0773

Pξ 2 D e 4 42

2! 0 1465

Pξ 3 D e 4 43

3! 0 1954

Pξ 4 D e 4 44

4! 0 1954

Si nos encontramos ante una distribución binomial en la que n ∞ y p 0 aproximamoscon una Poisson P

λ en la que λ n p

Problema En una población los individuos con renta superior a 12000 EUR es de 0.005 %,determinar la probabilidad de que entre 5000 individuos consultados haya dos con ese nivel derenta.

ξi 1 Pξ 1 D 0 005 si la renta es mayor a 12000 EUR.

ξi 0 Pξ 0 D 0 996 si la renta es menor a 12000 EUR.

ξ u Bn p F B

5000 0 005 es binomial porque se hace un muestreo entre 5000, es decir,

se repite 5000 veces, por ello n 5000.Como nos encontramos en el caso de que prácticamente n ∞ y p 0 aproximamos con

una Poisson en la que λ n p 5000 3 0 005 0 25 por tanto:

46

Page 47: Estadistica Sanchez-Jara

Pξ 2 D e 0 25 0 252

2! 0 02433

Problema Dada una variable ξ cuya distribución de probabilidad viene dada por:

Pξ x K 3

2q

x!4 x ! x 0 1 2 3 4

0 resto

Determinar:

La función de distribución de la variable.

Pξ 3 ; P

1 ξ 2 5 ; P

ξ 2 5

Fx D P

ξ x D ∑

xi xPξ xi

Pξ 0 D 3

21

0! 4! 348

Pξ 1 D 3

21

1! 3! 312

Pξ 2 D 3

21

2! 2! 38

Pξ 3 D 3

21

3! 1! 312

Pξ 4 D 3

21

4! 0! 348

ξ x 0 1 2 3 4Pξ x 3

48312

38

312

348

0 1 2 3 4

T1 T2 T3 T4 T5T0

T0: x e 0 H Fx b 0

T1: 0 x e 1 H Fx D P

ξ 0 D 3

48T2: 1 x e 2 H F

x D P

ξ 0 A P

ξ 1 [ 15

48T3: 2 x e 3 H F

x D P

ξ 0 A P

ξ 1 A P

ξ 2 D 33

48T4: 3 x e 4 H F

x D P

ξ 0 A P

ξ 1 A P

ξ 2 J P

ξ 3 D 45

48T5: x # 2 H F

x b P

ξ 0 A P

ξ 1 A P

ξ 2 J P

ξ 3 A P

ξ 4 D 1

47

Page 48: Estadistica Sanchez-Jara

F2 5 [ P

ξ 0 A P

ξ 1 A P

ξ 2 [ 33

48F1 b P

ξ 0 J P

ξ 1 D 15

48

Pξ 3 D 3

21

3! 1! 312

P1 ξ 2 5 D F

2 5 F F

1 J P

ξ 1 D 33

48 1548 3

12 648

Pξ 2 5 D P

ξ 0 A P

ξ 1 A P

ξ 2 D 33

48

48

Page 49: Estadistica Sanchez-Jara

Índice alfabético

Amplitud del Intervalo, 9

Bayes, 32

Coeficiente de Correlación Lineal, 23Coeficiente de Determinación, 24Coeficiente de Variación de Pearson, 16covarianza, 22Cuantiles, 13

Desviación Típica, 16Diagrama de Barras, 9Diagrama de Frecuencias Acumuladas, 9Distribuciones Condicionadas, 21Distribuciones Marginales, 21

Espacio Muestral, 26esperanza matemática, 38estadística, 6Estadística Descriptiva, 6

fenómeno, 26Frecuencia Absoluta, 7Frecuencia Relativa, 7frecuencia relativa, 29Función de Cuantía, 36Función de distribución, 35, 37Función de Masa, 36

Histograma, 9

Intersección, 27

Leyes de De Morgan, 27

Marca de Clase, 9Media, 10Mediana, 11Moda, 13Momentos, 17, 22, 38

Nube de Puntos, 20

Polígono de Frecuencias, 10Probabilidad a posteriori, 32Probabilidad a priori, 32probabilidad acumulada, 35

Recorrido, 15Recorrido Intercuantílico, 15Regresión, 23Relación, 23

suceso, 26

Tabla de Contingencia, 20Tabla de Doble Entrada, 20

Unión, 27

variable aleatoria, 35Variable Tipificada, 16Variables contínuas, 7, 36variables cualitativas, 6variables cuantitativas, 6Variables discretas, 7, 36Variables Estadísticas Bidimensionales, 20Varianza, 15, 18, 22

49