ESTADÍSTICA - Universidad Salesiana de...

63
Lic. James Juan Saravia Zambrana I. INTRODUCCION A LA ESTADISTICA...................................3 1.1 INTRODUCCION................................................. 3 1.2 DEFINICION................................................... 3 1.3 DIVISION..................................................... 4 1.4 POBLACION Y MUESTRA..........................................4 1.5 VARIABLES Y SUS CLASIFICACIONES..............................5 1.6 ETAPAS DEL MÉTODO ESTADÍSTICO................................7 1.6.1 PLANTEAMIENTO DEL PROBLEMA................................7 1.6.2 FIJACIÓN DE LOS OBJETIVOS.................................7 1.6.3 FORMULACIÓN DE LAS HIPÓTESIS..............................8 1.6.4 DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDA..........................................................8 1.6.5 DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA.............8 1.6.6 LA RECOLECCIÓN............................................9 1.6.7 CRITICA, CLASIFICACIÓN Y ORDENACIÓN.......................9 1.6.8 LA TABULACIÓN............................................10 1.6.9 LA PRESENTACIÓN..........................................10 1.6.10 EL ANÁLISIS.............................................10 1.6.11 PUBLICACIÓN.............................................11 II ARITMETICA FUNDAMENTAL......................................... 12 2.1 La Sumatoria y sus Propiedades..............................12 2.2 Frecuencias relativas.......................................12 2.1.1 La Razón.................................................14 2.1.2 La Proporción............................................15 2.1.3 El Porcentaje............................................15 2.1.4 Las Tasas................................................15 2.2 Redondeo...................................................16 III ESTADISTICA DESCRIPTIVA....................................... 17 3.1 DISTRIBUCION DE FRECUENCIAS.................................17 3.2 TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS.......................17 3.3 PROPIEDADES DE LAS FRECUENCIAS..............................18 3.4 MEDIDAS DE TENDENCIA CENTRAL................................20 3.4.1 MEDIA ARITMÉTICA.........................................20 3.4.2 LA MEDIANA...............................................21 3.4.3 LA MODA..................................................22 3.5 Relación entre las medias de posición.......................23 3.5.1 La Media Ponderada.......................................23 3.5.2 La Media Geométrica......................................24 3.5.3 La Media Armónica........................................24 1

Transcript of ESTADÍSTICA - Universidad Salesiana de...

Page 1: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

I. INTRODUCCION A LA ESTADISTICA...........................................................................................31.1 INTRODUCCION........................................................................................................................31.2 DEFINICION................................................................................................................................31.3 DIVISION......................................................................................................................................41.4 POBLACION Y MUESTRA.......................................................................................................41.5 VARIABLES Y SUS CLASIFICACIONES.............................................................................51.6 ETAPAS DEL MÉTODO ESTADÍSTICO...............................................................................7

1.6.1 PLANTEAMIENTO DEL PROBLEMA................................................................................71.6.2 FIJACIÓN DE LOS OBJETIVOS..........................................................................................71.6.3 FORMULACIÓN DE LAS HIPÓTESIS................................................................................81.6.4 DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDA 81.6.5 DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA......................................81.6.6 LA RECOLECCIÓN...............................................................................................................91.6.7 CRITICA, CLASIFICACIÓN Y ORDENACIÓN.................................................................91.6.8 LA TABULACIÓN...............................................................................................................101.6.9 LA PRESENTACIÓN...........................................................................................................101.6.10 EL ANÁLISIS.....................................................................................................................101.6.11 PUBLICACIÓN..................................................................................................................11

II ARITMETICA FUNDAMENTAL....................................................................................................122.1 La Sumatoria y sus Propiedades.......................................................................................122.2 Frecuencias relativas............................................................................................................12

2.1.1 La Razón................................................................................................................................142.1.2 La Proporción........................................................................................................................152.1.3 El Porcentaje..........................................................................................................................152.1.4 Las Tasas...............................................................................................................................152.2 Redondeo..................................................................................................................................16

III ESTADISTICA DESCRIPTIVA......................................................................................................173.1 DISTRIBUCION DE FRECUENCIAS....................................................................................173.2 TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS............................................................173.3 PROPIEDADES DE LAS FRECUENCIAS..........................................................................183.4 MEDIDAS DE TENDENCIA CENTRAL................................................................................20

3.4.1 MEDIA ARITMÉTICA........................................................................................................203.4.2 LA MEDIANA......................................................................................................................213.4.3 LA MODA............................................................................................................................22

3.5 Relación entre las medias de posición.......................................................................................233.5.1 La Media Ponderada..............................................................................................................233.5.2 La Media Geométrica............................................................................................................243.5.3 La Media Armónica...............................................................................................................243.5.4 Los cuantiles..........................................................................................................................25

3.6 Estadígrafos de Dispersión.................................................................................................263.6.1 Recorrido de la Variable........................................................................................................263.6.2 Recorrido Intercuartil............................................................................................................273.6.3 Desviación Media..................................................................................................................273.6.4 Varianza y Desviación Estándar y sus propiedades..............................................................273.6.5 Cuasivarianza muestral..........................................................................................................283.6.6 Coeficiente de variación........................................................................................................28

3.7 Estadígrafos de Asimetría....................................................................................................29

1

Page 2: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

3.8 Coeficientes de apuntamiento............................................................................................293.9 Diagrama de caja....................................................................................................................29

IV ESTADISTICA INFERENCIAL......................................................................................................314.1 Definiciones Básicas de Probabilidad..............................................................................314.2. Propiedades de las Probabilidades.........................................................................................324.3 Propiedades Matemáticas de las Probabilidades........................................................334.3.1 Reglas de la Adición.................................................................................................................33

4.3.2. Eventos Mutuamente Excluyentes y No Excluyentes.........................................................344.3.3. Eventos Independientes, Eventos Dependientes y Probabilidad Condicional....................354.3.4. Reglas de la multiplicación.................................................................................................36

2

Page 3: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

ESTADÍSTICA

CAPITULO I

I. INTRODUCCION A LA ESTADISTICA

1.1 INTRODUCCIONLa palabra estadística se origina, en las técnicas de recolección, organización,

conservación, y tratamiento de los datos propios de un estado, con que los antiguos

gobernantes controlaban sus súbditos y dominios económicos. Estas técnicas evolucionaron

a la par con el desarrollo de las matemáticas, utilizando sus herramientas en el proceso del

análisis e interpretación de la información.

En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el

punto de incursionar en la totalidad de las ciencias; inclusive, en la lingüística se aplican

técnicas estadísticas para esclarecer la paternidad de un escrito o los caracteres más

relevantes de un idioma.

La gran aportación de la estadística es, precisamente, ese arsenal de instrumentos y

técnicas que permiten tratar y sintetizar esa gran cantidad de información, en un intento de

buscar las posibles regularidades que la misma esconde detrás de la enorme variabilidad

con la que se presenta. El objetivo último de ese tratamiento estadístico de la información es

reducir, en la medida que ello sea posible, la incertidumbre inherente a la variabilidad de la

información, para que la toma de decisiones, de cualquier agente (económico o de otra

naturaleza), se lleve a cabo con el menor grado de incertidumbre posible.

1.2 DEFINICIONDesde el punto de vista formal, la estadística es un conjunto de técnicas que, partiendo de la observación de fenómenos, permiten al investigador obtener conclusiones útiles sobre ellos.

3

Page 4: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

1.3 DIVISIONLa estadística se divide en dos grandes ramas de estudio que son: La estadística descriptiva, la cual se encarga de la recolección, clasificación y descripción de datos

muestrales o poblacionales, para su interpretación y análisis; y la estadística matemática o inferencial, que desarrolla modelos teóricos que se ajusten a una determinada realidad con

cierto grado de confianza.

Estas dos ramas no son independientes; por el contrario, son complementarias y entre

ambas dan la suficiente ilustración sobre una posible realidad futura, con el fin de que quien

tenga poder de decisión, tome las medidas necesarias para transformar ese futuro o para

mantener las condiciones existentes.

1.4 POBLACION Y MUESTRAEstadísticamente, la población se define como un conjunto de individuos o de objetos que

poseen una o varias características comunes. No se refiere esta definición únicamente a los

seres vivientes; una población puede estar constituida por los habitantes de un país o por

los peces de un estanque, así como por los establecimientos comerciales de un barrio o las

unidades de vivienda de una ciudad.

Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el

término infinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los

peces dentro de un estanque son un conjunto finito; sin embargo, en términos estadísticos,

puede ser considerado como infinito.

Muestra es un subconjunto de la población a la cual se le efectúa la medición con el fin de

estudiar las propiedades del conjunto del cual es obtenida.

4

Page 5: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

1.5 VARIABLES Y SUS CLASIFICACIONESVARIABLES.- Es una característica de la población que se va investigar y que puede tomar

diferentes valores.

Las variables se clasifican en:

o Cualitativas

o Cuantitativas

VARIABLES CUALITATIVA.- Son variables cuyos valores son cualidades que presenta la

población, no lleva clasificación numérica.

Ejemplo.-COLOR: Blanco, Rojo, Azul,....., etc

La variable cualitativa se clasifica en:

o Nominal

o Ordinal

VARIABLES CUALITATIVA NOMINAL.- Son aquella que establecen la distribución de los

elementos en categorías sin implicar orden entre ellas.

5

Page 6: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Ejemplo.-COLOR DE OJOS: Azul, Negros,....., etc

VARIABLES CUALITATIVA ORDINAL.- Son aquellos que agrupan a los objetos, individuos

en categorías ordenadas.

Ejemplo.-NIVEL DE ESTUDIOS: primaria, secundaria,....., etc

VARIABLES CUANTITATIVA.- Surge cuando se puede establecer cuanto o en que

cantidad se posee una determinada característica.

Ejemplo.-Número de estudiantes del segundo semestre de la U.S.B.

La variable cuantitativa se clasifica en:

o Discretas

o Continuas

VARIABLES CUANTITATIVA DISCRETA.- Las variables discretas suelen tomar valores

enteros.

Ejemplo.-

Número de hijos en una familia.

VARIABLES CUANTITATIVA CONTINUA.- Pueden tomar un valor cualquiera entre dos

limites dados.

Ejemplo.-Estatura de Estudiantes de la U. S. B.

6

Page 7: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

1.6 ETAPAS DEL MÉTODO ESTADÍSTICOEl método estadístico, parte de la observación de un fenómeno, y como no puede siempre

mantener las mismas condiciones predeterminadas o a voluntad del investigador, deja que

actúen libremente, pero se registran las diferentes observaciones y se analizan sus

variaciones.

Para el planeamiento de una investigación, por norma general, se siguen las siguientes

etapas:

a) Planteamiento del problema.

b) Fijación de los objetivos.

c) Formulación de la hipótesis.

d) Definición de la unidad de observación y de la unidad de medida.

e) Determinación de la población y de la muestra.

f) La recolección.

g) Crítica, clasificación y ordenación.

h) Tabulación.

i) Presentación.

j) Análisis.

k) Publicación.

1.6.1 PLANTEAMIENTO DEL PROBLEMAAl abordar una investigación se debe tener bien definido qué se va a investigar y por qué se

pretende estudiar algo. Es decir, se debe establecer una delimitación clara, concreta e

inteligible sobre el o los fenómenos que se pretenden estudiar, para lo cual se deben tener

en cuenta, entre otras cosas, la revisión bibliográfica del tema, para ver su accesibilidad y

consultar los resultados obtenidos por investigaciones similares, someter nuestras

proposiciones básicas a un análisis lógico; es decir, se debe hacer una ubicación histórica y

teórica del problema.

1.6.2 FIJACIÓN DE LOS OBJETIVOSLuego de tener claro lo que se pretende investigar, Debemos presupuestar hasta dónde

queremos llegar; en otras palabras, debemos fijar cuales son nuestras metas y objetivos.

7

Page 8: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Estos deben plantearse de tal forma que no haya lugar a confusiones o ambigüedades y

debe, además, establecerse diferenciación entre lo de corto, mediano y largo plazo, así

como entre los objetivos generales y los específicos.

1.6.3 FORMULACIÓN DE LAS HIPÓTESISUna hipótesis es ante todo, una explicación provisional de los hechos objeto de estudio, y su

formulación depende del conocimiento que el investigador posea sobre la población

investigada. Una hipótesis estadística debe ser susceptible de docimar, esto es, debe

poderse probar para su aceptación o rechazo.

Una hipótesis que se formula acerca de un parámetro (media, proporción, varianza, etc.),

con el propósito de rechazarla, se llama Hipótesis de Nulidad y se representa por Ho; a su

hipótesis contraria se le llama Hipótesis Alternativa (H1).

1.6.4 DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDALa Unidad de Observación, entendida como cada uno de los elementos constituyentes de la

población estudiada, debe definirse previamente, resaltando todas sus características; pues,

al fin de cuentas, es a ellas a las que se les hará la medición. La unidad de observación

puede estar constituida por uno o varios individuos u objetos y denominarse

respectivamente simple o compleja.

El criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el

equipo de investigación. Si se trata de medidas de longitud, volumen, peso, etc., debe

establecerse bajo qué unidad se tomarán las observaciones ya sea en metros, pulgadas,

libras, kilogramos, etc.

Asociado a la unidad de medida, deben establecerse los criterios sobre las condiciones en

las cuales se ha de efectuar la toma de la información.

1.6.5 DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRAEn la práctica, estudiar todos y cada uno de los elementos que conforman la población no

es aconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad de sus

elementos, porque a veces es necesario destruir lo que se está midiendo, por ser

8

Page 9: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

demasiado grande el número de sus componentes o no se pueden controlar; por eso se

recurre al análisis de los elementos de una muestra con el fin de hacer inferencias respecto

al total de la población. Existen diversos métodos para calcular el tamaño de la muestra y

también para tomar los elementos que la conforman, pero no es el objetivo de este curso

estudiarlos. Diremos solamente que la muestra debe ser representativa de la población y

sus elementos escogidos al azar para asegurar la objetividad de la investigación.

1.6.6 LA RECOLECCIÓNUna de las etapas más importantes de la investigación es la recolección de la información,

la cual ha de partir, a menos que se tenga experiencia con muestras análogas, de una o

varias muestras piloto en las cuales se pondrán a prueba los cuestionarios y se obtendrá

una aproximación de la variabilidad de la población, con el fin de calcular el tamaño exacto

de la muestra que conduzca a una estimación de los parámetros con la precisión

establecida.

El establecimiento de las fuentes y cauces de información, así como la cantidad y

complejidad de las preguntas, de acuerdo con los objetivos de la investigación son

decisiones que se han de tomar teniendo en cuenta la disponibilidad de los recursos

financieros, humanos y de tiempo y las limitaciones que se tengan en la zona geográfica, el

grado de desarrollo, la ausencia de técnica, etc. Es, entonces, descubrir dónde está la

información y cómo ya qué "costo" se puede conseguir; es determinar si la encuesta se

debe aplicar por teléfono, por correo, o si se necesitan agentes directos que recojan la

información; establecer su número óptimo y preparar su entrenamiento adecuado.

1.6.7 CRITICA, CLASIFICACIÓN Y ORDENACIÓNDespués de haber reunido toda la información pertinente, se necesita la depuración de los

datos recogidos. Para hacer la crítica de una información, es fundamental el conocimiento

de la población por parte de quien depura para poder detectar falsedades en las respuestas,

incomprensión a las preguntas, respuestas al margen, amén de todas las posibles causas

de nulidad de una pregunta o nulidad de todo un cuestionario. Separado el material de

"desecho" con la información depurada se procede a establecer las clasificaciones

9

Page 10: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces

necesarios entre las preguntas, se ordenan las respuestas y se preparan los modelos de

tabulación de las diferentes variables que intervienen en la investigación.

El avance tecnológico y la popularización de los computadores hacen que estas tareas,

manualmente dispendiosas, puedan ser realizadas en corto tiempo.

1.6.8 LA TABULACIÓNUna tabla es un resumen de información respecto a una o más variables, que ofrece

claridad al lector sobre lo que se pretende describir; para su fácil interpretación una tabla

debe tener por lo menos: Un titulo adecuado el cual debe ser claro y conciso. La Tabla

propiamente dicha con los correspondientes subtítulos internos y la cuantificación de los

diferentes ítems de las variables, y las notas de pie de cuadro que hagan claridad sobre

situaciones especiales de la tabla, u otorguen los créditos a la fuente de la información.

1.6.9 LA PRESENTACIÓNUna información estadística adquiere más claridad cuando se presenta en la forma

adecuada. Los cuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con

las variables que se van a presentar y la forma de hacerlo. No es aconsejable saturar un

informe con tablas y gráficos redundantes que, antes que claridad, crean confusión. Además

la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no sólo

en función de las variables que relaciona, sino del lector a quien va dirigido el informe.

1.6.10 EL ANÁLISISLa técnica estadística ofrece métodos y procedimientos objetivos que convierten las

especulaciones de primera mano en aseveraciones cuya confiabilidad puede ser evaluada y

ofrecer una premisa medible en la toma de una decisión.

Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de los

parámetros y estadísticos muestrales para las estimaciones e inferencias respecto a la

población, el ajuste de modelos y las pruebas de las hipótesis planteadas, con el fin de

establecer y redactar las conclusiones definitivas.

10

Page 11: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

1.6.11 PUBLICACIÓNToda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos

del mismo problema a quienes se les puede aportar información, conocimientos y otros

puntos de vista acerca de él.

11

Page 12: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

CAPITULO II

II ARITMETICA FUNDAMENTAL

2.1 La Sumatoria y sus Propiedades.

El símbolo Σ se usa en Cálculo y Estadística principalmente para indicar la suma de n términos, por ejemplo:

nx1 + x2 + x3 + ................ + xn se puede representar: Σ xi

i=1Se lee: “Sumatoria de las xi cuando i varía de 1 a n”.

La Suma de Cuadrados se representa de la siguiente forma: n

x12 + x2

2 + x32 + ................ + xn

2 se puede representar: Σ xi

2

i=1En el caso de la multiplicación de una sumatoria por una constante, se tiene:

nax1 + ax2 + ax3 + ................ + axn se puede representar: Σ a xj

j=1

Y también se puede representar de la siguiente forma: n

a (x1 + x2 + x3 + ................ + xn ) se puede representar: a Σ xj

j=1Por lo tanto: ambas situaciones son iguales:

n nΣ a xj = a Σ xj

j=1 j=1

Existe un índice ficticio, que para los ejemplos están representados por i o j o otra variable

como x, el estadista puede usar cualquier letra para representar justamente un valor, por

esa razón se llama ficticio.

2.2 Frecuencias relativas.

Si los datos que se disponen son numerosos, es indispensable clasificarlos en un cuadro o

tabla resumen de las observaciones originales, a esta tabla se la denomina Tabla de

distribución de frecuencias o simplemente Tabla de Frecuencias.

12

Page 13: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Existen distintos tipos de frecuencias dependiendo del número de observaciones tomado en

cuenta a las variables discretas. Sean x1, x2 ......... , xn un conjunto de n observaciones

discretas y sean y1, y2 ......... , ym el conjunto de valores diferentes que toman los datos

originales (m menor o igual a n).

a) Frecuencia Absoluta: Se llama frecuencia absoluta del valor y i al número de

veces que parece este valor en el conjunto de observaciones y se representa por

ni, i = 1,2,......., m. La tabla de Distribución de frecuencias toma la siguiente forma:

Valores diferentes observados

yi

Frecuencias Absolutasni

y1

y2

.

.

ym

n1

n2.

.

nm

TOTALES N

b) Frecuencia Absoluta Acumulada “MENOR QUE”: Se denomina así a la

frecuencia correspondiente al valor y al número de observaciones menores o

iguales a yi (xi menor o igual a yi), se denotamos esta frecuencia por “Ni”,

entonces:

i N = n1 +n2 +n3 + ..........+ ni ó Σ nj

j=1

c) Frecuencia Absoluta Acumulada “MAYOR QUE”: Se denomina así a la

frecuencia correspondiente al valor y al número de observaciones mayores o

iguales a yi (xi mayor o igual a yi), se denotamos esta frecuencia por “N i”,

entonces:

m N = n1 +n i+1 + ..........+ nm ó Σ nj

j=1d) Frecuencia Relativa: Se denomina así al cociente de la frecuencia absoluta de y i

y el número total de observaciones. Esta frecuencia se denota por “h i”.

13

Page 14: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Frecuencia absoluta de yi n i

hi = = Nº de Observaciones n

e) Frecuencia Relativa Porcentual: Se llama así a la frecuencia relativa h i

multiplicada por 100% y representa el porcentaje de observaciones que

corresponde al valor yi .

f) Frecuencia Relativa Acumulada “MENOR QUE”: Esta frecuencia se denomina

así a la frecuencia relativa toral de las observaciones menores o iguales a y i , se

denota por la letra “Hi”.

n 1 + n 2 +.........+ n i

Hi = h1 + h2 + …. + hi = n

g) Frecuencia Relativa Acumulada “MAYOR QUE”: Esta frecuencia se denomina

así a la frecuencia relativa toral de las observaciones mayores o iguales a y i , se

denota por la letra “Hi”.

mHi = Σ hj = hi + h i+1 + …. + hm

j=I

h) Frecuencia Relativa Acumulada Porcentual: Se denomina así a la frecuencia

relativa acumulada Hi (Hi*) multiplicada por 100% y representa el porcentaje de

observaciones menores o iguales (o mayores o iguales) a yi.

i) Frecuencia Relativa Acumulada Porcentual: Se denomina así a la frecuencia

relativa acumulada Hi (Hi*) multiplicada por 100% y representa el porcentaje de

observaciones menores o iguales (o mayores o iguales) a yi.

2.1.1 La Razón.

Cuando se compara el número de elementos de una característica cualitativa, con el

número de elementos de otra característica cualitativa, estamos en presencia de una razón.

Esta comparación se da por diferencia o por cociente; en el primer caso, se dice que la

14

Page 15: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

razón es aritmética o por diferencia, y en el segundo, que la razón es geométrica o

coeficiente, este caso es el más usado y se representa por:

aR =

b

2.1.2 La Proporción.

Se llama proporción (P) a la relación que existe entre el número de casos observados en un

grupo particular de objetos con una característica y el total de objetos que poseen la

característica. La proporción se distingue de la razón porque el numerador es parte

integrante del fenómeno que constituye el denominador. La fórmula de la proporción es:

aP =

a + b

2.1.3 El Porcentaje.

El porcentaje es una proporción multiplicada por 100. La fórmula general es:

aPorcentaje = x 100

a + bLa ventaja de los porcentajes es que nos permite compara dos o más series estadísticas

cuyos totales son diferentes pues quedan reducidos a 100. Así, mientras que la proporción

expresa tanto por uno, el porcentaje expresa tanto por cien.

2.1.4 Las Tasas.

En toda población es importante conocer su composición y los cambios que acontecen en

ella. Al estudiar estos cambios, ni las razones, ni las proporciones, ni los porcentajes, a

pesar de su gran utilidad, permiten analizar completamente la información disponible.

La fórmula general está dada por:

15

Page 16: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Número de veces que ocurre el fenómenoTasa = x 10n

Población en la cual ocurrió el fenómeno

Las tasas son utilizadas también para el análisis de fenómenos y sus variaciones dentro de

un periodo de tiempo, como por ejemplo, a continuación se muestra el índice de precios al

consumidor:

P1 – P0

IPC = x 100 P1

Adicionalmente, existen dos tipos de tasas: 1) las tasas brutas: Conocidas como tasa

general, global o total; se calcula con respecto a al población total, sin tomar en cuenta

ninguna característica específica de esa población, 2) las tasas específicas: Son sal que se

definen en términos de una o más características de la población.

2.2 Redondeo.

El redondeo trata de minimizar al máximo una expresión que tiene infinidad de decimales,

se utiliza el redondeo para facilitar las operaciones dentro del cálculo estadístico, lo más

aceptable es redondear una cifra para que esta tenga dos decimales.

Si una cifra está expresada por 31,12314%, entonces se puede utilizar 31,12 para realizar

las operaciones. Si la cifra está expresada por 52,57812%, entonces se tiende a redondear

la cifra a 52,58 %.

16

Page 17: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

CAPITULO III

III ESTADISTICA DESCRIPTIVA

3.1 DISTRIBUCION DE FRECUENCIASDespués de recoger toda la información correspondiente a la investigación, es decir, al

agotar todo el trabajo de campo, nuestro escritorio se llena de un cúmulo de datos y cifras

desordenadas los cuales, al ser tomados como observaciones individuales, dicen muy poco

sobre la población estudiada; es, entonces, tarea del investigador “hacer hablar las cifras”,

comenzando por la clasificación y ordenación, consignando la información en tablas

inteligibles que denominamos distribuciones de frecuencias.

Por distribución de frecuencias se va a entender al conjunto de valores que ha tomado una

variable con sus frecuencias correspondientes. Simbólicamente, una distribución de

frecuencias vendría dada por los pares (yi, ni), donde yi son los valores de la variable y ni

son sus frecuencias. Hay que señalar, en esta definición, que la frecuencia asociada a un

valor de la variable es el número de veces que se repite ese valor. A la misma se le conoce

como frecuencia absoluta.

Pueden considerarse básicamente dos tipos de distribuciones de frecuencias. Aquellas en

las que los valores de la variable no están agrupados y las que presentan esos valores

agrupados en intervalos.

3.2 TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS. Es una manera de resumir la información proveniente de una serie de datos. Es un instrumento valioso que permite presentar al máximo de información con el mínimo detalle.

17

Page 18: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Variable

Yi

FrecuenciaAbsoluta

ni

FrecuenciaAbsoluta

AcumuladaNi

FrecuenciaRelativa

hi

FrecuenciaRelativa

AcumuladaHi

Porcentaje

hi*100Y1

Y2

.

.

.Yk

n1

n2

.

.

.nk

N1

N2

.

.

Nk = 1

h1

h2

.

.

.hk

H1

H2

.

.

.Hk = 1

h1*100h2*100.

.

.

.hk*100

TOTAL ni =n hi = 1 100%

3.3 PROPIEDADES DE LAS FRECUENCIAS

FRECUENCIA ABSOLUTA.- Está definida como al número de veces que aparece repetido

dicho valor en el conjunto de las observaciones realizadas.

n = n1 + n2 + n3+....+nk ∑ ni

FRECUENCIA ABSOLUTA ACUMULADA.- Es la sumatoria de las frecuencias absolutas.

La frecuencia absoluta acumulada del ultimo valor será n (donde n = número de

observaciones realizadas)

FRECUENCIA RELATIVA.- son números fraccionarios no negativos, no mayores que uno

hi =

nin Se verifica que: = 1

FRECUENCIA RELATIVA ACUMULADA.- Es la sumatoria de las frecuencias relativas

PORCENTAJE.- Se obtiene multiplicando la frecuencia relativa por 100

(%) Xi = hi * 100

18

Page 19: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

CONSTRUCCIÓN DE TABLAS.-DATOS DE VARIABLE DISCRETA.-

Ejemplo.- Los siguientes son las calificaciones que corresponden a 25 estudiantes:

3 5 5 6 74 3 5 7 66 4 4 5 37 7 5 4 45 5 3 3 6

Xi ni Ni hi Hi hi*10034567

55744

510172125

0.200.200.280.160.16

0.200.400.680.841.00

20%20%28%16%16%

TOTAL 25 1.00 100%

DATOS DE VARIABLE CONTINUA.-Ejemplo.- Los siguientes son las calificaciones de 25 estudiantes escala de 1 a 7

2.0 3.6 5.4 7.0 4.56.0 5.8 4.1 6.0 5.03.0 5.2 4.6 4.9 5.83.2 4.6 3.7 5.9 6.14.7 5.5 2.6 3.0 2.9

1. Rango = 7.0 – 2.0 = 5.0

2. Intervalo = k = √25 = 5

3. Amplitud =

RK =

5¿ 5 ¿¿

¿ = 1

19

Page 20: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Li-1 - L1 ni Ni hi Hi hi*100

2.0 3.0 3.0 4.04.0 5.05.0 6.06.0 7.0

35674

38142125

0.120.200.240.280.16

0.120.320.560.841.00

12%20%24%28%16%

TOTAL 25 1.00 100%

3.4 MEDIDAS DE TENDENCIA CENTRALEn los capítulos anteriores, nos referimos a la clasificación, ordenación y presentación de

datos estadísticos, limitando el análisis de la información a la interpretación porcentual de

las distribuciones de frecuencia.

El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los

cuales pueda recaer la representación de toda la información.

Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de

la información, son de gran importancia en el manejo de las técnicas estadísticas, sin

embargo, su interpretación no debe hacerse aisladamente de las medidas de dispersión, ya

que la representabilidad de ellas está asociada con el grado de concentración de la

información.

Las principales medidas de tendencia central son:

a) Media aritmética.

b) Mediana

c) Moda.

3.4.1 MEDIA ARITMÉTICA

Es la medida de tendencia central más conocida, es fácil de calcular, ya sea en datos

tabulados o no tabulados. Cuando se habla de media, se refiere a la sumatoria de los

20

Page 21: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

elementos observados dividida entre la cantidad de observaciones, como se ve en la

siguiente fórmula:

_ x1 + x2 + x3 + ................ + xn

X =n

VENTAJAS DE LA MEDIA:

a) Concepto familiar para la mayoría de las personas.

b) Es una medida que puede ser calculada y es única, ya que cada conjunto

de datos tiene una y sólo una media.

c) En el cálculo de la media es tomada en cuenta cada una de las

observaciones.

d) La medida es una medida muy confiable porque se determina con mayor

certeza que otras características de un conjunto de datos.

DESVENTAJAS DE LA MEDIA:

a) Puede verse afectada por valores extremos que no son representativos del

resto de las observaciones.

b) Su cálculo es tedioso porque se usa todas las observaciones.

c) No se la puede calcular para un conjunto de datos que tiene intervalos de

clases abiertos en los extremos.

3.4.2 LA MEDIANADado un conjunto de n observaciones x1, x2, ...., xn de la variable x, se define la mediana de

este conjunto de valores como aquel valor que no es superado ni supera a más de la mitad

de las n observaciones, arregladas en orden de magnitud creciente o decreciente.

~

La mediana se denota por x , xme, Me o Me(x) y está representada por:

xme = Me = Me(x) = x ((n+1)/2), si el número de observaciones es par.

21

Page 22: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

x (n/2) + x ((n/2)+1)

xme = , si el número de observaciones es impar.

2

VENTAJAS:

a) Es fácil de entender y se calcula a partir de cualquier clase de datos.

b) Está afectada por el número de observaciones y no por la magnitud de

cualquier extremo.

c) Se puede encontrar la mediana inclusive en datos cualitativos ordinales.

DESVENTAJAS:

a) Se deben organizar los datos antes de realizar cualquier cálculo para determinarla.

b) Ciertos procedimientos estadísticos que usan la mediana son mucho más complejos que

los que se usan en la media.

c) No es adecuada a manipulaciones algebraicas posteriores.

3.4.3 LA MODALa moda de una muestra x1, x2, ...., xn, es aquel valor de la variable que se presenta con

mayor frecuencia, es decir, es el valor que más se repite, se denota por “Mo” o “xmo”.

Mo = y ((m+1)/2) , si es m impar.

Mo = y’ (m/2) , si m es par.

VENTAJAS:

a) Se puede usar como una localización tanto para datos cualitativos como

cuantitativos.

b) No está indebidamente afectada por los valores extremos.

c) Se la calcula aún cuando más de las clases sean abiertas en los extremos.

22

Page 23: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

DESVENTAJAS:

a) Muy a menudo, no existe un valor modal, porque el conjunto de datos no

contiene valores que se repitan más de una vez.

b) Cuando el conjunto de observaciones tiene más de una moda es difícil interpretar el

resultado.

3.5 Relación entre las medias de posición.El empleo de las tres medidas descritas anteriormente no debe realizarse excluyendo una

de otra, pues el análisis conjunto es muy útil para interpretar los datos.

La representación gráfica es:

X Me Mo

3.5.1 La Media Ponderada.

El promedio ponderado permite calcular un promedio que toma en cuenta la importancia o el

peso que tiene cada valor sobre el total. En este caso, por ejemplo, si se toma el ejemplo de

cálculo del costo promedio de mano de obra/día se seguirá el siguiente procedimiento:

Mano de Obra

Salario / día

Días TrabajadosProducto A

No calificada 3.00 2Semicalificada 6.00 3Calificada 9.00 5

23

Page 24: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

El promedio aritmético de los salarios es:

_ 3.00 + 6.00 + 9.00x = = 6.00 $ / día

3Usando este promedio se puede calcular el costo por mano de obre de una unidad del

producto A de la siguiente manera:

6.00 $ * (2+3+5) = 60 $ / día

3.5.2 La Media Geométrica._

La Media Geométrica simple “Mg” o “xg” de n observaciones x1, x2, ...., xn, positivas está

dada por la raíz enésima del producto de los n valores observados, es decir:

_ n n nxg = Mg = √ x1, x2, ...., xn = √ Σ xi

i=1

3.5.3 La Media Armónica. _

La Media Armónica “Mh” o “xh” de n términos nulos x1, x2, ...., xn, es el recíproco de la

media de los recíprocos de esos términos, es decir:

_ xg = Mh =

VENTAJAS Y DESVENTAJAS:

a) La media armónica se basa en todas las observaciones por lo que está afectada

por los valores extremos, pero da a los valores grandes un peso menor que el que

da la media geométrica, mientras que a los valores pequeños, le da un peso

mayor que la media aritmética y la media geométrica.

b) No se define si alguno de los valores es cero.

24

Page 25: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

3.5.4 Los cuantiles.

Como consecuencia de del estudio de la media, es fácil ampliar este concepto a otros

estadígrafos que dividen a los datos en otras proporciones y no sólo en mitades como lo

hace la mediana. Estas medidas se llaman cuantiles, los más usados en estadística son los

cuartiles, deciles y percentiles y se usan para describir el comportamiento de una población.

A menudo sus resultados se dan en un tanto por ciento.

3.5.4.1 Cuartiles.

Son los valores que dividen a un conjunto de datos ordenados en forma ascendente o

descendente en cuatro partes iguales y se denotan por Q i, donde i = 1,2,3, como se ve a

continuación:

0% 25% 50% 75% 100%

Q1 Q2 Q3

Primer cuartil = Q1: Es el valor que supera a no más de un cuarto de las observaciones y es

superado por no más de tres cuartos de ellas, es decir es el valor que deja 25% de las

observaciones menores o iguales a él y el 75% superiores a él.

3.5.4.2 Deciles.

Los valores que dividen a un conjunto de datos ordenados en forma ascendente o

descendente en diez partes iguales se llaman deciles y se representa por Di, donde i = 1,

2, ......, 9, es decir:

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

D1 D2 D3 D4 D5 D6 D7 D8 D9

25

Page 26: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Primer decil = D1: Es el valor que supera a no más de un décimo de las observaciones y es

superado por no más de nueve décimos de ellas, es decir, D1 es el valor que deja el 10% de

las observaciones menores iguales a él u el 90% superiores a él.

3.5.4.3 Percentiles.

Son los valores que dividen a la muestra ordenada en forma ascendente o descendente en

cien parte iguales y se denotan por Pi, donde i = 1, 2, ......, 99.

Primer percentil = P1: Es el valor que supera a no más de un centésimo de las

observaciones y es superado por no más del 99 centésimos de ellas, es decir, que P1 es el

valor que deja el 1% de las observaciones menores o iguales él y el 99% superiores a él.

3.6 Estadígrafos de Dispersión.

Los estadígrafos de dispersión miden la dispersión de los datos de la muestra. Dos

conjuntos de datos pueden tener la misma localización central y no obstante se muy

diferentes si uno está más disperso que el otro.

Por ejemplo se tiene las siguientes muestras:

A: 9, 10, 11, 12, 13, 14, 15

B: 6, 8, 10, 12, 14, 16, 18

En ambos casos la media aritmética es igual a 12 y la mediana es 12. Ambas muestras,

claramente diferentes, tienen la misma media y la misma mediana.

3.6.1 Recorrido de la Variable.El recorrido “R” de una variable es la diferencia entre los valores extremos, es decir:

26

Page 27: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

R = xmax – xmin

3.6.2 Recorrido Intercuartil.El recorrido intercuartil se define como la diferencia entre el tercer y primer cuartil (o también

la diferencia entre los percentiles 75 y 25), es decir:

R1 = Q3 – Q1 o R = Q75 – Q25

Esta medida de dispersión es más exacta que el simple recorrido de la variable ya que evita

el inconveniente de valores extremos anormales, tomando aquellos dos valores que dejan

entre sí el 50% de los valores centrales de la variable.

3.6.3 Desviación Media.Sea x1, x2, ...., xn una muestra de tamaño n, la desviación media o absoluta corresponde al

valor absoluto de la diferencia de cada uno de los valores de los x i con su media dividido

entre los n valores correspondientes a la muestra; por tanto:

n DM = 1/n * Σ xi - x i=1

3.6.4 Varianza y Desviación Estándar y sus propiedades.

La varianza se basa en la diferencia entre cada uno de los valores de la muestra elevados al

cuadrado y divididos por en número de la muestra y se la designa con la letra “S”; así:

n S2 = 1/n * Σ ( xi - x )2

i=1

La desviación estándar representa la raíz cuadrada de la varianza, y muestra cuánto difieren

en promedio cada una de las Xi con respecto a su media. Se representa como:

27

Page 28: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

S = S2

En cuanto a sus propiedades, tenemos:

a) S2 siempre es positivo, por lo tanto S también es positivo.

b) S2 es la medida cuadrática de dispersión óptima, ya que representa una dispersión

mínima.

c) S2 y S son sensibles a cada valor o depende del número de observaciones, así, si

cambia el número de n observaciones, cambiará S2 y por tanto lo hará S.

d) No es recomendable el uso de S2 o de S si su cálculo no fue realizado tomando en

cuenta la media aritmética.

e) La S tiene la propiedad de que en el intervalo: X 2S, se encuentran, al menos, el 75%

de las observaciones ( Teoría de Chevycheff), incluso si existiesen un número mayor de

datos se podría llegar al 95%.

3.6.5 Cuasivarianza muestral.

Representa la varianza de la muestra que permite estimar la varianza de la población, y su

cálculo es mediante la misma fórmula que la varianza, pero en lugar de dividir entre n se

divide entre n-1; así:

n S2 = 1/(n – 1) * Σ ( xi - x )2

i=1

3.6.6 Coeficiente de variación.

Indica la magnitud relativa de la desviación estándar con respecto a la media de la

distribución, su fórmula corresponde a:

CV = S / media

28

Page 29: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

3.7 Estadígrafos de Asimetría

Miden el grado por el cual la distribución es o no asimétrica, tenemos el más utilizado:

Asimetría de Pearson

Ap = 3 * (media – Me) S

Ap = (media – Mo) S

Ahora, si:Ap > 0, entonces se tiene una asimetría positiva (sesgada a la derecha)Ap = 0, entonces se tiene una distribución normalAp < 0, entonces se tiene una asimetría negativa (sesgada a la

izquierda)

Cuando la Ap es positiva, X > Me > Mo, es decir que la Mo se encuentra a la izquierda.Cuando la Ap es negativa, X < Me < Mo, es decir que la Mo se encuentra a la derecha.Cuando la Ap es cero, X = Me = Mo.

3.8 Coeficientes de apuntamiento.

Mide cuán alta se encuentra la Mo, según sea su grado de apuntamiento, si es muy

punteaguda, se dice que la distribución es Leptocúrtica, si es aplanada, se dice que es

Platicúrtica y cuando es “normal”, se dice que la distribución es Mesocúrtica.

3.9 Diagrama de caja

Representa una gráfica que describe la distribución de un conjunto de datos en referencia

con los valores de los cuartiles como medidas de posición y al valor del rango intercuartil

como medida de referencia de variabilidad. Se constituye en un mecanismo sencillo para la

graficación de datos y el grado de asimetría de la distribución. Además representa un gráfico

alternativo para presentar los datos. Su gráfica es la siguiente:

Xmin Xmàx

Q1 Q2 Q3

29

Page 30: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Si el valor del Q2 se encuentra al medio de la caja, la distribución es simétrica, si se

encuentra a la izquierda, la distribución es asimétrica positiva o la derecha, si se encuentra

a la derecha se tiene una distribución a la izquierda. En el ejemplo se ve que se tiene una

distribución sesgada a la izquierda, debido a que el Q2 se encuentra más hacia la derecha y

la caja se encuentra también hacia la derecha. Para una distribución simétrica tendríamos el

siguiente gráfico:

Xmin Xmáx Q1 Q2 Q3

Por todo lo anterior, se presenta a continuación la sistematización de los datos de la

muestra, tomando en cuenta la tabla para datos no agrupados.

30

Page 31: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

CAPITULO IV

IV ESTADISTICA INFERENCIAL

4.1 Definiciones Básicas de Probabilidad.

Se han desarrollado tres enfoques conceptuales para definir la probabilidad y determinar

valores de probabilidad los enfoques clásicos, de frecuencias relativas y subjetivo.

De acuerdo con el enfoque clásico de la probabilidad, si N(A) posibles resultados

elementales son favorables al evento A, N(S) resultados posibles están incluidos en el

espacio muestral y todos los resultados elementales son igualmente probables y

mutuamente excluyentes, entonces la probabilidad de que ocurra el evento A es:

El enfoque clásico de la probabilidad se basa en el supuesto de que cada resultado es

igualmente probable. Dado que este enfoque permite determinar valores de probables antes

de que sean observados, por ello se lo conoce como enfoque a priori.

Ejemplo. En un mazo de 52 naipes, contiene cuatro ases, entonces la probabilidad de

obtener un as (A) en una sola extracción es de:

De acuerdo con el enfoque de frecuencias relativas, la probabilidad se determina con base

en la proporción de veces en la que ocurre un resultado favorable; es decir, representa los

CASOS FAVORABLES. Dado que la determinación de los valores de probabilidad se basa

en la observación y recolección de datos, este dato se llama también enfoque empírico.

Ejemplo. Antes de incluir la cobertura de ciertos tipos de problemas dentales en sus pólizas

de seguro médico para adultos asalariados, una compañía de seguros desea determinar la

probabilidad de ocurrencia de esos problemas, para poder fijar el precio del seguro. Por lo

tanto, un experto en estadística recolecta datos de 10 000 adultos de las categorías de edad

31

P( A )=N ( A )N ( S )

P( A )=N ( A )N ( S )

= 452

= 113

Page 32: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

adecuadas y encuentra que 100 personas experimentaron el problema dental particular

durante el año anterior. Así la probabilidad de ocurrencia es:

P( A )=n( A )

n=100

10000=0 .01. . .. ó . .. . 1%

Tanto el enfoque clásico como el de frecuencias relativas dan por resultado valores de

probabilidad objetivos, en el sentido de que señalan el índice relativo de ocurrencia del

evento a largo plazo.

El enfoque subjetivo de la probabilidad es particularmente adecuado cuando solo existe una

oportunidad de que el evento ocurra, y de que ocurra o no en esa ocasión. De acuerdo con

el enfoque subjetivo, la probabilidad de un evento es el grado de verosimilitud que un

individuo concede a la ocurrencia del evento, con base en todas las evidencias de que

dispone. Dado que en estas condiciones el valor de probabilidad es un juicio personal, al

enfoque subjetivo también se le conoce como enfoque personalista. El desarrollo de este

enfoque de la probabilidad es relativamente reciente, y se asocia con el análisis de decisión.

4.2. Propiedades de las Probabilidades.La probabilidad de un evento se indica con el símbolo P. Así, P(A) denota la probabilidad de

que ocurra el evento A en una sola observación o experimento.

El menor valor que puede poseer un enunciado de probabilidad es 0 (evento es imposible),

y el mayor 1 (evento o suceso seguro). De este modo en general.

0 <= P (A) < = 1

Se observa que las probabilidades siempre son POSITIVAS.

En una observación o experimento dado, una evento debe ocurrir o no ocurrir. En

consecuencia, la suma de la probabilidad de la ocurrencia más la probabilidad de la no

ocurrencia siempre es igual a 1. Así, concediendo que A indica la no ocurrencia del evento

A’, tenemos que

32

Page 33: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

A A’

Lic. James Juan Saravia Zambrana

P(A) + P(A’) = 1

Un diagrama de Venn es un diagrama asociado con la teoría de conjuntos con las

matemáticas en el cual se describen los elementos que pueden ocurrir en una observación o

experimento en particular. Una figura cerrada representa un espacio muestral, mientras que

porciones del área del espacio representan eventos elementales o compuestos particulares,

o espacios de eventos.

Ejemplo. En la siguiente figura aparecen representadas las probabilidades de dos eventos,

A y A’ (léase “no A”). Dado que P(A) + P(A’) = 1, se cubre toda el área dentro del diagrama.

4.3 Propiedades Matemáticas de las Probabilidades.

4.3.1 Reglas de la AdiciónLas reglas de la adición se emplean cuando se desea determinar la probabilidad de que

ocurra un evento u otro (o ambos) en una sola observación. Se representa la probabilidad

de que ocurra el evento A o el evento B con P(A U B). Según la teoría de conjuntos, esto se

conoce como la unión de A y B, y la probabilidad se designa como P(A U B) (“probabilidad

de A unión B).

La regla de la adición para eventos mutuamente excluyentes es:

P (A o R) = P(A) + P(R ) = P(A U B) = P(A) + P(B)

Ejemplo. Al extender un naipe de un mazo, los eventos “as” (A) y “rey" (R) son

mutuamente excluyentes. La probabilidad de extraer un as o un rey en una sola extracción

es:

P( A .. o . .R )=P( A )+P( R )= 452

+ 452

+ 852

= 213

33

Page 34: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Cuando los eventos no son mutuamente excluyentes, la probabilidad de la ocurrencia

conjunta de los dos eventos se resta de la suma de las probabilidades simples de los

eventos. Podemos representar la probabilidad de ocurrencia conjunta con P(A y B). En el

lenguaje de la teoría de conjuntos esto se conoce como la intersección de A y B y la

probabilidad se designa como P(A B) (“probabilidad de A intersección B”). Así, la regla de

la adición para eventos mutuamente no excluyentes es

P(A o B) = P(A) + P(B) – P(A y B)

Se llama también regla general de la adición. Si los eventos A y B son mutuamente

excluyentes el último termino - P(A y B)- siempre sería igual a cero.

4.3.2. Eventos Mutuamente Excluyentes y No Excluyentes.Dos o más eventos son mutuamente excluyentes, o disjuntos, si no pueden ocurrir al mismo

tiempo. Esto es la ocurrencia de un evento impide automáticamente la ocurrencia de otro (u

otros).

Ejemplo 1.- Supongamos que consideramos los dos posibles eventos “as” y “rey” en

relación con la extracción de un naipe de un mazo. Estos dos eventos son mutuamente

excluyentes cuando es posible que ocurran a l mismo tiempo. Obsérvese que esta definición

no indica que estos eventos siempre deban ocurrir necesariamente en forma conjunta.

Ejemplo 2. En un estudio sobre el comportamiento de los consumidores, un analista clasifica

a las personas que entran en una tienda de ropa de acuerdo con su género (“masculino” o

“femenino”) y edad (“menor de 30 años” y “mayor de 30 años”). Los dos eventos o

clasificaciones, “masculino” y “femenino” son mutuamente excluyentes, puesto que una

persona dada solo sería clasificada en una categoría o en la otra. De igual manera, los

eventos “menor de 30 años” y “mayor de 30 años” también son mutuamente excluyentes.

No obstante, los eventos “masculino” y “menor de 30 años” no son mutuamente

excluyentes, porque una persona aleatoriamente elegida podría tener ambas

características.

34

Page 35: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

4.3.3. Eventos Independientes, Eventos Dependientes y Probabilidad Condicional.Dos eventos son independientes cuando la ocurrencia o no ocurrencia de un evento no tiene

ningún efecto en la probabilidad de ocurrencia del otro evento. Dos eventos son

dependientes cuando la ocurrencia o no ocurrencia de un evento afecta la probabilidad de

ocurrencia del otro evento.

Ejemplo.- Los resultados asociados son el lanzamiento de una moneda dos veces seguidas

se consideran eventos independientes, porque el resultado del primer lanzamiento no tiene

ningún efecto en las probabilidades respectivas de que el segundo lanzamiento ocurra una

cara o una cruz. Las extracciones de los naipes sin reemplazo de un mazo son eventos

dependientes, porque las probabilidades asociadas con la segunda extracción dependen del

resultado de la primera extracción. Específicamente, si en la primera extracción ocurrió un

“as”, la probabilidad de que ocurra un “as” en la segunda extracción es la razón del número

de ases restantes en el mazo en relación con el número total de naipes también restantes

en el mazo o 3/51.

Cuando dos eventos son dependientes, se emplea el concepto de probabilidad condicional.

La expresión P(B\A) indica la probabilidad de que ocurra el evento B dado que ya ha

ocurrido el evento A.

Las expresiones de probabilidad condicional no se requieren en eventos independientes,

porque no existe relación entre ocurrencia de estos eventos. Por lo tanto, si los evento A y B

son independientes, la probabilidad condicional P(B\A) es siempre igual a la probabilidad de

B - P(B)-.

Consiguientemente, para probar la independencia de dos eventos A y B puede hacerse la

comparación de Si se conoce la probabilidad del evento A y la probabilidad conjunta de

dos eventos A y B, la probabilidad condicional P(B\A) puede determinarse de la siguiente

manera:

P( A/ B)=P( A . .. y .. .B )

P( A )La exclusión mutua indica que do eventos no pueden ocurrir al mismo tiempo, mientras que

la independencia indica que la probabilidad de ocurrencia del otro evento. De esto se

35

Page 36: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

desprende, por lo tanto, que si dos eventos son mutuamente excluyentes, constituyan un

ejemplo particular de eventos sumamente dependientes, porque la probabilidad de un

evento dada la ocurrencia del otro siempre sería igual a cero.

4.3.4. Reglas de la multiplicación.

Las regles de la multiplicación se refieren a la determinación de la probabilidad de la

ocurrencia conjunta de A y B. Esto alude a la intersección de A y B: P(A B). Existen dos

variantes de la regla de la multiplicación, según si los dos eventos son independientes o

dependientes. La regla de la multiplicación para eventos independientes es

P ( A y B) = P (A B) = P (A)*P(B)

36

Page 37: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

CAPÍTULO CINCOLA DISTRIBUCIÓN NORMAL

5.1 La Distribución Normal de Probabilidad.

La distribución normal de probabilidad es una distribución continua de probabilidad que es,

al mismo tiempo, simétrica y mesokúrtica. Con frecuencia se describe a la curva de

probabilidad que representa la distribución normal como una campana, tal como se muestra

en la curva de probabilidad de la figura 7.2.

F(X)

X

La distribución normal de probabilidad es muy importante en inferencia estadística por tres

razones principales:

1. Se sabe que las mediciones que se obtienen en muchos procesos aleatorios tienen esta

clase de distribución.

2. Con frecuencia pueden utilizarse las probabilidades normales para aproximar otras

distribuciones de probabilidad, tales como las distribuciones binomial y Poisson.

3. Las distribuciones de estadísticas como la media muestral y proporción muestral tienen

distribución normal cuando el tamaño de la muestra es grande, sin importar la forma de

la distribución de la población de origen.

Como se mencionó antes, en el caso de las distribuciones continuas de probabilidad solo es

posible determinar un valor de probabilidad para un intervalo de valores. La altura de

densidad, o curva de probabilidad, para una variable con una distribución normal está dada

por:

37

Page 38: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

en donde (pi) es la constante 3.1416, e es la constante 2.7183, (miu) es la media de la

distribución y es la desviación estándar de la distribución. Como cualquier combinación

distinta (todas ellas simétricas y mesokúrticas), las tablas de las probabilidades normales se

basan en una distribución específica: la distribución normal estándar. Esta es una

distribución normal en la que = 0 y = 1.

Cualquier valor x de una población con distribución normal puede convertirse a su valor

normal estándar equivalente, z, mediante la fórmula tipificada:

En la tabla para curva normal (campana de Gauss), puede obtenerse las porciones de áreas

para diversos intervalos de valores para la distribución normal estándar, en donde el límite

inferior del intervalo es siempre la media. Este análisis nos permite realizar pruebas de

hipótesis, planteando una serie de propuestas que determinen calcular la probabilidad de

calculo de algún evento.

Para ello es necesario tipificar la variable X en la variable Z. Puede utilizarse esta tabla

transformando los valores designados de la variable x en valores normales estándar, Así, la

distribución de Z tiene una media de cero y una varianza de 1.

Ejemplo. Se sabe que el tiempo útil de un componente eléctrico tiene una distribución

normal con media de 2 000 horas y desviación estándar de 200 horas. La probabilidad de

que un componente elegido al azar dure entre 2 000 y 2 400 horas se determina de la

siguiente manera.

El gráfico ilustra la curva de probabilidad y también se señala la relación entre la escala de

horas x, y la escala normal estándar z. Además, la parte sombreada es el área bajo la curva

que corresponde al intervalo “2 000 a 2400”.

38

f ( X )= 1√2 πσ 2

e−[ ( X−μ )2 /2 σ2 ]

z= X−μσ

Page 39: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Z 0 2

X 2000 2400

El límite inferior del intervalo es la media de la distribución y, por lo tanto, se encuentra en el

valor z = 0. El límite superior del intervalo designado, en términos de un valor z, es:

Según la tabla de la normal, el valor de 2 corresponde a una probabilidad de 0.4772; o sea,

que se tiene una probabilidad del 47.72% de que el elegido dura entre 2000 y 2400 horas.

Por supuesto, no todos los problemas implican un intervalo en el que la media es el límite

inferior. Sin embargo, puede utilizarse la tabla de la curva normal para determinar el valor de

probabilidad asociado con cualquier intervalo de interés, realizando la adición o substracción

de áreas, según sea necesario, o utilizando el hecho de que la curva es simétrica.

Ejemplo. Con respecto a los componentes eléctricos, suponga que interesa la probabilidad

de que un componente elegido al azar dure más de 2 200 horas.

Debe observarse que, por definición, la proporción total del área que se encuentra del lado

derecho de la media de 2 000 es 0.5000. Por ello, si se determina la producción entre la

media y 2 200, puede restarse este valor de 0.5000 para obtener la probabilidad de que las

horas x sean mayores que 2 200, lo cual se representa gráficamente mediante la porción

sombreada.

39

z=2400−200200

=2

z=2200−2000200

=+1 .0

Page 40: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

P(0 < = z < = 1.0) = 0.3413 (de la tabla normal)P(z > +1.0) = 0.5000 – 0.3413 = 0.1587P( X> 2200 ) = 0.1587

5.2 Intervalos de Confianza Para la Media Utilizando la Distribución Normal.

Los ejemplos anteriores ilustran la determinación de la probabilidad de que la media

muestral tenga diversos valores cuando se conocen la media y la desviación estándar de la

población. Lo que está implícito es el razonamiento deductivo con respecto al resultado

muestral y con base en parámetros poblacionales conocidos.

Se pasa ahora a revisar el razonamiento inductivo, utilizando datos muestrales para hacer

afirmaciones a cerca del valor de la media poblacional.

La estimación por intervalo se basa en el supuesto de que puede utilizarse la distribución t

de Student n < 30, se supone una distribución normal pero no se conoce la desviación

estándr de la población, pero es posible estimarla con n-k grados de libertad. Aunque la

media muestral es útil como estimador no sesgado de la media de la población, no hay

forma de expresar el grado de precisión de un estimador puntual.

Un intervalo de confianza para la media es un estimador de intervalo que se construye con

respecto a la media muestral y que permite especificar la probabilidad de que incluya el

valor de la media poblacional. El grado de confianza asociado con un intervalo de confianza

señala el porcentaje a largo plazo de esa clase de intervalos que incluirían el parámetro que

se estima.

Por lo general, se construyen los intervalos de confianza utilizando el estimador no sesgado

como la media y la desviación estándar correspondería a la Cuasivarianza muestral. Así:

X z Sx

Los intervalos de confianza que se utilizan con mayor frecuencia se observa en la siguiente

tabla que presentan los valores de z que se requieren para esos intervalos.

Proporciones seleccionadas por áreas bajo la curva normal

40

Page 41: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

z ( número de unidades por desviación estándar)

Proporción del área en el intervalo z

1.6451.962.58

0.900.950.99

Ejemplo. En una semana determina, se elige al azar una muestra de 300 empleados de un

número muy grande de ellos que trabajan en una empresa manufacturera. Los trabajadores

realizan una labor a destajo y encuentra que el promedio de pago por pieza trabajada es de

X = $1800, con una desviación estándar muestral de s = $140. Se estima que el pago

promedio a destajo para todos los empleados de la empresa, con una estimación por

intervalo que permita tener una confianza del 95% de que ese intervalo incluye el valor de la

media poblacional, es:

X 1.96 S x = 1900 1.96 (8.0829) = $1784.16 a $1815.84

En donde: X = 1800 (dado)

Sx = s / n = 140 / 300

Por ello, puede afirmarse que el pago promedio a destajo para todos los empleados se

encuentra entre $174 980 y $185 020 con un grado de confianza del 95% en esa

estimación.

5.3 La prueba Ji cuadrada 2.

Propósito General de la Prueba Ji Cuadrada.

Todos los procedimientos que se describen en este capítulo implican la comparación del

patrón observado de las frecuencias de observaciones de datos muestrales organizados en

categorías definidas con el patrón esperado de frecuencias basado en una hipótesis nula en

particular.

El uso de la distribución de probabilidad 2 (ji cuadrada) en la inferencia estadística referente

a la varianza de la población. La estadística de prueba presentada sigue la distribución del

modelo de probabilidad de ji cuadrada, y dado que esta implicada la prueba de hipótesis.

41

Page 42: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

La prueba ji cuadrada para probar la bondad de ajuste, la independencia de dos variables e

hipótesis referentes a proporciones. Una de las pruebas de proporciones es la prueba de las

diferencias entre varias proporciones poblacionales, la cual es una extensión de la prueba

de diferencia entre dos proporciones poblacionales.

Pruebas de Bondad de Ajuste

La hipótesis nula en una prueba de bondad de ajuste es una estipulación sobre el patrón

esperado de frecuencias en un conjunto de categorías.

Ejemplo. Un distribuidor regional de sistemas de aire acondicionado ha subdividido la

región en cuatro territorios. A un posible comprador de la distribuidora se le dice que las

instalaciones del equipo tienen una distribución aproximadamente igual entre los cuatro

territorios. El posible comprador toma de los archivos de la compañía una muestra aleatoria

de 40 instalaciones realizadas en el última año y determina que el número instalado de cada

uno de los cuatro territorios es el que aparece en la primera línea de la tabla 12.1 (donde fo significa “frecuencia observada”). Con base en la hipótesis de que las instalaciones tienen

una distribución igual, la distribución esperada de las instalaciones está dada en la segunda

línea de la tabla 12.1 (donde fe significa “frecuencia esperada”).

Tabla 12.1 Número de instalaciones de sistemas de aire acondicionado por territorio

Territorio TOTALA B C D

Número de instalaciones en la muestra, fo

6 12 14 8 40

Número de instalaciones, fe 10 10 10 10 40

Para que la hipótesis nula sea aceptada, las diferencias entre las frecuencias observadas y

esperadas deben ser atribuibles a la variedad del muestreo al nivel de significancia

asignado. Así, en la estadística de prueba ji cuadrada se basa en la magnitud de esa

diferencia para cada categoría de la distribución de frecuencias. El valor de ji cuadrada para

probar la diferencia entre un patrón obtenido y esperado de frecuencias es:

42

Page 43: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

X2=∑ ( f o−f e)2

f e

Cabe señalar que si las frecuencias observadas están muy cerca de las frecuencias

esperadas, el valor calculado de la estadística ji cuadrada será cercan a cero. A medida que

las frecuencias observadas se vuelven crecientemente diferentes de las frecuencias

esperadas, el valor de ji cuadrado aumenta. En consecuencia, de ello se desprende que al

prueba ji cuadrada implica el uso únicamente de la cola superior de la distribución ji

cuadrada para determinar si un patrón observado de frecuencias difiere de un patrón

esperado.

Ejemplo. El cálculo de la estadística de prueba ji cuadrada para el patrón de frecuencias

observadas y esperadas del ejemplo anterior, se realiza de la siguiente manera:

El valor requerido de la estadística de prueba ji cuadrada para rechazar la hipótesis nula

depende del nivel de significancia especificada y de los grados de libertad. En pruebas de

bondad de ajuste, los grados de libertad (gl son iguales al número de categoría menos el

número de estimadores paramétricos basados en la muestra y menos 1). Donde k = número

de categorías de datos y m = número de valores paramétricos estimados con base en la

muestra, los grados de libertad en una prueba ji cuadrada de bondad de ajuste son

df = k – m – 1

Cuando la hipótesis nula es que las frecuencias tienen una distribución uniforme, no está

implicada ninguna estimación paramétrica y m = 0. La sustracción de 1 se incluye siempre,

porque dado un número total de observaciones una vez que las frecuencias observadas se

han organizado en k – 1 categorías de una tabla de frecuencias, en realidad la última celda

no puede variar libremente. Por ejemplo, dado que las tres primeras categorías del ejemplo,

43

X2=∑ ( f o−f e)2

f e=

(6−10)2

10+(12−10 )2

10+(14−10)2

10+(8−10)2

10=40

10=4 .00

Page 44: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

tienen frecuencias observadas de 6, 12 y 14, respectivamente, de ello se deduce que la

cuarta categoría debe tener una frecuencia de 8 para acumular el tamaño de muestra

asignado de n = 40.

Prueba de Independencia de dos Variables Categóricas (Prueba con Tabla de

Contingencias)

En el caso de las pruebas de bondad de ajuste solo existe una variable categórica, como el

tamaño de pantalla de dos televisores vendidos, y lo que se prueba es una hipótesis sobre

el patrón de frecuencias o distribución, de la variable. Las frecuencias observadas pueden

enlistarse en una sola línea o columna de categorías. Las pruebas de independencia

implican al menos dos variables categóricas, y lo que se prueba es el supuesto de que las

variables son estadísticamente independientes. La independencia supone que el

conocimiento de la categoría en la que es clasificada una observación respecto de una

variable no tiene efecto sobre la probabilidad de que la otra variable se encuentre en una de

varias categorías. Cuando están implicadas dos variables, las frecuencias observadas se

organizan en una tabla de doble clasificación o tabla de contingencias. Las dimensiones de

estas tablas están definidas por r x k, donde r indica el número de líneas y k el número de

columnas.

Ejemplo. La siguiente tabla un ejemplo del formato más simple posible de una tabla de

contingencias, dado que cada una de las dos variables (sexo y edad) tiene solo dos niveles

de clasificación o categorías. Así, ésta es una tabla de contingencias de 2 x 2.

SEXO TotalEdad Masculino FemeninoMenor de 30 años 60 50 110Mayor de 30 años 80 10 90Total 140 60 200

Si la hipótesis nula de independencia es rechazada para datos clasificados como los que

aparecen en la tabla, ello indica que las dos variables son independientes y que existe una

44

Page 45: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

relación entre ellas. En esta tabla se indica que existe una relación entre la edad y el sexo

de los clientes de las tiendas de aparatos estereofónicos.

Dada la hipótesis de independencia de las dos variables, la frecuencia esperada asociada

con cada celta de una tabla de contingencias debe ser proporcional a las frecuencias

observadas totales incluidas en la columna y línea en las que se ubica la celda en relación

con el tamaño demuestra total. Donde fr, es la frecuencia total de una línea dada y fk la

frecuencia total de una columna dada, una fórmula conveniente para determinar la

frecuencia esperada para la celda de la tabla de contingencias ubicada en esa línea y

columna es:

La fórmula general para todos los grados de libertad asociados con una prueba de independencia es

Gl = (r - 1)(k - 1)

Ejemplo. Las frecuencias esperadas de los datos de la tabla 12.3 se presentan en la tabla 12.4. Para el caso de línea 1, columna 1, por ejemplo, el cálculo de la frecuencia esperada es

Adviértase que, en este caso, las tres frecuencias esperadas restantes pueden obtenerse por sustracción de los totales de línea y columna. Esta es una indicación directa de que para una tabla de contingencias de 2 x 2 existe un grado de libertad, y de que solo la frecuencia de una celda varía libremente.

Sexo TotalEdad Masculino FemeninoMenor de 30 años 77 33 110Mayor de 30 años 63 27 90Total 140 60 200

La estadística de prueba ji cuadrada para tablas de contingencias se calcula exactamente

como la estadística para pruebas de bondad de ajuste

45

f e=f r f k

n

f e=f r f k

n=

(110)(140 )200

=15400200

=77

Page 46: ESTADÍSTICA - Universidad Salesiana de Boliviavirtual.usalesiana.edu.bo/.../dossier/22011/906.docx · Web viewLic. James Juan Saravia Zambrana 1

Lic. James Juan Saravia Zambrana

Ejemplo. A continuación aparece la pruebe de la hipótesis nula de independencia de los

datos de la tabla 12.3, con un nivel de significancia de 1%.

Ho = Sexo y edad de los clientes de tiendas y aparatos estereofónicos son dependientesH1 = Sexo y edad son variables dependientes (existe una relación entre las variables)

gl = (r-1)(k-1) = (2-1)(2-1) = 1

2 crítica (gl = 1, = =0.01) = 6.63

La estadística de prueba calculada de 27.80 excede el valor crítico requerido de 6.63. Por lo

tanto, la hipótesis nula de independencia se rechaza al nivel de significancia de 1%.

En referencia a la segunda tabla, se advierte que es más probable que los clientes de sexo

masculino sean mayores de 30 años. El resultado de la prueba ji cuadrada indica que esta

relación observada en la muestra no puede ser atribuida al azar al nivel de significancia de

1%.

46

X2=∑ ( f o−f e)2

f e=

(60−77 )2

77+(50−33)2

33+(80−63)2

63+(10−27 )2

27=27 . 80