Fundamentos de Estadistica Con Spss

7/27/2019 Fundamentos de Estadistica Con Spss

1/111

FUNDAMENTOS DEL ANLISIS ESTADSTICO DE DATOS CON LA AYUDA DELSPSS1 (Statistical Package for the Social Sciences)

UNIVERSIDAD DE ANTIOQUIAESCUELA DE NUTRICIN Y DIETTICA

MEDELLN, 2002

1 Diseado por Alejandro Estrada Restrepo

1


2/111

INTRODUCCIN

La estadstica generalmente es considerada como la rama de las matemticas que seocupa de reunir, organizar y analizar datos numricos y as mismo que ayuda aresolver problemas como el diseo de experimentos y la toma de decisiones. Pero en

realidad, lo que se busca, no es simplemente cubrir un tema, sino hacer que anuestros conocimientos se arraiguen las definiciones bsicas de lo que es laestadstica y que no simplemente quede all, en la teora, sino que aprendamos aaprovecharlo en nuestra vida cotidiana.

Para tal fin tendremos entre otros el apoyo del SPSS. Este es un software que seutiliza para clculos estadsticos, aunque incluye un sin nmero de utilidades.Actualmente, la estadstica ha adquirido, de manera progresiva, una mayor relevanciaen todos los sectores universitarios y, en general, en la sociedad. Es por ello, por loque se pretende adquirir los conocimientos necesarios para comprender diversastcnicas estadsticas y el uso de este paquete estadstico.

2


3/111

1. GENERALIDADES SPSS 102

SPSS es un potente sistema de anlisis estadstico y gestin de datos. Ofrece un rpidoentorno de modelizacin visual que abarca desde lo ms simple hasta lo ms complejopara crear modelos de manera interactiva y realizar cambios utilizando tcnicas

analticas probadas y acreditadas.

La interfaz del entorno de ventanas proporciona una relacin con el sistema rpida ycmoda, pero internamente funciona mediante comandos.

Para ejecutar SPSS se acceder al botn Inicio y desde all a Programas / SPSS forWindows / SPSS 10.0 para Windows. Aparece la presentacin del programa con elEditor de datos al fondo: A continuacin nos preguntar cmo queremos comenzar:ejecutando el tutorial, introduciendo datos nuevos, abriendo datos de disco, etc. Unavez hecho esto, nos dejar con el Editor de datos. Se pueden abrir varias sesiones deSPSS independientes para poder trabajar con diferentes ficheros de datos.

Existen dos formas de obtener datos en SPSS. La primera es la introduccin directa delos datos en las casillas que nos muestra el Editor de datos. Las columnas nos indicanlas variables que tenemos, y las filas los casos de las variables. Al introducir un datoen una casilla, se activa la variable de la columna donde nos encontremos y se define

automticamente segn el tipo de dato que hayamos introducido. Si queremos definirlas variables nosotros mismos, debemos seleccionar la Vista de variables dondepodremos especificar su nombre, tipo, tamao y otros atributos.

2Diseado por Alejandro Estrada Restrepo

3


4/111

La segunda forma de obtener datos es extrayndolos de un archivo de disco. stepuede ser de formato SPSS (*.sav); de formato Excel, Lotus, texto, etc.; o de formatode base de datos como Access, dBase, FoxPro, etc. Si los datos son nuevos o loshemos modificado es conveniente almacenarlos en disco a travs del men Archivo.Una vez tenemos los datos en el Editor de datos, debemos elegir un procedimiento en

el men Analizar para poder obtener resultados. El sistema nos permite realizarinformes, estadsticos descriptivos, tablas, correlaciones, anlisis de regresin, etc.Asimismo si deseamos un grfico descriptivo de los datos, elegiremos uno de losexistentes en el men Grficos. ste puede ser normal o interactivo, en cuyo casopodremos modificar posteriormente las variables usadas y los parmetros del mismo.

Ahora se nos solicita la seleccin de las variables que queremos usar en elprocedimiento de anlisis o en el grfico. El cuadro de seleccin de variables es similaren todos los procedimientos: nos muestra una lista de todas las variables y una ovarias casillas de destino donde debemos introducirlas para que el sistema puedacalcular los estadsticos o valores que precise para la presentacin de resultados.

El ltimo paso es el examen de resultados en una nueva ventana llamada Visor. Estaventana nos muestra dos paneles. El de la izquierda es el conjunto de los titulares delos elementos grficos situados en el panel de la derecha. Su apariencia yfuncionamiento es similar al del explorador de Windows. El de la derecha muestra loselementos grficos, que pueden ser textos, tablas o grficos.

Los resultados o elementos grficos que vayamos generando no se sustituyen, sinoque se van acumulando en el visor donde les podremos dar formato para su posteriorimpresin, as como para su almacenamiento en disco. En el caso de los grficosinteractivos podremos modificarlos directamente, sin necesidad de volver a generarlosde nuevo.

En terminos generales en una sesin tipica con SPSS se puede trabajar con tres tipos

de ventanas y tener la posibilidad de guardar los contenidas de cada una. El editor dedatos, la cual es la primera ventana que usted encuentra, usada para definir y entrarsus datos y para ejecutar los procedimientos estadsticos. Los resultados de losprocedimientos estadsticos aparecen en la ventana de resultados. La ventana desintaxis puede ser usada para tener un registro de las operaciones que usted ejecutacon sus datos, esta ventana se abre automticamente cuando usted da clic en el botnpegar. As, por ejemplo cuando usted selecciona ciertos casos para el anlisis otransforma sus datos o calcula una correlacin, dando clic en el botn pegar, estaalmacenara un registro de lo que fue ejecutado (en lenguaje de comandos). Mas allde servir como un registro para sus operaciones, es posible correr comandos desde laventana sintaxis.

Se puede guardar cualquiera de las ventanas. Una vez que tenga la ventana deseada

activa, de clic en Save del men File. SPSS automticamente adiciona la extensin alnombre del archivo (.SAV para archivos del editor de datos; .SPO para archivos deresultados y .SPS para archivos de sintaxis)

Por otro lado, la interfaz de SPSS incorpora una o varias barras de herramientas segnla ventana en la que nos encontremos. Estas barras contienen las funciones msusadas en el trabajo usual para facilitar el acceso a ellas.

4


5/111

Si detenemos el puntero del ratn unos segundos sobre una de las herramientas (obotones) nos presentar un pequeo cuadro con una breve descripcin de la utilidaddel mismo: Las barras, adems, son personalizables, pudiendo aadir o eliminar losbotones que queramos as como moverlos; incluso permite cambiar de sitio la barra oborrarla completamente. A continuacin se realiza una breve descripcin de la barra

de herramientas de la ventana de datos del SPSS.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Figura 21. El primer icono es: Abrir archivo, muestra la ventana Open File. Segn el tipo deventana que est activa, se puede utilizar este icono para abrir un archivo de datos, deresultados, de sintaxis o uno de grficas.2. Guardar archivo: Guarda el archivo de la ventana que est activa. Puede guardar eldocumento completo o las lneas de texto seleccionadas.3. Imprimir archivo: Muestra la ventana de Imprimir para el tipo de documento queest en la ventana activa. En el caso de archivos de resultados, sintaxis y datos, puede

imprimir el documento completo o un rea seleccionada.4. Recuperar ventana. Muestra una lista de las ltimas ventanas abiertas (aunque nose hayan abierto en la misma sesin).5. Deshacer escritura: Como el nombre lo dice deshace los datos incorporados y todolo que respete a lo anterior.6. Recorrer grficas. Este icono se utiliza para activar la ventana de grficos.7. Ir a caso. Este icono se utiliza para desplazarse a un caso en el Editor de datos.8. Informacin de variables. Muestra una ventana que contiene la lista de variables yla informacin de la variable seleccionada. Este icono tambin se utiliza para posicionarel cursor en dicha variable.9. Busca: Busca lo deseado en la variable que usted halla seleccionado.10. Insertar caso. En el Editor de datos, al pinchar en este icono se inserta un caso por

encima del caso que contenga la celda activa. Tiene el mismo efecto que la seleccinde Insertar caso del men Datos.11. Insertar variable. En el Editor de datos, al pinchar en este icono se inserta unavariable a la izquierda de la variable que contenga la celda activa. Tiene el mismoefecto que la seleccin de Insertar variable del men Datos.15. Etiquetas de valores. Conmuta entre los valores actuales y las etiquetas de valoresen el Editor de datos. Tiene el mismo efecto que la seleccin de Etiquetas de valoresdel men til16. Usar conjuntos. Aqu se puede seleccionar los conjuntos de variables que van aaparecer en las ventanas que se utilizan para realizar los anlisis estadsticos otransformaciones. Los conjuntos de variables que aparecen aqu son los que se creanseleccionando la opcin Definir conjuntos del men Util. Tiene el mismo efecto que laseleccin de Usar conjuntos del men til.

Obtencin de datos

La matriz que nos presenta el Editor de datos contiene todos las observaciones de lasvariables que necesitamos para poder realizar el anlisis estadstico. Cada columnarepresenta una variable nica y cada fila un caso individual de cada variable. Paraintroducir datos basta con pinchar sobre una casilla y teclear el dato. Si dondetecleamos el dato la variable no est definida, SPSS asigna automticamente un

5


6/111

nombre de variable a la columna y la define con sus parmetros por defecto.

Para la definicin de variables se debe pulsar la pestaa Vista de variablesaccederemos a una matriz similar a la de datos, pero en este caso contiene lasvariables definidas. Cada fila representa una variable y cada columna un parmetro o

especificacin de esa variable. stos se asignan por defecto, pero podemosmodificarlos a nuestra conveniencia. La lista de parmetros es:

Nombre:Debemos introducir el nombre de la variable, de 8 caracteres como mximo, quepueden ser letras, nmeros o el smbolo de subrayado ( _ ). El primer carcternicamente puede ser una letra, y no se hacen distinciones entre maysculas yminsculas.

Tipo:A travs del botn que aparece al lado del tipo se accede a un panel donde seleccionarel tipo de variable: numrica, coma, fecha, moneda, cadena, etc., su anchura y losdecimales (que tambin se pueden seleccionar mediante las columnas siguientes).Adems, dentro del tipo cadena debemos distinguir entre la corta

Anchura : Nmero de caracteres o dgitos de la variable.

Decimales:Nmero de decimales si la variable es de tipo contable (numrico, moneda, etc.).

Etiqueta:Dada la imposibilidad de dar un nombre de variable mayor de 8 caracteres, se usanetiquetas para describir la variable de una forma ms clara. Aunque internamente setrabaje con los nombres de las variables, en la presentacin de resultados podremosutilizar las etiquetas.

Valores:Permite asignar etiquetas a determinados valores de las variables. Por ejemplo, unavariable numrica puede contener valores de los datos que sean: 0 si es mujer y 1 sies hombre, entonces asignamos a los valores 0 y1 las etiquetas de valor mujer y hombre respectivamente. De esta forma cuandotrabajemos con ellos, nos aparecer mujery hombre en lugar de 0 y 1.

6


7/111

Perdidos:Nos permite definir los valores que se tratarn como perdidos. Hemos de distinguirentre los valores declarados por el sistema (ausencia de dato) y los valores declaradoscomo perdidos por nosotros mismos. Columnas Es la anchura de la columna en laVista de datos.

Alineacin : Posicin del dato en la casilla en la Vista de datos.

Medida: Permite especificar el nivel de medida como escala (datos numricos de unaescala de intervalo o de razn), ordinal (representan categoras ordenadas) o nominal(representan categoras sin orden alguno). Esta especificacin slo se usa enprocedimientos grficos. En general, es importante saber distinguir entre variablecategrica y variable de escala. Una variable categrica es aquella que tiene unnmero limitado de valores o categoras distintas. Todas las variables de cadena y lasvariables numricas con etiquetas de valor definidas, o las variables numricasdefinidas como nominales u ordinales, se tratan como categricas. El resto se tratarncomo de escala.

Introduccin de datos

Cuando hayamos acabado de definir las variables pasaremos a la ventana de datos,haciendo clic sobre la pestaa inferior Vista de datos. El aspecto de esta ventana es el

de una matriz de datos, es decir, una matriz de doble entrada donde las filasrepresentan casos o individuos y las columnas variables. En nuestra ventana de datosfigurarn las columnas correspondientes a las variables definidas.

Los datos pueden introducirse en la ventana de datos, bien caso a caso (por filas) obien variable a variable (por columnas). Si se introducen casos, ser necesario pulsarel tabulador tras escribir cada dato; si se introducen variables, pulsaremos la tecla deretorno despus de cada dato. Al trmino del proceso de introduccin de

7


8/111

datos, la ventana de datos mostrar un aspecto similar al que se muestra en lapantalla siguiente.

Si nuestra sesin de trabajo finalizara aqu, deberamossalvar la definicin de variables y los datos introducidospara continuar en otro momento. Incluso aunquevayamos a seguir trabajando, puede ser convenientesalvar lo hecho hasta ahora en un fichero, de tal modoque podamos recuperarlo cuando sea preciso. Pararealizar esta operacin, basta elegir en la barra demen la opcin Archivo y posteriormente Guardar obien Guardar como... En ambos casos se nos pedir unnombre de fichero. Aunque no es imprescindible,conviene mantener para estos archivos la extensin.SAV que por defecto nos propone el programa.

En una nueva sesin de trabajo, para recuperar elfichero de datos y variables ser necesario partir de labarra de men y seguir la secuencia de opciones

Archivo, Abriry Datos... Con ello accederamos a una ventana de dilogo, anloga alas que suelen mostrarse en los programas diseados para Windows, donde podremosseleccionar la unidad, la carpeta y el fichero que nos interesa abrir, que ser aquel enel que quedaron almacenados los datos y la correspondiente definicin de variables.

8


9/111

para efectos prcticos y sin desconocer la utilidad que prestan los dems mens delSPSS, se proceder a explicar el men Analizar, puesto que este resulta ser la columnavertebral del anlisis de datos mediante esta herramienta. En este men encontramosentonces:

Dentro del menAnalizarencontramos todos los procedimientos de anlisis estadstico(exceptuando los grficos) de SPSS.

InformesCubos OLAP (Procedimiento analtico interactivo).Crea una tabla con varias capas que contienen totales,medias y otros estadsticos univariados para variablesde resumen continuas segn una o ms variablescategricas de agrupacin. En la tabla se crear unanueva capa para cada categora de cada variable deagrupacin.Resmenes de casos Calcula estadsticos desubgrupo para las variables dentro de las categoras deuna o ms variables de agrupacin. Se cruzan todos losniveles de las variables de agrupacin. Permite elegir elorden en el que se mostrarn los estadsticos. Tambinse muestran estadsticos de resumen para cada variablea travs de todas las categoras. Los valores de los

datos en cada categora pueden mostrarse en una lista o suprimirse. Con grandesconjuntos de datos se pueden listar slo los primeros n casos.Informe de estadsticos en filas Genera informes en los cuales se presentandistintos estadsticos de resumen en filas. Tambin se encuentran disponibles listadosde los casos, con o sin estadsticos de resumen.

Estadsticos descriptivos

Frecuencias Proporciona estadsticos y representaciones grficas tiles paradescribir o inspeccionar muchos tipos de variables. Los valores pueden organizarse enorden ascendente o descendente, y se pueden ordenar las categoras por susfrecuencias. Se puede suprimir el informe de frecuencias cuando una variable poseemuchos valores diferentes, y permite etiquetar los grficos con las frecuencias o conlos porcentajes.Descriptivos Muestra estadsticos de resumen para varias variables en una nicatabla y calcula valores tipificados (puntuaciones z). Las variables se pueden ordenarpor el tamao de sus medias (en orden ascendente o descendente), alfabticamente opor el orden en el que se seleccionen (por defecto). Se pueden guardar laspuntuaciones z, aadindose al Editor de datos, para su posterior utilizacin. Cuandolas variables se registran en unidades de medida diferentes (que no tengan nada quever), una transformacin de puntuacin z pondr las variables en una escala comn

para una comparacin visual ms fcil.Explorar Genera estadsticos de resumen y representaciones grficas, bien paratodos los casos o bien de forma separada para grupos de casos. Este procedimiento sepuede usar para inspeccionar los datos, identificar valores atpicos o extremos,descubrir discontinuidades, obtener descripciones, comprobar supuestos y caracterizardiferencias entre subpoblaciones (grupos de casos), etc. La exploracin de los datospuede ayudar a determinar si son adecuadas las tcnicas de anlisis que se estnempleando.

9


10/111

Tablas de contingencia Crea tablas de clasificacin doble y mltiple, y ademsproporciona una serie de pruebas y medidas de asociacin para las tablas de dobleclasificacin. La estructura de la tabla y el hecho de que las categoras estnordenadas o no determinan las pruebas o medidas que se utilizan. Los estadsticos detablas de contingencia y las medidas de asociacin slo se calculan para las tablas de

doble clasificacin. Si especifica una fila, una columna y un factor de capa (variable decontrol), se crear un panel de medidas y estadsticos asociados para cada valor delfactor de capa (o una combinacin de valores para dos o ms variables de control).Tablas personalizadasTablas bsicas Genera tablas que muestran estadsticos de clasificacin cruzada yde subgrupo. Las variables de resumen seleccionadas se resumen en las casillasdefinidas por las variables de subgrupo. Para todas las variables resumidas se empleanlos mismos estadsticos (la media por defecto). Si no existen variables de resumen, semuestran los recuentos. Los nombres de las variables de resumen se muestran a lolargo de la parte izquierda de la tabla. Se pueden definir casillas para mostrarsubgrupos de casos empleando las combinaciones: Hacia abajo de la pgina (como filas distintas). A travs de la pgina (como columnas distintas). La combinacin de Hacia abajo yAtravs genera una presentacin en forma de tabla de contingencia. Repartidas en Tablas distintas. Las variables de esta lista subdividen la tabla encapas o en grupos de capas, de manera que slo puede verse una capa de la tablacada vez.. Una vez en el Visor, para ver las otras capas se deben pivotar. Anidarsignifica que se muestran las categoras de una variable bajo cada una de lascategoras de la variable anterior. La apilacin muestra las categoras de cada variablecomo un bloque; se puede entender como la extraccin de tablas diferentes y su uninen la misma presentacin.Tablas generales Genera tablas con estadsticos de clasificacin cruzada y desubgrupo. Se pueden generar tablas que muestren diferentes estadsticos paradistintas variables, variables de respuestas mltiples, anidacin y apilacin mixta ototales complejos. En la mayora de las circunstancias es necesario seleccionar una

variable de fila.Tambin se puede seleccionar una o ms variables para definir columnas o capas. Porejemplo, para generar una tabla de contingencia simple debemos seleccionar unavariable para definir las filas y otra para definir las columnas. Si tiene una variable decapa, tambin es necesario tener una variable de fila y una de columna.. Cada variableseleccionada se debe especificar si es de agrupacin para definir casillas o si es unavariable de resumen. Tambin se pueden especificar diferentes estadsticos para cadavariable. Si seleccionamos ms de una variable para una dimensin dada, deberemosespecificar si deben estar apiladas o anidadas en la dimensin.. La mayora de lastablas que muestran los mismos estadsticos de resumen para cada variable se puedenobtener ms fcilmente utilizando el procedimiento Tablas bsicas o de respuestasmltiples. Se pueden mostrar los estadsticos (Las etiquetas de los estadsticosaparecen) en la parte superior (columnas), en el lateral (filas) o en capas separadas.

Para cada variable seleccionada, se puede especificar si es de agrupacin o deresumen. Los estadsticos asociados a una variable que define casillas son losrecuentos y porcentajes. La primera variable de resumen que se especifique definir ladimensin de resumen. Las palabras Dimensin resumen aparecern sobre la lista devariables para esa dimensin, por lo que no se podrn resumir variables en otradimensin.. Los estadsticos seleccionados en la edicin de estadsticos se aplican sloa la variable seleccionada. La primera vez que se editen los estadsticos de unavariable, se definir la dimensin de los estadsticos. Insertar totalinserta una variable

10


11/111

de total despus de la variable seleccionada. No se puede obtener un total de otro totalo de una variable que tiene un total anidado debajo de ella. Respuestas mltiplesmuestra una lista de los conjuntos de respuestas mltiples definidos y permite definirotros.Tablas de respuestas mltiples Crea tablas de frecuencia y de contingencia

bsicas en las que una o ms variables es un conjunto de respuestas mltiples (si no,sera conveniente utilizar Tablas bsicas).. Si no seleccionamos la opcinAnidarparauna dimensin, se producirn tablas separadas para cada variable pero conectadasfsicamente (concatenadas). Las restantes opciones son similares a las descritasanteriormente.Tablas de frecuencias Genera tablas especiales que contienen varias variables conlos mismos valores. Por defecto, las variables forman columnas y las categoras filas(todas las variables de Frecuencias para deben tener las mismas categoras). Cadacasilla muestra el nmero de casos en esa categora. Permite variables de subgrupo.Mediante Subgrupos se puede dividir la tabla en columnas dentro de cada tabla o entablas diferentes (capas). Al dividirla se mostrarn todas las variables para cadasubgrupo. Si hay diversas variables en una de las listas de la seccin Subgrupos, sepuede elegir entre anidarlas o apilarlas (se crean las tablas por separado pero se unenen la presentacin).Comparar mediasMedias Calcula medias de subgrupo y estadsticos univariados relacionados paravariables dependientes dentro de las categoras de una o ms variablesindependientes. Pueden obtenerse el anlisis de varianza de un factor, la eta y pruebasde linealidad.Prueba T para una muestra Contrasta si la media de una sola variable difiere deuna constante especificada.Prueba T para muestras independientes Compara las medias de dos grupos decasos. Los sujetos deben asignarse aleatoriamente a dos grupos, de forma quecualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento)y no a otros factores. Cuando esto no es posible (por ejemplo comparando una

variable entre hombres y mujeres ya que el sexo de una persona no se asignaaleatoriamente), debemos asegurarnos de que las diferencias en otros factores noenmascaren o resalten una diferencia significativa entre las medias (por ejemplo losestudios respecto al sexo).Prueba T para muestras relacionadas Compara las medias de dos variables deun solo grupo. Calcula las diferencias entre los valores de las dos variables de cadacaso y contrasta si la media difiere de 0.ANOVA de un factor Genera un anlisis de varianza de un factor para una variabledependiente cuantitativa respecto a una nica variable de factor (la variableindependiente). El anlisis de varianza se utiliza para contrastar la hiptesis de quevarias medias son iguales. Esta tcnica es una extensin de la prueba t para dosmuestras. Adems de determinar que existen diferencias entre las medias, es posibleque se desee saber qu medias difieren. Existen dos tipos de contrastes para comparar

medias: los contrastes a priori y las pruebas post hoc. Los contrastes a priori seplantean antes de ejecutar el experimento y las pruebas post hoc se realizan despusde haber llevado a cabo el experimento. Tambin se pueden contrastar las tendenciasexistentes a travs de las categoras.

11


12/111

Modelo lineal generalUnivariante Proporciona un anlisis de regresin y un anlisis de varianza para unavariable dependiente mediante uno o ms factores o variables. Las variables de factordividen la poblacin en grupos. Con este procedimiento se pueden contrastar hiptesisnulas sobre los efectos de otras variables en las medias de varias agrupaciones de una

nica variable dependiente. Se pueden investigar las interacciones entre los factoresas como los efectos de los factores individuales, algunos de los cuales pueden seraleatorios. Adems, se pueden incluir los efectos de las covariables y las interaccionesde covariables con los factores. Para el anlisis de regresin, las variablesindependientes (predictoras) se especifican como covariables. Se pueden contrastartanto los modelos equilibrados como los no equilibrados. Se considera que un diseoest equilibrado si cada casilla del modelo contiene el mismo nmero de casos.Adems de contrastar hiptesis se generan estimaciones de los parmetros. Tambinse encuentran disponibles los contrastes de hiptesis de uso ms habitual. Adems, siuna prueba F global ha mostrado cierta significacin, pueden emplearse las pruebaspost hoc para evaluar las diferencias entre las medias especficas. Las mediasmarginales estimadas ofrecen estimaciones de valores de las medias pronosticadospara las casillas del modelo; los grficos de perfil (grficos de interacciones) de estasmedias permiten observar fcilmente algunas de estas relaciones.Multivariante Proporciona un anlisis de regresin y un anlisis de varianza paravariables dependientes mltiples por una o ms covariables o variables de factor. Lasvariables de factor dividen la poblacin en grupos. Con este procedimiento es posiblecontrastar hiptesis nulas sobre los efectos de las variables de factor sobre las mediasde varias agrupaciones de una distribucin conjunta de variables dependientes. En unmodelo multivariado, las sumas de cuadrados debidas a los efectos del modelo y lassumas de cuadrados error se encuentran en forma de matriz en lugar de en la formaescalar del anlisis univariado. Estas matrices se denominan matrices SCPC (sumas decuadrados y productos cruzados).Las pruebas de comparaciones mltiples post hoc se realizan por separado para cadavariable dependiente.

Tambin se hallan disponibles: una matriz SCPC residual, que es una matriz cuadradade las sumas de cuadrados y los productos cruzados de los residuos; una matriz decovarianza residual, que es la matriz SCPC residual dividida por los grados de libertadde los residuos; y la matriz de correlaciones residual, que es la forma tipificada de lamatriz de covarianza residual. El resto es similar al procedimiento anterior.Medidas repetidas Analiza grupos de variables dependientes relacionadas querepresentan diferentes medidas del mismo atributo. Permite definir uno o variosfactores intrasujetos (no confundir con las variables existentes), donde cada factorconstituye un nivel dentro del factor precedente. Si los sujetos se comparan en ms deuna medida cada vez, hemos de seleccionar Medida para definirlas. El nombre de lasmedidas no existe como un nombre de variable en el propio archivo de datos sino quese define aqu.

CorrelacionesBivariadas Calcula el coeficiente de correlacin de Pearson, la rho de Spearman yla tau-b de Kendall con sus niveles de significacin. Las correlaciones miden cmoestn relacionadas las variables o los rdenes de los rangos. Antes de calcular uncoeficiente de correlacin, se deben inspeccionar los datos para detectar valoresatpicos (que pueden producir resultados equvocos) y evidencias de una relacinlineal. Las correlaciones son medidas de asociacin lineal. Dos variables pueden estarperfectamente relacionadas, pero si la relacin no es lineal, el coeficiente de

12


13/111

correlacin no es un estadstico adecuado para medir su asociacin. Parciales Calcula los coeficientes de correlacin parcial, los cuales describen la relacin linealexistente entre dos variables mientras se controlan los efectos de una o ms variablesadicionales.

RegresinLineal Estima los coeficientes de la ecuacin lineal, con una o ms variablesindependientes, que mejor prediga el valor de la variable dependiente.Logstica binaria Es til cuando se desea predecir la presencia o ausencia de unacaracterstica o resultado segn los valores de un conjunto de variables predictoras. Essimilar a un modelo de regresin lineal pero est adaptado para modelos en los que lavariable dependiente es dicotmica. Los coeficientes pueden utilizarse para estimar larazn de las ventajas (odds ratio) de cada variable independiente del modelo. Laregresin logstica se puede aplicar a un rango ms amplio de situaciones deinvestigacin que el anlisis discriminante. Se pueden estimar modelos utilizando laentrada en bloque de las variables o cualquiera de los siguientes mtodos por pasos: Condicional hacia adelante. LR hacia adelante. Wald hacia adelante. Condicional hacia atrs. LR hacia atrs. Wald hacia atrs.Logstica multinomial Resulta til si se desea clasificar a los sujetos segn losvalores de un conjunto de variables predictoras. Este tipo de regresin es similar a laregresin logstica, pero ms general, ya que la variable dependiente no estrestringida a dos categoras. Se ajusta un modelo logit multinomial para el modelofactorial completo o para un modelo especificado por el usuario. La estimacin de losparmetros se realiza a travs de un algoritmo iterativo de mxima verosimilitud.Escalamiento ptimo Cuantifica los datos categricos mediante la asignacin devalores numricos a las categoras, obtenindose una ecuacin de regresin lineal

ptima para las variables transformadas. El anlisis de regresin lineal ordinarioimplica minimizar las diferencias de la suma de los cuadrados entre una variable derespuesta (la dependiente) y una combinacin ponderada de las variables predictoras(las independientes). Las variables son normalmente cuantitativas, con los datoscategricos (nominales) recodificados como variables binarias o de contraste. Comoresultado, las variables categricas sirven para separar grupos de casos y la tcnicaestima conjuntos separados de parmetros para cada grupo. Los coeficientesestimados reflejan cmo los cambios en los predictores afectan a la respuesta. Elpronstico de la respuesta es posible para cualquier combinacin de los valorespredictores. Una aproximacin alternativa incluye la regresin de la respuesta respectoa los propios valores predictores categricos. Como consecuencia, se estima uncoeficiente para cada variable. Sin embargo, para las variables categricas, los valorescategricos son arbitrarios. La codificacin de las categoras de diferentes maneras

proporciona diferentes coeficientes, dificultando las comparaciones entre los anlisisde las mismas variables.CATREG (regresin categrica mediante escalamiento ptimo) ampla la aproximacintpica mediante un escalamiento de las variables nominales, ordinales y numricassimultneamente. El procedimiento cuantifica las variables categricas de manera quelas cuantificaciones reflejen las caractersticas de las categoras originales. Adems,trata a las variables categricas cuantificadas como si fueran variables numricas. Lautilizacin de transformaciones no lineales permite a las variables ser analizadas en

13


14/111

varios niveles para encontrar el modelo que ms se ajusta.

Reduccin de datosAnlisis factorial Intenta identificar variables subyacentes, o factores, queexpliquen la configuracin de las correlaciones dentro de un conjunto de variables

observadas. Se suele utilizar en la reduccin de los datos para identificar un pequeonmero de factores que explique la mayora de la varianza observada en un nmeromayor de variables manifiestas. Tambin puede utilizarse para generar hiptesisrelacionadas con los mecanismos causales o para inspeccionar las variables paraanlisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar unanlisis de regresin lineal). Este procedimiento dispone de 7 mtodos de extraccinfactorial; 5 mtodos de rotacin, entre ellos el oblimin directo y el promax pararotaciones no ortogonales; y 3 mtodos para calcular las puntuaciones factoriales, quepueden guardarse como variables para anlisis adicionales.Anlisis de correspondencias Describe las relaciones existentes entre dosvariables nominales, recogidas en una tabla de correspondencias, sobre un espacio depocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre lascategoras de cada variable. Para cada variable, las distancias sobre un grfico entrelos puntos de categoras reflejan las relaciones entre las categoras, con las categorassimilares representadas prximas unas a otras. La proyeccin de los puntos de unavariable sobre el vector desde el origen hasta un punto de categora de la otra variabledescribe la relacin entre ambas variables.El anlisis de las tablas de contingencia a menudo incluye examinar los perfiles de filay de columna, as como contrastar la independencia a travs del estadstico de chi-cuadrado. Sin embargo, el nmero de perfiles puede ser bastante grande y la pruebade chi-cuadrado no revelar la estructura de la dependencia. El procedimiento Tablasde contingencia ofrece varias medidas y pruebas de asociacin pero no puederepresentar grficamente ningunarelacin entre las variables.El anlisis factorial es una tcnica tpica para describir las relaciones existentes entre

variables en un espacio de pocas dimensiones. Sin embargo, requiere datos deintervalo y el nmero de observaciones debe ser cinco veces el nmero de variables.Por su parte, el anlisis de correspondencias asume que las variables son nominales ypermite describir las relaciones entre las categoras de cada variable, as como larelacin entre las variables. Adems, el anlisis de correspondencias se puede utilizarpara analizar cualquier tabla de medidas de correspondencia que sean positivas.Escalamiento ptimo La combinacin del nivel de medida y el nmero de conjuntoseleccionado determina este procedimiento mediante mnimos cuadrados alternantesque realiza. Nivel de medida. Permite especificar el nivel correspondiente a lasvariables utilizadas en el anlisis: Todas las variables son nominales mltiples. Todas las variables tienencuantificaciones de categoras que pueden diferir para cada dimensin. Alguna variable no es nominal mltiple. Una o ms variables se escalan a un nivel

diferente del nominal mltiple. Otros niveles de escala posibles son: nominal simple,ordinal y numrica discreta.Nmero de conjuntos de variables. Permite especificar cuntos grupos de variables sevan a comparar con otros grupos de variables: Un conjunto. Los datos contienen un grupo de variables. Mltiples conjuntos. Los datos contienen ms de un grupo de variables. Si seselecciona esta opcin, se elegir Correlacin cannica no-lineal (OVERALS).Anlisis seleccionado. Las opciones para Nivel de medida y Nmero de conjuntos de

14


15/111

variables deciden el anlisis segn las combinaciones. Anlisis de homogeneidad (HOMALS). Seleccionando Todas las variables sonnominales mltiples y Un conjunto: Anlisis de componentes principales categricos (CATPCA). Seleccionando Algunavariable no es nominal mltiple y Un conjunto.

Anlisis de correlacin cannica no lineal (OVERALS). Seleccionando Mltiplesconjuntos.

Pruebas no paramtricasChi-cuadrado Tabula una variable en categoras y calcula un estadstico dechicuadrado. Esta prueba de bondad de ajuste compara las frecuencias observadas yesperadas en cada categora para contrastar si todas las categoras contienen la mismaproporcin de valores o si cada categora contiene una proporcin de valoresespecificada por el usuario.Binomial Compara las frecuencias observadas de las dos categoras de una variabledicotmica con las frecuencias esperadas en una distribucin binomial con unparmetro de probabilidad especificado. Por defecto, el parmetro de probabilidad paraambos grupos es 0,5. Para cambiar las probabilidades, puede introducirse unaproporcin de prueba para el primer grupo. La probabilidad del segundo grupo ser 1menos la probabilidad especificadapara el primer grupo.Rachas Contrasta si es aleatorio el orden de aparicin de dos valores de unavariable. Una racha es una secuencia de observaciones similares. Una muestra con unnmero excesivamente grande o pequeo de rachas sugiere que la muestra no esaleatoria.K-S de 1 muestra La prueba de Kolmogorov-Smirnov para una muestra comparala funcin de distribucin acumulada observada de una variable con una distribucinterica determinada, que puede ser la normal, la uniforme, la de Poisson o laexponencial. La Z de Kolmogorov-Smirnov se calcula a partir de la diferencia mayor(en valor absoluto) entre las funciones de distribucin acumuladas terica y observada.

Esta prueba de bondad de ajustecontrasta si las observaciones podran razonablemente proceder de la distribucinespecificada.2 muestras independientes Compara dos grupos de casos existentes en unavariable.K muestras independientes Compara dos o ms grupos de casos respecto a unavariable.2 muestras relacionadas Compara las distribuciones de dos variables.K muestras relacionadas Compara las distribuciones de dos o ms variables.

Series temporalesSuavizado exponencial Suaviza componentes irregulares de datos de seriestemporales, para ello hace uso de una variedad de modelos que incorporan diferentes

supuestos acerca de la tendencia y la estacionalidad. Seleccionando un modeloestacional y definiendo la periodicidad mediante Definir fechas, se puede seleccionaruna variable que represente los factores estacionales. Los modelos difieren en loscomponentes estacionales y de tendencia. Se dispone de los modelos Simple, Holt,Winters y Personalizado.

15


16/111

SupervivenciaTablas de mortalidad Existen muchas situaciones en las se desea examinar ladistribucin de un periodo entre dos eventos, como la duracin del empleo (tiempotranscurrido entre el contrato y el abandono de la empresa). Sin embargo, este tipo dedatos suele incluir algunos casos para los que no se registra el segundo evento

(censurados); por ejemplo, la gente que todava trabaja en la empresa al final delestudio. Las razones para que no se verifique el segundo evento pueden ser muyvariadas: en algunos casos, el evento simplemente no tiene lugar antes de que finaliceel estudio; en otros, el investigador puede haber perdido el seguimiento de su estadoen algn momento anterior a que finalice el estudio; y existen adems casos que nopueden continuar por razones ajenas al estudio (como el caso en que un empleadocaiga enfermo y se acoja a una baja laboral). Estos casos se conocen globalmentecomo casos censurados y hacen que el uso de tcnicas tradicionales como las pruebast o la regresin lineal sea inapropiado para este tipo de estudio. Existe una tcnicaestadstica til para este tipo de datos llamada tabla de mortalidad de seguimiento.La idea bsica de la tabla de mortalidad es subdividir el periodo de observacin enintervalos de tiempo ms pequeos. En cada intervalo, se utiliza toda la gente que seha observado como mnimo durante ese periodo de tiempo para calcular laprobabilidad de que un evento terminal tenga lugar dentro de ese intervalo. Lasprobabilidades estimadas para cada intervalo se utilizan para estimar la probabilidadglobal de que el evento tenga lugar en diferentes puntos temporales.Kaplan-Meier Es un mtodo de estimacin de modelos hasta el evento enpresencia de casos censurados. Se basa en la estimacin de las probabilidadescondicionales en cada punto temporal cuando tiene lugar un evento y en tomar ellmite del producto de esas probabilidades para estimar la tasa de supervivencia encada punto temporal.Regresin de Cox Del mismo modo que los anteriores, la Regresin de Coxes unmtodo para crear modelos para datos de tiempos de espera hasta un evento concasos censurados presentes. Sin embargo, la regresin de Cox permite incluir en losmodelos variables predictoras (covariables). Por ejemplo, permite construir un modelo

de la duracin en el empleo como funcin del nivel educativo y de la categora laboral.Gestiona los casos censurados correctamente y proporciona las estimaciones de loscoeficientes para cada una de las covariables, permitiendo evaluar el impacto demltiples covariables en el mismo modelo. Adems, es posible utilizar este mtodopara examinar el efecto de covariables continuas.Cox con covariable dep. del tiempo Existen ciertas situaciones en las queinteresa calcular un modelo de regresin de Cox, pero no se cumple el supuesto detasas de impacto proporcionales. Es decir, que las tasas de impacto cambian con eltiempo: los valores de una (o de varias) de las covariables son diferentes en losdistintos puntos del tiempo. En esos casos, es necesario utilizar un modelo deregresin de Cox extendido, que permita especificar covariables dependientes deltiempo (T_COV_). Con el fin de analizar dicho modelo, se debe definir primero unacovariable dependiente del tiempo. Para facilitar esta tarea contamos con una variable

del sistema, llamada T_, que representa el tiempo. Se utiliza para definir covariablesdependientes del tiempo empleando dos mtodos generales: Para contrastar el supuesto de tasas de impacto proporcionales con respecto a unacovariable particular, o para estimar un modelo de regresin de Cox extendido quepermita impactos no proporcionales, se define la covariable dependiente del tiempocomo una funcin de la variable de tiempo T_ y la covariable en cuestin. Algunas variables pueden tener valores distintos en periodos diferentes del tiempo,pero no estn sistemticamente relacionadas con el tiempo. En tales casos es

16


17/111

necesario definir una covariable dependiente del tiempo segmentada, lo cual puedellevarse a cabo a partir de un conjunto de medidas usando las expresiones lgicas(1:verdadero, 0:falso).Para las covariables dependientes del tiempo segmentadas, los casos en los que faltecualquiera de los valores quedarn eliminados del anlisis. Por tanto, todos los casos

deben tener valores para todos los puntos del tiempo medidos en la covariable, inclusopara los puntos del tiempo posteriores a la eliminacin del caso del conjunto bajoriesgo (ya sea por el evento o por la censura).

Respuestas mltiplesDefinir conjuntos Agrupa variables elementales en conjuntos de categorasmltiples y de dicotomas mltiples, para los que se pueden obtener tablas defrecuencias y tablas de contingencia. Se pueden definir hasta 20 conjuntos derespuestas mltiples. Cada conjunto debe tener un nombre exclusivo. Las variableselementales se pueden codificar como dicotomas o categoras: Dicotomas. En Valorcontado debe introducirse un entero. Cada variable que tenga al menos una aparicindel valor contado se convierte en una categora del conjunto de dicotomas mltiples. Categoras. Crear un conjunto de categoras mltiples con el mismo rango devalores que las variables que lo componen. Deben introducirse dos enteros comovalores mximo y mnimo del rango para las categoras del conjunto de categorasmltiples. El procedimiento suma cada valor entero distinto en el rango inclusivo paratodas las variables que lo componen. Las categoras vacas no se tabulan. A cadaconjunto de respuestas mltiples se le debe asignar un nombre exclusivo de hasta 7caracteres. El procedimiento coloca delante del nombre asignado un signo dlar ($)..El nombre del conjunto de respuestas mltiples slo se encuentra disponible para suuso en los procedimientos de respuestas mltiples.Frecuencias Produce tablas de frecuencias para conjuntos de respuestas mltiples.Es necesario definir previamente uno o ms conjuntos de respuestas mltiples. Paralos conjuntos de dicotomas mltiples, los nombres de categoras que se muestran enlos resultados proceden de etiquetas de variable definidas para variables elementales

del grupo. Para los conjuntos de categoras mltiples, las etiquetas de categoraproceden de las etiquetas de valor de la primera variable del grupo. Si las categorasperdidas para la primera variable estn presentes para otras variables del grupo, debedefinirse una etiqueta de valor para las categoras perdidas.Los casos con Valores perdidos se excluyen en base a tabla por tabla. Un caso seconsidera perdido para un conjunto de dicotomas (o categoras mltiples) slo sininguno de sus componentes contiene el valor (o tiene valores vlidos en el rango). Sepueden excluir los casos con valores perdidos en cualquier variable de la tabulacin delconjunto de dicotomas, o categoras, o ambas.Tablas de contingencia Presenta, en forma de tabla de contingencia, conjuntos derespuestas mltiples, variables elementales o una combinacin. Tambin permiteobtener porcentajes de casilla basados en casos o respuestas, modificar la gestin delos valores perdidos u obtener tablas de contingencia emparejadas. Es necesario

definir previamente uno o ms conjuntos de respuestas mltiples. Los nombres en losresultados se muestran de la misma forma que en el procedimiento anterior. Lasetiquetas de categora por columnas se muestran en tres lneas, con un mximo de 8caracteres por lnea. Para evitar la divisin de palabras, se pueden invertir loselementos de las filas y las columnas o volver a definir las etiquetas.

17


18/111

Por otro lado, el men Grficos permite realizar una gran cantidadde grficos orientados al anlisis de los datos. La primera opcin,Galera, no realiza un grfico en s, sino que nos trasladadirectamente a un tema de la ayuda que nos presenta una galerade grficos.

La segunda opcin es la de grficos Interactivos. Con esta opcin segeneran grficos que podrn ser modificados posteriormente, encuanto a variables y elementos grficos, de forma mucho msefectiva que los grficos normales. Sin embargo slo sonconvenientes cuando se trabaje con archivos de datos pequeos osubconjuntos de otros archivos mayores ya que los requerimientosde recursos son enormes.Las restantes opciones de este men son una lista de todos losgrficos posibles (no interactivos). Posteriormente se podrnmodificar, pero slo a nivel de formato y de una forma msprecaria.

Dentro de este men, encontramos la siguiente galera de grficos: Barras,Lneas, reas, Sectores, Mximos-mnimos, Pareto, Control, Diagramas de caja, Barrasde error, Dispersin, Histograma, P-P, Q-Q, Secuencia, Curvas ROC, Serie temporal:Autocorrelaciones, Serie temporal: Correlaciones cruzadas, Serie temporal: Anlisisespectral.

Una vez seleccionado uno de los tipos, pasamos a otra pantalla de ayuda que nosmuestra los subtipos existentes. De cada subtipo nos presenta un ejemplo de lo que sepuede hacer y de cmo hacerlo.

Para la creacin de un grfico se nos muestra, generalmente, un cuadro de dilogoinicial de seleccin del grfico deseado. Esto es debido a que la mayora de tipos degrfico estn disponibles en varios subtipos y configuraciones.Ejemplo: Una vez elegido el grfico en cuestin, pasamos al cuadro de dilogo usualque aparece cuando realizamos un anlisis.

18


19/111

2. GENERALIDADES ESTADSTICA

Se puede definir la estadstica de varias formas, podemos comenzar por una definicinde diccionario, el cual la define como "La ciencia que se ocupa de la coleccin,

clasificacin, anlisis e interpretacin de hechos o datos numricos. En pocas palabrasla Estadstica es la ciencia de los datos

Existiendo igualmente diversas definiciones que se pueden encontrar en los libros deestadstica, de los cuales podemos traer a colacin 2 de ellas. La primera nos dice que"es un campo del estudio relacionado con la recopilacin, organizacin y resumen delos datos, adems de la obtencin de inferencias acerca de un conjunto de datoscuando solo se observa una parte de ellos" Wayne W. Daniel. Y la segunda nos ladefine como "un conjunto de mtodos y teoras desarrolladas para recolectar,describir, analizar e interpretar fenmenos y poder tomar decisiones racionales, loscuales estn sujetos a la incertidumbre, ya que la informacin de la cual se deriva laconclusin es incompleta" Abel Daz Cadavid et al.

En este orden de ideas, la estadstica suele aplicarse a dos tipos de problemas:1. Resumir, describir y explorar datos2. Utilizar datos de muestra para inferir la naturaleza del conjunto de datos del que se

escogi la muestra

Es as como la rama de la estadstica que se dedica a la organizacin, sntesis ydescripcin de conjuntos de datos es la estadstica descriptiva.

Hay ocasiones en que el fenmeno de inters se caracteriza por un conjunto de datoscuya obtencin es o bien fsicamente imposible o requerira un gasto excesivo dedinero o de tiempo. En tales situaciones se muestrea el conjunto de datos y se utilizala informacin de muestra para inferir la naturaleza del conjunto. De esta forma, la

rama de la estadstica que utilizamos para resolver este problema es la estadsticainferencial. Es decir es la que nos permite inferir a partir de una muestra, algoacerca de una poblacin.

LA INVESTIGACIN ESTADSTICA

La estadstica es un conjunto de mtodos usados para obtener conocimientos.Realmente es parte integrante del mtodo general del conocimiento, establecido comomtodo cientfico.

Se conocen 4 etapas en el proceso de solucin de un problema cientfico:Observacin, hiptesis, prediccin y verificacin. La estadstica trabaja especialmentecon la primera y cuarta etapa. La prediccin va ligada a la lgica y conocimiento del

fenmeno que se esta trabajando.

Toda investigacin estadstica deber utilizar los siguientes pasos:

Paso 1. Formulacin del Problema: El propsito de una investigacin esdeterminar el tipo de estudio que debe realizarse. En sntesis la especificacin delproblema conllevar a trazar pautas y objetivos en el estudio.

19


20/111

Paso 2. Diseo de la Investigacin: Es necesario conocer si la investigacines o no controlada. El control puede hacerse por experimentacin directa, donde elinvestigador controla y manipula los resultados que afectan las variables de inters.Un buen diseo debe acoger la mxima informacin y el mnimo error.Paso 3. Muestreo: Es la parte de la investigacin que se relaciona con la forma

de obtener los datos de modo que sean aleatorios (provenientes del azar),significativos y confiables.Paso 4. Presentacin y Anlisis de los Datos: Una vez se tenga toda lainformacin esta se condensa por medio de tablas, grficas, figuras, de modo quepueda ser publicada y entendida.Paso 5. Inferencia y Toma de Decisiones: Este es el paso ms importante.La inferencia estadstica se ocupa de la forma de tomar conclusiones ogeneralizaciones sobre una poblacin que ha sido examinada con base en unamuestra extrada de ella.

Los anteriores pasos dan origen a diferentes ramas de la estadstica. Los mtodosestadsticos estudian estas ramas con las nombres de estadstica descriptiva, diseo deexperimentos, muestreo probabilstico, inferencia estadstica y la teora de decisiones.

CONCEPTOS BSICOS

Bioestadstica: Cuando los datos que se estn analizando se obtienen de lasciencias biolgicas y de la medicina, se utiliza el trmino bioestadstica paradiferenciar a esta aplicacin particular de herramientas y conceptos estadsticos.Poblacin: Se refiere al agregado o totalidad de unidades individuales acerca delas cuales se desea tener informacin. El mayor grupo de elementos por los cualesse tienen un cierto inters en un momento dado. Si una poblacin de valoresconsta de un nmero fijo de estos, se dice que la poblacin es finita. Por otraparte, si una poblacin consta de una sucesin sin fin de valores, dicha poblacin

es infinita.Muestra: Es el subconjunto de datos seleccionados de una poblacin.Muestreo: Es el proceso de obtencin de datos de una poblacin o de variasrealizaciones de un experimento.Variable: Son aquellas caractersticas o propiedades existentes en los elementosde la muestra o la poblacin.Parmetro: Son todas aquellas medidas que describen numricamente lacaracterstica de una poblacin. Tambin se les denomina valor verdadero, ya queuna caracterstica poblacional tendr un solo parmetro (media, varianza, etc). Sinembargo una poblacin puede tener varias caractersticas y, por tanto, variosparmetros.Estimador o estadgrafo: La descripcin numrica de una caractersticacorrespondiente a los elementos de una muestra, se denomina estadgrafo. De

una poblacin se pueden obtener M nmero de muestras posibles y en cada uno deellas se puede cuantificar la caracterstica, obtenindose por lo general, valoresdiferentes para cada muestra, a pesar de ser utilizado el mismo estadgrafo omedida.Unidades Individuales: Las llamaremos unidades elementales o unidades deanlisis. Son aquellos elementos o unidades sobre los cuales se concentra elestudio, quienes suministran la informacin que luego va a ser analizada a fin deobtener conclusiones. Son aquellas que conforman la poblacin y/o la muestra.

20


21/111

Unidad de muestreo: Subconjunto mnimo en el cual se puede subdividir eluniverso para efectuar el proceso de toma de muestra. Es cada una de lasunidades que conforman el marco de muestreo. Puede ser igual a la unidad deanlisis o estan integradas por dos o ms unidades de anlisis en cuyo recibe elnombre de conglomerado.

Unidad de medida: Son las unidades en las cuales se intenta medir la variableDato: Valor que se obtiene a partir de una unidad de anlisis.Medir: Es comparar con un patrn. Siendo el patrn una serie de caractersticas,cualidades que tienen los objetos o las diversas magnitudes asociadas con unaescala numrica.Valor: Son los diversos atributos o diversas magnitudes de la medicin quecaracterizan al sujeto observado.Encuesta: Es el proceso de obtencin de datos cuando no se tiene control sobrelos agentes que afectan las caractersticas de la poblacin.Experimento Aleatorio: Es la informacin obtenida mediante un estudio al azar.Experimento Estadstico: Es la obtencin de la informacin acerca de unacaracterstica de inters.

VARIABLES ESTADISTICAS

Se llaman variables estadsticas aquellas propiedades o caractersticas de las unidadesde anlisis cuya variacin se debe al azar.

Las variables estadsticas deben tener las siguientes caractersticas o condiciones:Exhaustividad: Comprende todas las alternativas o respuestas frente a unasituacin dada.Un solo criterio: Se debe relacionar estrictamente a la formulacin con lavariable

Discriminante: Todas las posibles alternativas de respuesta identificanclaramente el comportamiento del fenmeno que se estudia.

Naturaleza de las Variables

Las variables pueden dividirse en variables cuantitativas y cualitativas. Los datoscuantitativos son aquellos que representan la cantidad de algo, medida en una escalanumrica, por ejemplo, nmero de hijos, edad, peso, talla. Los datos cualitativos ocategricos son aquellos que solo pueden clasificarse, estos no tienen unainterpretacin cuantitativa, caractersticas tales como el color de los ojos, color delcabello, tipo de sangre, comportamiento psicolgico, no pueden medirsenumricamente, sino tratadas descriptiva o cualitativamente. Estas caractersticas opropiedades reciben el nombre de atributos. Los atributos deben combinarse en forma

de frecuencias de tal modo que puedan ser analizados estadsticamente. En muchasocasiones los atributos pueden reemplazarse por valores numricos. Por ejemplo, enuna mquina, condiciones ptimas de funcionamiento, condiciones leves defuncionamiento y falta de funcionamiento, pueden codificarse con los nmeros 1, 2 y3, donde dichos nmeros representan el rango de funcionamiento y no magnitudesfsicas. Si lo que se desea es hacer comparaciones entre caractersticas, es necesariollevar las frecuencias a porcentajes.

21


22/111

Ejemplo: Los siguientes datos representan los requisitos del tipo de sangre de 200cientficos.

TIPO O A B AB TOTALFrecuencia 90 80 20 10 200

Pasando a porcentajes tenemos:Porcentaje 45% 40% 10% 5% 100.0%

Obsrvese que el tipo A es 4 veces ms frecuente que el tipo B.

NOTA: No debe presentarse la tabla de porcentajes a no ser que estacompaada de los datos originales. Pues esto llevara a interpretacionesinverosmiles.

Clasificacin de las Variables Segn Naturaleza

Las variables cuantitativas se dividen en DISCRETAS y CONTINUAS. As, si la

observacin de las caractersticas de inters exige la accin de medir, estacaracterstica es una variable continua, y el resultado de la medicin ser un nmeroreal. Ejemplo de variables continuas: estatura, peso, cantidad de liquido en unbeaker, temperatura, tiempo.

De otra forma si la observacin de la caracterstica de inters exige la accin de contar,esta caracterstica es una variable discreta, y el resultado del conteo es un nmeroentero. Ejemplo de variables discretas: nmero de hijos por familia, nmero deaccidentes por hora, nmero de pacientes que ingresan por da a un hospital, nmerode aos.

Los datos pueden clasificarse en Univariados, Bivariados Multivariados. Losunivariados son aquellos que se refieren a una sola variable. En algunos estudios es

deseable observar dos propiedades o caractersticas diferentes en una misma unidadde anlisis, tales como el peso y la estatura en personas adultas, cada observacinconsta de un par de nmeros y se dice que son datos bivariados. Simultneamente, laobservacin de tres o ms propiedades en cada unidad de anlisis con el fin deestudiarlas conjuntamente, origina datos multivariados.

Escalas de Medicin

Las variables estadsticas pertenecen a una de las cuatro escalas siguientes de medida:Nominal, ordinal, de intervalo de razn.

Escala Nominal: Es aquella en la cual los nmeros no representan magnitudes,sino categoras. Igualmente podramos decir, que son datos cualitativos concategoras que no pueden ordenarse de forma significativa. Si consideramos elsexo, este tiene dos categoras atributos: hombre mujer, si rotulamos 1 parahombre y 2 para mujer, entonces estamos aplicando la escala nominal.Escala Ordinal: Es aquella que tiene el orden de los nmeros, no as susmagnitudes. Igualmente se puede decir, son datos cualitativos, los cuales tienenun claro ordenamiento de los grupos del ms alto al ms bajo. Por ejemplo, lapreferencia de 4 candidatos puede ordenarse de 1 a 4, en donde: 1 representara

22


23/111

el ms preferido y 4 el menos favorecido; grados de desnutricin, tipos dequemaduras.

Escala de Intervalos: Los valores numricos asociados con esta escala soncuantitativos y por lo tanto permiten el uso de las operaciones aritmticasfundamentales. En esta escala se tiene en cuenta tanto la diferencia entre sus

medidas como en su ordenacin. Exige un punto de referencia fijo (cero arbitrario)y una unidad de distancia para medir las diferencias. Debe entenderse que el ceroarbitrario en ningn momento indica ausencia del atributo. Ejemplo: temperaturaen grados centgrados, cociente de inteligencia, ndice apgar.Escala de Razn: Se aplica cuando son importantes el orden, la distancia y larazn entre dos medidas. Se utiliza un cero real (absoluto), siendo esta la nicadiferencia con la escala anterior, este cero indica ausencia del atributo. As lacaracterstica operativa de este nivel es la de que las razones establecidas con losvalores de una variable guardan una correspondencia con las razones existentesentre las cantidades de la variable medida. Debe existir la unidad de medida comocentmetros, metros, aos, das de estancia.

DISTRIBUCIN DE FRECUENCIAS

Representacin de Datos

Los datos numricos provenientes de un experimento o encuesta, apareceninicialmente en el orden en que fueron obtenidos. En un principio, disponemos de unextenso listado de datos que en si mismo ofrecen muy escasa informacin acerca delas caractersticas de inters que queremos conocer a travs de ellos. Ya sea que losdatos representen una muestra o toda la poblacin, es necesario organizarlos,resumirlos y presentarlos en una forma apropiada para su anlisis e interpretacin.Existen bsicamente dos formas de presentar describir datos: mediante grficos ymediante tablas. La estadstica descriptiva se ocupa de todo aquello relacionado con el

procesamiento de los datos originales para poner de manifiesto sus caractersticasesenciales, el propsito de llegar a conclusiones es una etapa posterior.

Representacin Tabular de un Conjunto de Datos

La materia prima de toda investigacin estadstica es el conjunto de datos uobservaciones que constituyen una muestra o poblacin completa. Este conjunto oserie de datos debe organizarse en alguna forma comprensible, de modo que puedahacerse uso de ellos. La representacin ms usual es la tabular, o sea la tabla defrecuencias. Una tabla de frecuencias es un cuadro con ttulo y leyenda explicativa enel cual aparecen los datos en forma organizada y bien discriminada, incluyendo totales,frecuencias, porcentajes.

Ejemplo:Se desea tener informacin sobre la presin sistlica por individuo en una regin deColombia, se tomo una muestra de 40 personas obtenindose los siguientesresultados.

23


24/111

98, 120, 200, 122, 176, 123, 135, 102, 119, 110, 135, 124, 135, 128, 98, 135, 128,122, 130, 136, 123, 124, 120, 135, 127, 120, 98, 111, 136, 128, 128, 185, 188, 120,130, 135, 135, 138, 135, 102.

No obstante que la muestra es relativamente pequea, este conjunto de datos as

presentado, no ofrece una informacin clara al investigador. La siguiente tablamuestra estos mismos datos en forma ordenada, y se llama tabla de frecuencias ,porque en ella aparecen las frecuencias con las cuales las personas presentaron unadeterminada presin sistlica.

PRESIN SISTOLICA POR INDIVIDUOS EN UNA REGIN DE COLOMBIA

Presinsistlica por

individuo

FrecuenciaAbsoluta

(ni)

FrecuenciaAbsoluta

Acumulada(Ni)

FrecuenciaRelativa

(fi)

FrecuenciaRelativa

Acumulada (Fi)Fi * 100

98102110111119120122123124127128130135136

138176185188200

32111422214282

11111

35678121416181923253335

3637383940

0.0750.050.0250.0250.0250.100.050.050.050.0250.100.050.200.05

0.0250.0250.0250.0250.025

7.512.515.017.520.030.035.040.045.047.557.562.582.587.5

90.092.595.097.5100.0

Explicacin a la tabla anterior:

Cada dato se presenta por Xi, as:X1=98 , X19=200

La frecuencia absoluta ni es el nmero de veces que se repite cada dato, as n2=2,indica que el dato 102 se repite 2 veces, con ni, i=1...19. La suma de frecuenciasabsolutas ni es igual al total de datos, esto es, = 40 = n, en general si se tienen K

datos diferentes = n.

=1i

in

=

K

i

in1

24


25/111

La frecuencia absoluta acumulada, Ni, es la suma de las i frecuencias absolutas

anteriores, esto es, Ni = , por ejemplo, N=

i

j

jn1

3= =n=

3

1j

jn 1+n2+n3=3+2+1=6

La frecuencia relativa fi representa la proporcin de veces que ocurre el dato i-esimocon respecto al total, esto es, fi = ni/n*100 (usualmente se da en porcentajes). Porejemplo f5 = n5/40*100 = 1/40*100=2.5%.Lo anterior significa que X5=119 representa un 2.5% de datos de la muestra. Lafrecuencia relativa acumulada Fi es la suma de las i frecuencias relativas anteriores,

esto es, Fi = . Por ejemplo F=

i

j

jF1

4 = F3 + F4 = 17.5, lo cual significa que los cuatro

datos menores constituyen el 17.5% de la muestra. Ntese que = 1 (si

multiplicamos por 100% la cuarta columna, = 100

=

i

j

jF1

=

k

j

jF1

Representacin Grfica de un Conjunto de Datos

Los grficos tienen por finalidad dar una informacin general de un conjunto de datos.Se busca con ellos que el lector se forme una idea rpida y global del comportamientode la caracterstica en estudio, ya sea en la muestra como en la poblacin. Un grficono intenta mostrar informacin detallada, sino hechos sobresalientes de un conjuntode datos.

Entre los grficos estadsticos ms comnes, mencionaremos los grficos de barras

simples y compuestos, los grficos de sectores (tortas), los histogramas, los polgonosde frecuencias, los polgonos de frecuencias acumuladas u ojivas, los grficos delneas, los grficos de barras dirigidos (pirmides), y los grficos de dispersin.

Grfico de BarrasSe usa para descripciones de conjunto de datos cualitativos, los cuales indican lafrecuencia o frecuencia relativa correspondiente a cada categora, siendo la altura de labarra proporcional a la frecuencia o frecuencia relativa de la categora. Estas puedenser simples o compuestas. Las simples son aquellas que muestran el comportamientode una sola variable, mientras que las compuestas son aquellas que muestran elcomportamiento de 2 o ms variables.

25


26/111

Distribucin porcentual por grupos de edad en el municipio

del Retiro - Antioquia, 1998

Distribucin porcentual por grupos de edad en el municipio

del Retiro - Antioquia, 1998

8,8

19,1

51,9

12,6

7,5

0 - 4 '5 - 14 15 - 44 45 - 69 60 y Ms

Grupos de Edad

0

10

20

30

40

50

60

Porcentaje

Distribucin de lesiones en las manos segn sexo en un

estudio sobre salud ocupacional

Distribucin de lesiones en las manos segn sexo en un

estudio sobre salud ocupacional

40

60

21,8

78,1

FEMENINO MASCULINO

Sexo

0

20

40

60

80

100

Porcentaje

No

S

26


27/111

LUGAR DE OCURRENCIA DE LA DEFUNCION POR SEXO.LUGAR DE OCURRENCIA DE LA DEFUNCION POR SEXO.MEDELLIN, 1987MEDELLIN, 1987--19961996

Lugar de la defuncin

Sin informacin

Otro lugar

Casa

Hospital o clnica

Porcentaje

70

60

50

40

30

20

10

0

SEXO

Mujer

Hombre

Grfico de Sectores (Torta)Se utilizan igualmente para variables de naturaleza cualitativa, y consiste en dividir uncrculo completo (pastel) en tajadas, donde cada tajada corresponde a una categora.El ngulo central de cada rebanada es proporcional a la frecuencia relativa de esacategora. Permitiendo comparar parte con parte y partes con el total.

Localizacin geogrfica de las personas del Municipio del

Retiro. Antioquia, 1998

Localizacin geogrfica de las personas del Municipio del

Retiro. Antioquia, 1998

Urbana40,6%

Rural59,4%

27


28/111

Grfico de Barras Horizontal DirigidoEs aquel que utiliza barras horizontales en lugar de verticales, esta dirigido porque ellado izquierdo del eje se usa para dibujar un conjunto de datos y el derecho paradibujar el otro.

DISTRIBUCION PORCENTUAL DE LAS LESIONESOCULARES POR GRUPOS DE EDAD SEGUN SEXO.DISTRIBUCION PORCENTUAL DE LAS LESIONESOCULARES POR GRUPOS DE EDAD SEGUN SEXO.

0

20

91

45

9

35

3

22

82

55

15

22

>50

>50

30 - 50

30 - 50


29/111

Histograma de FrecuenciasEs un conjunto de rectngulos contiguos cuya base son los intervalos de clase sobre eleje horizontal y alturas iguales a las frecuencias absolutas o relativas asociadas a cadaclase y sobre el eje vertical. El histograma es en esencia una grfica de barras en lasque las categoras son clases. El histograma no nos dice como estn distribuidos los

datos dentro de los intervalos, adems las apariencias de simetra deben ser aceptadascon cuidado. Este se aplica para variables de naturaleza cuantitativa y esta dada enintervalos de clase.

Peso (en onzas) de los tumores malignos extirpados del abdomen dPeso (en onzas) de los tumores malignos extirpados del abdomen de lase laspersonas encuestadas. El Retiro, Antioquia. 1998personas encuestadas. El Retiro, Antioquia. 1998

Polgono de FrecuenciasSe aplica cuando la variable objeto de estudio es cuantitativa y esta dada en intervalosde clase. Se construye graficando las respectivas marcas de clase de cada intervalo.El polgono de frecuencias presenta una imagen ms real de los datos por cuanto losvalores individuales en cada intervalo son gradualmente ms frecuentes a medida quese acercan al punto medio o marca de clase. Es usual "dibujarse" este sobre elhistograma de frecuencias.

29


30/111

Peso (en onzas) de los tumores malignos extirpados del abdomen dPeso (en onzas) de los tumores malignos extirpados del abdomen de lase laspersonas encuestadas. El Retiro, Antioquia. 1998personas encuestadas. El Retiro, Antioquia. 1998

Polgono de Frecuencias Acumuladas (Ojiva)Ac como su nombre lo indica lo que se grafica son las frecuencias acumuladas.Cuando los datos son continuos, la grfica tiene una forma tpica y ms o menosdefinida llamada comnmente Curva u Ojiva. Cuando los datos son discretos, lagrfica tiene una forma escalonada y los saltos ocurren en los puntos donde lacaracterstica asume sus respectivos valores.

Distribucin acumulada del peso (en onzas) de los tumores malignDistribucin acumulada del peso (en onzas) de los tumores malignososextirpados del abdomen de las personas encuestadas. El Retiro,extirpados del abdomen de las personas encuestadas. El Retiro, Antioquia.Antioquia.

19981998

30


31/111

Grfica de LneasSe utiliza para variables de naturaleza cuantitativa, y cuando estas son analizadas enfuncin del tiempo y se pretende mostrar las variaciones de esta en el tiempo.

Nacimientos vivos.

Medelln 1986 - 1996

Nacimientos vivos.

Medelln 1986 - 1996

Cronologa de la atencin en salud en Medelln 1986 - 1996Cronologa de la atencin en salud en Medelln 1986 - 1996

1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996

Aos

30

31

32

33

34

35

36

37Miles

Nacimientos vivos

Grfico de dispersin o Nube de puntosUtilizado para relacionar dos variables de naturaleza cuantitativa. Su uso es adecuadocuando se trata de establecer si existe asociacin entre dos variables tendiente aestablecer un modelo de regresin que explique la relacin funcional de una variableque se llamara dependiente en funcin de otra que ser la independiente.

Aos de antiguedad

403020100-10

Ingresosendiezmiles

1000

800

600

400

200

0

INGRESO EN FUNCIN DE LOS AOS DE ANTIGEDAD.INGRESO EN FUNCIN DE LOS AOS DE ANTIGEDAD.ODONTLOGOS DE LA CIUDAD DE MEDELLN. 1999ODONTLOGOS DE LA CIUDAD DE MEDELLN. 1999

31


32/111

MEDIDAS DESCRIPTIVAS DE UNA MUESTRA

Medidas de Tendencia Central

Son medidas que proporcionan informacin acerca de ciertos promedios o valores

centrales de nuestros datos. Las ms usadas son: Media aritmtica, Mediageomtrica, Media armnica, La mediana y La moda. Realmente estas dos ltimasmedidas, en el sentido estricto de la estadstica son medidas de posicin.

a). Media aritmtica: Es la suma de todos los datos dividida entre el total de ellos,esto es, si X1, X2,..., Xn son los datos, la media aritmtica, denotada X, esta dado

por X =n

Xin

i

=1

Cuando hay datos repetidos, la media aritmtica puede calcularse as: X= n

Xinin

i

=1

,donde ni es la frecuencia absoluta del dato Xi, muchos la llaman media aritmticaponderada. La media aritmtica tambin es llamada Promedio Aritmtico Simple,Valor Medio o simplemente Media.

Ejemplo:Calcule la Media del conjunto de n = 5 determinaciones de muestra: 4, 6, 1, 2, 3; laaplicacin de la frmula X nos da:

X=n

Xin

i

=1 =

5

32164 ++++= 3.2

Ahora si hubiesen datos repetidos el desarrollo de frmula seria como sigue:

Distribucin del tiempo de efectode una droga en 20 pacientes

Xi ni Xini15202530

7463

1058015090

Total 20 425

X=n

Xini

n

i=1 =20

9015080105 +++= 21.25 Min.

Interpretacin: En promedio el tiempo que tarda en hacer efecto la drogasuministrada es de 21.25 minutos.

32


33/111

Ventajas: Fcil comprensin Rapidez de clculo Presenta estabilidad a las fluctuaciones al azar

Desventajas: Dependiendo de la naturaleza de los datos y de la muestra puede ser pococonfiable

Es afectada por la presencia de valores extremos (ya sea pequeos o grandes), ental situacin debe utilizarse otro tipo de promedio.

b). Media Geomtrica: Se obtiene multiplicando todos los datos y luego se extraela raz n-esima a tal producto, esto es, X1, X2, ..., Xn son los datos y n es eltamao de la muestra, entonces la media geomtrica, que denotaremos Xg, esta

dada por Xg= n nXXX ,...,, 21 , esta frmula es fcil de calcular cuando n 3, n

N, si n 4 se debe usar la siguiente frmula:

Se toma el logaritmo en Base 10 de cada uno de los datos Se suman los logaritmos de los datos dados en el paso anterior y se divide entre el

total de los datos Se extrae el antilogaritmo a la expresin anterior, el resultado ser la media

geomtrica

Simblicamente la frmula ser: Xg= Antilog

=

n

LogXin

i 1

Ejemplo:Considrese los nmeros 5, 6, 9, 10, 15, 40, hallaremos la media aritmtica y la mediageomtrica.

X =n

Xin

i

=1 =

6

401510965 +++++= 14.16

Xg= Antilog

=

n

LogXin

i 1

= 10.83 , as:

Log 5 = 0.6989 Log 6 = 0.7781 Log 9 = 0.9542Log 10 = 1 Log 15 = 1.1760 Log 40 = 1.6020

33


34/111

X g= Antilog

+++++

6

6020.11760.119542.07781.06989.0 = 10.83

Cabe recordar, que se deben sumar todos los logaritmos y se divide por el nmero de

datos, para posteriormente extraer el antilogaritmo a dicho resultado.Nota: Si n 3 y alguno de los datos es cero Xg = 0 Si n 4 y algn dato es negativo, no se puede hallar Xg(Solucin imaginaria)

La media geomtrica es muy til ya que esta no se encuentra influenciada por valoresextremos, es esta la que debe usar cuando estos valores se detectan dentro de unconjunto de datos. Para efectos de calculo de esta medida a partir de cualquierprograma estadstico y del Excel, su interpretacin es idntica a la media aritmtica.

c). Media armnica: Es el recproco de la Media aritmtica o en otras palabras, elrecproco de los trminos de la media aritmtica. Su frmula es: Xarmnica =

=

n

i Xi

n

1

1

1)(Xin

Se usa generalmente cuando se van a promediar relaciones que son inversamenteproporcionales, como lo es el tiempo con relacin a la velocidad.La magnitud de la media armnica es menor que la media aritmtica y geomtrica, degran utilidad cuando la variable esta dada en forma de tasa.

d). Mediana: Es el valor tal que al menos el 50% de los valores estn por encima del y el otro 50% de los valores estn por debajo de este. Ocupa una posicin

central en la serie cuando los datos estn ordenados. Si el nmero de datos esimpar la mediana es el dato del centro. Si por el contrario el nmero de datos espar la mediana puede ser cualquier valor intermedio central. La mediana se denotacon Me.

Posicin de la Mediana:2

1+n

Ejemplo:Dada una serie de datos, calcular la mediana3, 2, 7, 4, 9, 15, 15, 14, 13, 12, 4, 5, 7, 9, 7, 11, 8, 9, 6, 5, 10

Posicin de la mediana:2

1+n =2

121+ = 11

Luego de obtener la posicin de la mediana, el paso a seguir es ordenar los datosen orden ascendente y, la mediana ser el dato que ocupe la posicin nmero 11:

2, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 9, 9, 9, 10, 11, 12, 13, 14, 15, 15

34


35/111

Dato 11: Me = 8

Para el clculo de la mediana con conjuntos pares de datos, trabajaremos con elejemplo anterior, suprimiendo uno de los nmeros 15, hallar la mediana.

Posicin de la mediana:2

1+n =2

120 + = 10.5

Me =2

87 += 7.5

Interpretacin: Supongamos que los datos anteriores son edades deun grupo de personas, la mediana se interpretara entonces de lasiguiente manera: El 50% de las personas tienen edadesinferiores o iguales a 7.5 aos, el otro 50% presentan edadessuperiores a esta.

Caractersticas de la Mediana: Es menos aplicada que el promedio Se requiere para su clculo ordenar los datos En series de datos poco simtricas con valores atpicos, esta es la medida ideal La mediana es realmente una medida de posicin

Ventajas: No se deja influenciar por valores extremos Fcil de calcular

Desventajas: Se aplica generalmente en datos agrupados

e). Moda: Es el dato que presenta la frecuencia absoluta ms alta o mayor, sedenota por Mo. Realmente al igual que la mediana es ms una medida de posicin.Si la frecuencia de los datos es unitaria se dice que no existe moda. Si existen dosdatos que tienen las frecuencias ms altas, se dice que el conjunto de datos esBimodal.

Ventajas: Es independiente de los valores extremos Es el dato ms descriptivo de la serie

Desventajas: Puede no existir

Medidas de Posicin (Datos sin agrupar)

Son valores que dividen la distribucin ordenada en cualquier nmero de partes.Veremos entonces Los Cuartiles, Deciles y Percentiles.

a). Cuartiles: Son aquellos que dividen la distribucin ordenada encuatro (4) partes iguales.

35


36/111

Primer Cuartil: Es el valor en el cual o por debajo del cual se encuentra el25% de todos los valores de la serie. Se denotar con Q1.

Posicin Q1 =4

1+N

Segundo Cuartil: Es el valor en el cual o por debajo del cual se encuentra el50% de los datos de la serie. Ocupa una posicin central, es igual a lamediana. Se denotar con Q2.Entonces, Q2 = Me.

Posicin Q2 =2

1+N

Tercer Cuartil: Es el valor en el cual o por debajo del cual se encuentra el75% de todos los valores de la serie. Se denotar con Q3.

Posicin Q3 =( )

4

13 +N

Ejemplo:Si hacemos una observacin del tiempo transcurrido entre el contacto de un enfermocontagioso y la aparicin de la enfermedad, tenemos que los resultados son:

5, 5, 6, 6, 7, 8, 8, 8, 9, 10, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17, 17, 18, 18, 20 das.

A partir de estos datos hallaremos el Primer (Q1), Segundo (Q2) y Tercer (Q3) Cuartil.

Primer cuartil (Q1):

Posicin Q1 =4

124 += 6.25

Para hallar el primer cuartil, debemos promediar los datos de

los posiciones 6 y 7, as: Q1 =2

88 += 8

Interpretacin: El 25% de las personas se contagian en un tiempo inferior o igual alos 8 das.

Segundo cuartil (Q2):

Posicin Q2 =2

124 + = 12.5

Para hallar el segundo cuartil, debemos promediar los datos de

los posiciones 12 y 13, as: Q2 = Me =2

1111+= 11

Interpretacin: El 50% de las personas en contacto con los enfermos, se contagiana lo ms en 11 das, el otro 50% estn por encima de este valor.

36


37/111

Tercer cuartil (Q3):

Posicin Q3 =( )

4

1243 += 18.75

Para hallar el tercer cuartil, debemos promediar los datos de

los posiciones 18 y 19, as: Q3 =2

1615 + = 15.5

Interpretacin: El 75% de las personas en contacto con los enfermos, adquirieron laenfermedad en a lo ms 15.5 das, el otro 25% se encuentran por encima de estevalor.

b). Deciles: Dividen la distribucin ordenada en 10 partes iguales. Por ejemplo,D1= Primer decil, es el valor en el cual o por debajo del cual se encuentra el 10%de todos los valores de la serie.

Posiciones de los deciles:

D1 =10

1+ND2 =

5

1+N

D3 =( )

10

13 +N.......................... D9 =

( )10

19 +N

Donde D1 es el primer decil y D9 es el noveno decil.

Siguiendo con el ejemplo anterior, hallaremos los D1 y D9.

D1: Posicin = 10

124 += 2.5

Ahora, deberemos de promediar las posiciones 2 y 3, as:2

65 += 5.5

Interpretacin: El 10% de las personas en contacto con los enfermos, secontagiaron en un periodo inferior o igual a 5.5 das.

D9: Posicin =( )

10

1249 += 22.5

Ahora, deberemos de promediar los posiciones 22 y 23, as:

2

1818+= 18

c). Percentiles: Dividen la distribucin ordenada en 100 partes iguales, as:

Percentil uno (P1)

Posicin P1 =100

1+N

37


38/111

Posicin P99 =( )100

199 +N

Medidas de Dispersin (Datos sin agrupar)

La variabilidad de un conjunto de datos es tan importante como la tendencia aconcentrarse en un valor particular. Los valores centrales por si solos, no describenadecuadamente un conjunto de datos. Son necesarias otras medidas para poderobtener informacin sobre la variabilidad o dispersin de los datos, esto es, medidasque indiquen que tan esparcidos o distanciados estn los datos con referencia a unvalor particular. Estas medidas son:

a). Rango: Diferencia existente entre el valor mximo y mnimo de la muestra.Tiene la gran desventaja de que solo toma en cuenta los valores extremos,olvidando los valores centrales de la serie de datos. Este se denotar con la letraR. Con el siguiente ejemplo se mostrar la importancia relativa del rango y como

una sola medida de tendencia central y otra de posicin no dan informacin alguna(o si la dan es equivocada), al considerarlas como nicas fuentes de anlisis.

Los registros diarios de temperaturas en grados centgrados en las ciudades A y Bdurante la misma semana fueron.Ciudad A: 16, 16, 18, 17, 22, 19, 18 XA = 18 Me = 18Ciudad B: 16, 12, 15, 18, 21, 25, 19 XB = 18 Me = 18

Obsrvese que en ambas ciudades los promedios de temperatura y las medianas soniguales, lo cual nos puede llevar a pensar errneamente, que existe gran similitud enla temperatura en ambas ciudades. Debe tenerse en cuenta que las medidas detendencia central y las de posicin no nos dice nada sobre la variabilidad de los datos,los cuales en el ejemplo siguiente presentan tal caracterstica.

Hallemos el rango para nuestros datos:RA= 22 - 16 = 6RB= 25 - 12 = 13Por lo tanto, podemos observar como el rango de temperatura en las ciudades es muydiferente, pues vemos como en la Ciudad B la temperatura es ms del doble que en laCiudad A, existiendo entonces una gran variabilidad.

b). Rango Intercuartil: Denotado por Q, esta dado por Q = Q3 - Q1,donde Q3 es el tercer cuartil y Q1 el primer cuartil. Da una idea de la variabilidaddel 50% central, pero olvida los valores extremos.

c). Rango Semi-intercuartil Desviacin Central: Se denota por Qd y esta dadopor Qd =

2

13 QQ , (es la mitad del rango intercuartilico)

No toma en consideracin todos los valores de la distribucin, ya que puede habervalores inferiores a Q1 o superiores a Q3, que estn muy dispersos.

38


39/111

Ejemplo:Los siguientes datos corresponden a una muestra de 40 familias sobre el nmero dehijos en una regin de Colombia.

Nmero de hijos por

familia

Frecuencia

1234567891011

55473442402

Se hallaran R, Q, Qd

R = 11 - 1 = 10

Interpretacin: La diferencia entre el nmero mximo y mnimo de hijos en lasfamilias es de 10 hijos.

Q = Q3 - Q1

Q1 =4

1+N=

4

140 +=

4

41= 10.25

As se deben promediar las posiciones 10 y 11,2

32 += 2.5

Q3 =( )

4

13 +N= 30.75

Q3 =2

77 += 7

Ahora, Q3 - Q1 = 7 - 2.5 = 4.5

Interpretacin: La variabilidad en el 50% central de los datos es de 4.5 hijos.

Qd =2

13 QQ =

2

5.4= 2.25

Interpretacin: Ms o menos la mitad de las familias tienen una desviacin conrespecto al 50% central de 2.25 hijos

39


40/111

d). Desviacin Media: Para que una medida sea indicativa de la variabilidad debetenerse en cuenta todos los datos. La distancia de cada dato Xi con respecto a unvalor (medida de tendencia central), se llama Desviacin error. Si tomamoscomo medida central la media aritmtica y sumamos los resultados obtenidos alhallar la distancia de cada dato con respecto a la media aritmtica la suma da cero.

Esto es, (Xi-=

k

i 1

X) = 0, luego esto no representa una medida de dispersin.

Sin embargo si consideramos la suma de la desviacin de los datos con respecto ala media aritmtica en valor absoluto tenemos:

Desviacin Media (DM) =n

XXik

i

=

1

Ejemplo:Hallar la Desviacin media de los siguientes nmeros:10, 12, 2, 9, 15, 6, 7, 8, 12, 9

La media de estos datos ser X = 9

DM =n

XXik

i

=

1 =

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (( ))10

999129897969159992312910 +++++++++

= 2.6; se debe tener en cuenta que son valores absolutos

e). Varianza: Considera la posicin de cada observacin en relacin con la media dela muestra.

La varianza muestral esta dada por: S2 =

( )

1

1

2

=

n

XXin

i

f). Desviacin Estndar tpica: Es la raz cuadrada de la varianza, esto es:

S =

( )

1

1

2

=

n

XXin

i

La desviacin tpica no es fcil de interpretar individualmente. Es muy significativopara comparar conjuntos de datos que tengan las mismas unidades de medida. Ladesviacin estndar tiene la ventaja de considerar todos los datos en su clculo. Seutiliza cuando en la serie de observaciones la medida central elegida es la mediaaritmtica.

40


41/111

g). Coeficiente de Variacin: Mide la variabilidad de un conjunto de datos. Esutilizado bsicamente para comparaciones de muestras. No tiene unidades, esta

dado por: CV =X

S*100 (Se da en porcentaje)

Coeficientes

Los coeficientes que veremos de Asimetra y Curtosis, se refieren a la formageomtrica de la curva de frecuencias. Estos coeficientes se compararn con los de ladistribucin normal, considerada la distribucin ms importante en la estadstica ycuya grfica es llamada la Campana de Gauss.

Coeficiente de Asimetra: Mide las desviaciones de nuestro conjunto de datos ensentido horizontal con respecto a la normal, esto es, nos dice si la distribucin denuestros datos es asimtrica a la derecha, a la izquierda, o en el mejor de los casossimtrica.

El Coeficiente de Asimetra denotado por g1, esta dado por:

g1 =

( )

3

1

3

nS

XXin

i

=

tras desarrollar la frmula, el resultado de g1, nos indicar: Si g1 > 0, la curva es asimtrica a la derecha

Si g1 < 0, la curva es asimtrica a la izquierda Si g1 =0, la curva es simtrica o normal

Otra forma alternativa de hallar

Fundamentos de Estadistica Con Spss

Documents

Transcript of Fundamentos de Estadistica Con Spss