IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS...

52
i IBM SPSS Bootstrapping 19

Transcript of IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS...

Page 1: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

i

IBM SPSS Bootstrapping 19

Page 2: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Note: Before using this information and the product it supports, read the general informationunder Notices el p. 41.This document contains proprietary information of SPSS Inc, an IBM Company. It is providedunder a license agreement and is protected by copyright law. The information contained in thispublication does not include any product warranties, and any statements provided in this manualshould not be interpreted as such.When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive rightto use or distribute the information in any way it believes appropriate without incurring anyobligation to you.

© Copyright SPSS Inc. 1989, 2010.

Page 3: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Prefacio

IBM® SPSS® Statistics es un sistema global para el análisis de datos. El módulo adicionalopcional Muestreo autodocimante proporciona las técnicas de análisis adicionales que se describenen este manual. El módulo adicional Muestreo autodocimante se debe utilizar con el sistemabásico de SPSS Statistics y está completamente integrado en dicho sistema.

Acerca de SPSS Inc., an IBM Company

SPSS Inc., an IBM Company, es uno de los principales proveedores globales de software ysoluciones de análisis predictivo. La gama completa de productos de la empresa (recopilaciónde datos, análisis estadístico, modelado y distribución) capta las actitudes y opiniones de laspersonas, predice los resultados de las interacciones futuras con los clientes y, a continuación,actúa basándose en esta información incorporando el análisis en los procesos comerciales. Lassoluciones de SPSS Inc. tratan los objetivos comerciales interconectados en toda una organizacióncentrándose en la convergencia del análisis, la arquitectura de TI y los procesos comerciales. Losclientes comerciales, gubernamentales y académicos de todo el mundo confían en la tecnologíade SPSS Inc. como ventaja ante la competencia para atraer, retener y hacer crecer los clientes,reduciendo al mismo tiempo el fraude y mitigando los riesgos. SPSS Inc. fue adquirida por IBMen octubre de 2009. Para obtener más información, visite http://www.spss.com.

Asistencia técnica

El servicio de asistencia técnica está a disposición de todos los clientes de mantenimiento. Losclientes podrán ponerse en contacto con este servicio de asistencia técnica si desean recibir ayudasobre la utilización de los productos de SPSS Inc. o sobre la instalación en alguno de los entornosde hardware admitidos. Para ponerse en contacto con el servicio de asistencia técnica, consulte elsitio web de SPSS Inc. en http://support.spss.com o encuentre a su representante local a travésdel sitio web http://support.spss.com/default.asp?refpage=contactus.asp. Tenga a mano suidentificación, la de su organización y su contrato de asistencia cuando solicite ayuda.

Servicio de atención al cliente

Si tiene cualquier duda referente a la forma de envío o pago, póngase en contacto con su oficinalocal, que encontrará en el sitio Web en http://www.spss.com/worldwide. Recuerde tener preparadosu número de serie para identificarse.

© Copyright SPSS Inc. 1989, 2010 iii

Page 4: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Cursos de preparación

SPSS Inc. ofrece cursos de preparación, tanto públicos como in situ. Todos los cursos incluyentalleres prácticos. Los cursos tendrán lugar periódicamente en las principales ciudades. Sidesea obtener más información sobre estos cursos, póngase en contacto con su oficina local queencontrará en el sitio Web en http://www.spss.com/worldwide.

Publicaciones adicionales

Los documentos SPSS Statistics: Guide to Data Analysis, SPSS Statistics: Statistical ProceduresCompanion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por MarijaNorušis y publicados por Prentice Hall, están disponibles y se recomiendan como materialadicional. Estas publicaciones cubren los procedimientos estadísticos del módulo SPSS StatisticsBase, el módulo Advanced Statistics y el módulo Regression. Tanto si da sus primeros pasos en elanálisis de datos como si ya está preparado para las aplicaciones más avanzadas, estos libros leayudarán a aprovechar al máximo las funciones ofrecidas por IBM® SPSS® Statistics. Si deseainformación adicional sobre el contenido de la publicación o muestras de capítulos, consulte elsitio web de la autora: http://www.norusis.com

iv

Page 5: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Contenido

Parte I: Manual del usuario

1 Introducción al muestreo autodocimante 1

2 Muestreo autodocimante 3

Procedimientos que admiten el muestreo autodocimante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5Funciones adicionales del comando BOOTSTRAP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Parte II: Ejemplos

3 Muestreo autodocimante 10

Uso de muestreo autodocimante para obtener intervalos de confianza para proporciones . . . . . . 10Preparación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10Ejecución del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11Especificaciones de Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14Estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15Tabla de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Uso de muestreo autodocimante para obtener intervalos de confianza de medianas . . . . . . . . . . 16Ejecución del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Descriptivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Uso de muestreo autodocimante para seleccionar mejores predictores . . . . . . . . . . . . . . . . . . . . 20Preparación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Ejecución del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Estimaciones de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

v

Page 6: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Apéndices

A Archivos muestrales 31

B Notices 41

Bibliografía 43

Índice 44

vi

Page 7: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Parte I:Manual del usuario

Page 8: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis
Page 9: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Capítulo

1Introducción al muestreoautodocimante

Cuando recopila datos suele estar interesado en las propiedades de la población de la que hatomado la muestra. Hace inferencias acerca de los parámetros de la población con estimacionescalculadas de la muestra. Por ejemplo, si el conjunto de datos Employee data.sav que se incluyecon el producto es una muestra aleatoria de una población mayor de empleados, la media de lamuestra de 34.419,57 dólares como Salario actual es una estimación de la media del salario actualde la población de los empleados. Además, esta estimación tiene un error típico de 784,311dólares para una muestra de un tamaño de 474; y un intervalo de confianza del 95% para la mediadel salario actual de la población de los empleados es de 32.878,40 dólares a 35.960,73 dólares.Pero, ¿cuál es el nivel de fiabilidad de estos estimadores? Para algunas poblaciones “conocidas” yparámetros de buen comportamiento, sabemos algo acerca de las propiedades de las estimacionesde la muestra y podemos confiar en estos resultados. El muestreo autodocimante busca másinformación acerca de las propiedades de los estimadores de poblaciones “desconocidas” yparámetros de mal comportamiento.

Figura 1-1Realización de inferencias paramétricas acerca de la media de la población

Funcionamiento del muestreo autodocimante

En su forma más simple, para un conjunto de datos con un tamaño de muestra de N, tomará Bmuestras “autodocimantes” de un tamaño N sustituyendo del conjunto de datos original y calcularel estimador de cada uno de estas B muestras autodocimantes. Estas B estimaciones de muestrasautodocimantes son una muestra de un tamaño B de la que podrá realizar inferencias acerca delestimador. Por ejemplo, si toma 1.000 muestras autodocimantes del conjunto de datos Employeedata.sav , el error típico de muestras autodocimantes estimado de 776,91 dólares para la media dela muestra de Salario actual es una alternativa a la estimación de 784,311 dólares.

Además, el muestreo autodocimante proporciona un error estándar y un intervalo de confianzapara la mediana, cuyas estimaciones paramétricas no están disponibles.

© Copyright SPSS Inc. 1989, 2010 1

Page 10: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

2

Capítulo 1

Figura 1-2Realización de inferencias autodocimantes acerca de la media de muestra

Compatibilidad del muestreo autodocimante en el producto

El muestreo autodocimante se incorpora como un cuadro de diálogo subordinado enprocedimientos que admiten el muestreo autodocimante. Consulte Procedimientos que admiten elmuestreo autodocimante si desea obtener información acerca de los procedimientos que admitenel muestreo autodocimante.

Si se requiere muestreo autodocimante en los cuadros de diálogo, se pega un nuevo comandoBOOTSTRAP independiente, además de la sintaxis normal que genera el cuadro de diálogo. Elcomando BOOTSTRAP crea las muestras autodocimantes en función de sus especificaciones.Internamente, el producto trata estas muestras autodocimantes como segmentaciones, incluso sino se muestran de forma explícita en el Editor de datos. Significa que, de forma interna, sonefectivamente B*N casos, de forma que el recuento de casos en la barra de estado contará desde 1a B*N cuando se procesen los datos durante el muestreo autodocimante. El Sistema de gestiónde resultados (OMS) se utiliza para recopilar los resultados de la ejecución del análisis en cada“segmentación autodocimante”. Estos resultados se combinan y los resultados autodocimantescombinados se muestran en el Visor con el resto del resultado normal que genera el procedimiento.En algunos casos, podrá ver una referencia a “segmentación autodocimante 0”; es el conjunto dedatos original.

Page 11: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Capítulo

2Muestreo autodocimante

Bootstrapping es un método para derivar estimaciones robustas de errores típicos e intervalosde confianza para estimaciones como la media, mediana, proporción, razón de las ventajas,coeficientes de correlación o coeficientes de regresión. También se puede utilizar para crearpruebas hipotéticas. Bootstrapping es más útil como alternativa a estimaciones paramétricas encaso de que los supuestos de esos métodos sean dudosos (como en el caso de modelos de regresióncon residuos heteroscedástico se ajusten a muestras pequeñas), o si la inferencia paramétrica no esposible o requiere fórmulas muy complicadas para el cálculo de errores típicos (como en el casode cálculo de intervalos de confianza de mediana, cuartiles y otros percentiles).

Ejemplos. Una empresa de telecomunicaciones pierde alrededor del 27% de sus clientes porabandono cada mes. Para reducir el porcentaje de abandono, los directivos quieren sabersi este porcentaje varía en diferentes grupos de clientes predefinidos. Mediante el muestreoautodocimante, puede determinar si un porcentaje concreto de abandonos describe de formaadecuada los cuatro tipos principales de clientes. Si desea obtener más información, consulte eltema Uso de muestreo autodocimante para obtener intervalos de confianza para proporciones enel capítulo 3 en IBM SPSS Bootstrapping 19.

En una revisión de los registros de empleados, los directivos están interesados en las experienciasanteriores de los empleados. La experiencia laboral es asimétrica, lo que hace que la media seauna estimación menos deseable de la experiencia laboral “habitual” entre los empleados que lamediana. Sin embargo, los intervalos de confianza no están disponibles para la mediana en elproducto. Si desea obtener más información, consulte el tema Uso de muestreo autodocimantepara obtener intervalos de confianza de medianas en el capítulo 3 en IBM SPSS Bootstrapping 19.

Los directivos también están interesados en determinar los factores que están asociados con losaumentos de salarios de los empleados mediante la definición de un modelo lineal de la diferenciaentre el salario inicial y el actual. Al realizar un muestreo autodocimante de un modelo lineal,puede utilizar métodos de muestreado sucesivo especiales (muestreo autodocimante residualy wild) para obtener resultados más precisos. Si desea obtener más información, consulte eltema Uso de muestreo autodocimante para seleccionar mejores predictores en el capítulo 3 enIBM SPSS Bootstrapping 19.

Muchos procedimientos admiten el muestreo autodocimante y la combinación de resultadosa partir del análisis de muestras autodocimantes. Los controles para especificar análisisautodocimantes se integran directamente como un cuadro de diálogo subordinado común enprocedimientos que admiten el muestreo autodocimante. La configuración del cuadro de diálogode muestras autodocimantes permanece en los procedimientos de forma que, si ejecuta un análisisde frecuencias con muestreo autodocimante en los cuadros de diálogo, el muestreo autodocimantese activará por defecto para otros procedimientos que lo admitan.

© Copyright SPSS Inc. 1989, 2010 3

Page 12: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

4

Capítulo 2

Para obtener un análisis autodocimante

E En los menús seleccione un procedimiento que admita el muestreo autodocimante y pulse enAutodocimante.Figura 2-1Cuadro de diálogo Autodocimante

E Seleccione Ejecutar bootstrapping.

También puede controlar las siguientes opciones:

Número de muestras. Para los intervalos de percentil y BCa producidos, se recomienda utilizar almenos 1000 muestras autodocimantes. Especifique un número entero positivo.

Definir semilla para tornado de Mersenne. Si se establece una semilla es posible replicar análisis.El uso de este control es parecido a establecer el tornado de Mersenne como generador activo yespecificar un punto de inicio fijo en el cuadro de diálogo Generadores de números aleatorios, conla importante diferencia de que la definición de la semilla de este cuadro de diálogo mantendráel estado actual del generador de números aleatorios y restaurará dicho estado cuando hayaterminado el análisis.

Intervalos de confianza. Especifique un nivel de confianza mayor que 50 y menor que 100. Losintervalos de percentiles sólo utilizan los valores autodocimantes ordenados correspondientes alos percentiles de intervalo de confianza deseados. Por ejemplo, un intervalo de confianza depercentil del 95% utiliza los percentiles 2,5 y 97,5 de los valores autodocimantes como los límitesinferior y superior del intervalo (interpolando los valores autodocimantes si es necesario). Los

Page 13: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

5

Muestreo autodocimante

intervalos de sesgo corregidos y acelerados (BCa) son intervalos ajustados que son más precisos,pero necesitan más tiempo de cálculo.

Muestreo. El método simple consiste en volver a muestrear los casos reemplazándolos del conjuntode datos original. El método estratificado consiste en volver a muestrear los casos sustituyendo elconjunto de datos original, en los estratos definidos por las variables de estratos de clasificacióncruzada. El muestreo autodocimante estratificado puede ser muy útil si las unidades de los estratosson relativamente homogéneas aunque las unidades para todos los estratos son muy diferentes.

Procedimientos que admiten el muestreo autodocimante

Los siguientes procedimientos admiten el muestreo autodocimante.

Nota:El muestreo autodocimante no funciona con conjuntos de datos de imputación múltiple. Sihay una variable Imputation_ en el conjunto de datos, el cuadro de diálogo Autodocimante sedesactiva.El muestreo autodocimante utiliza eliminación por lista para determinar los casos; es decir, loscasos con valores perdidos en cualquiera de las variables de análisis se eliminan del análisis,de forma que, cuando el muestreo autodocimante está en efecto, eliminación por lista se activaincluso si el procedimiento de análisis especifica otra forma de gestión de valores perdidos.

Opción Estadísticas básicas

Frecuencias

La tabla Estadísticos admite estimaciones autodocimantes de media, desviación típica,varianza, mediana, asimetría, curtosis y percentiles.La tabla Frecuencias admite estimaciones autodocimantes de porcentaje.

Descriptivos

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media, desviacióntípica, varianza, asimetría y curtosis.

Explorar

La tabla Descriptivos admite estimaciones autodocimantes de media, media recortada al 5%,desviación típica, varianza, mediana, asimetría, curtosis y amplitud intercuartil.La tabla Estimadores-M admite estimaciones autodocimantes de estimador-M de Huber,estimador biponderado de Tukey, estimador-M de Hampel y onda de Andrews.La tabla Percentiles admite estimaciones autodocimantes de percentiles.

Tablas de contingencia

La tabla Medidas direccionales admite estimaciones autodocimantes de Lambda, Goodman yKruskal Tau, coeficiente de incertidumbre y d de Somers.

Page 14: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

6

Capítulo 2

La tabla Medidas simétricas admite estimaciones autodocimantes de Phi, V de Cramer,coeficiente de contingencia, tau-b de Kendall, tau-c de Kendall, Gamma, correlación deSpearman y r de Pearson.La tabla Estimación de riesgo admite estimaciones autodocimantes de la razón de las ventajas.La tabla de razón de las ventajas común de Mantel-Haenszel admite estimacionesautodocimantes y pruebas de significación de ln(Estimación).

Medias

La tabla Informe admite estimaciones autodocimantes de media, mediana, mediana agrupada,desviación típica, varianza, curtosis, asimetría, media armónica y media geométrica.

Prueba T para una muestra

La tabla Estadísticos admite estimaciones autodocimantes de media y desviación típica.La tabla Prueba admite estimaciones autodocimantes y pruebas de significación de diferenciade medias.

Prueba T para muestras independientes

La tabla Estadísticos de grupo admite estimaciones autodocimantes de media y desviacióntípica.La tabla Prueba admite estimaciones autodocimantes y pruebas de significación de diferenciade medias.

Prueba T para muestras relacionadas

La tabla Estadísticos admite estimaciones autodocimantes de media y desviación típica.La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.La tabla Prueba admite estimaciones autodocimantes de media.

ANOVA de un factor

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media y desviacióntípica.La tabla Comparaciones múltiples admite estimaciones autodocimantes de diferencia demedias.La tabla Pruebas de contraste admite estimaciones autodocimantes y pruebas de significaciónde valor de contraste.

MLG Univariante

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media y desviacióntípica.La tabla Estimaciones de los parámetros admite estimaciones autodocimantes y pruebasde significación de coeficiente B.La tabla de resultados de contraste admite estimaciones autodocimantes y pruebas designificación de diferencia.Medias marginales estimadas: La tabla Estimaciones admite estimaciones autodocimantesde media.

Page 15: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

7

Muestreo autodocimante

Medias marginales estimadas: La tabla Comparaciones por parejas admite estimacionesautodocimantes de diferencia de medias.Pruebas post hoc: La tabla Comparaciones múltiples admite estimaciones autodocimantesde diferencia de medias.

Correlaciones bivariadas

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media y desviacióntípica.La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.

Nota: Si se requieren correlaciones no paramétricas (tau-b de Kendall o Spearman) además de lascorrelaciones de Pearson, el cuadro de diálogo pega los comandos CORRELATIONS y NONPAR

CORR con un comando BOOTSTRAP diferente para cada una. Se utilizarán las mismas muestrasautodocimantes para calcular todas las correlaciones.

Correlaciones parciales

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media y desviacióntípica.La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.

Regresión lineal

La tabla Estadísticos descriptivos admite estimaciones autodocimantes de media y desviacióntípica.La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.La tabla Resumen de modelo admite estimaciones autodocimantes de Durbin-Watson.La tabla Coeficientes admite estimaciones autodocimantes y pruebas de significación decoeficiente B.La tabla Coeficientes de correlación admite estimaciones autodocimantes de correlaciones.La tabla Estadísticos residuales admite estimaciones autodocimantes de media y desviacióntípica.

Regresión ordinal

La tabla Estimaciones de los parámetros admite estimaciones autodocimantes y pruebasde significación de coeficiente B.

Análisis discriminante

La tabla Coeficientes de funciones discriminantes canónicas tipificados admite estimacionesautodocimantes de coeficientes tipificados.La tabla Coeficientes de funciones discriminantes canónicas admite estimacionesautodocimantes de coeficientes no tipificados.La tabla Coeficientes de función de clasificación admite estimaciones autodocimantes decoeficientes.

Page 16: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

8

Capítulo 2

Opción Estadísticas avanzadas

MLG Multivariante

La tabla Estimaciones de los parámetros admite estimaciones autodocimantes y pruebasde significación de coeficiente B.

Modelos lineales mixtos

La tabla Estimaciones de efectos fijos admite estimaciones autodocimantes y pruebas designificación de estimación.La tabla Estimaciones de parámetros de covarianzas admite estimaciones autodocimantesy pruebas de significación de estimación.

Modelos lineales generalizados

La tabla Estimaciones de los parámetros admite estimaciones autodocimantes y pruebasde significación de coeficiente B.

Regresión de Cox

La tabla Variables en la ecuación admite estimaciones autodocimantes y pruebas designificación de coeficiente B.

Opción Regresión

Regresión logística binaria

La tabla Variables en la ecuación admite estimaciones autodocimantes y pruebas designificación de coeficiente B.

Regresión logística multinomial

La tabla Estimaciones de los parámetros admite estimaciones autodocimantes y pruebasde significación de coeficiente B.

Funciones adicionales del comando BOOTSTRAP

La sintaxis de comandos también le permite:Realice muestreos autodocimantes residuales y wild (subcomando SAMPLING)

Consulte la Referencia de sintaxis de comandos para obtener información completa de la sintaxis.

Page 17: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Parte II:Ejemplos

Page 18: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Capítulo

3Muestreo autodocimante

Bootstrapping es un método para derivar estimaciones robustas de errores típicos e intervalosde confianza para estimaciones como la media, mediana, proporción, razón de las ventajas,coeficientes de correlación o coeficientes de regresión. También se puede utilizar para crearpruebas hipotéticas. Bootstrapping es más útil como alternativa a estimaciones paramétricas encaso de que los supuestos de esos métodos sean dudosos (como en el caso de modelos de regresióncon residuos heteroscedástico se ajusten a muestras pequeñas), o si la inferencia paramétrica no esposible o requiere fórmulas muy complicadas para el cálculo de errores típicos (como en el casode cálculo de intervalos de confianza de mediana, cuartiles y otros percentiles).

Uso de muestreo autodocimante para obtener intervalos de confianzapara proporciones

Una empresa de telecomunicaciones pierde alrededor del 27% de sus clientes por abandono cadames. Para reducir el porcentaje de abandono, los directivos quieren saber si este porcentaje varíaen diferentes grupos de clientes predefinidos.

Esta información se recoge en el archivo telco.sav. Si desea obtener más información, consulteel tema Archivos muestrales en el apéndice A el p. 31. Utilice el muestreo autodocimante paradeterminar si un porcentaje concreto de abandonos describe de forma adecuada los cuatro tiposprincipales de clientes.

Nota: Este ejemplo utiliza el procedimiento de frecuencias y requiere la opción Statistics Base.

Preparación de datos

En primer lugar debe segmentar el archivo por Categoría del cliente.

E Para segmentar el archivo, elija en los menús del Editor de datos:Datos > Segmentar archivo...

© Copyright SPSS Inc. 1989, 2010 10

Page 19: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

11

Muestreo autodocimante

Figura 3-1Cuadro de diálogo Segmentar archivo

E Seleccione Comparar los grupos.

E Seleccione Categoría del cliente como la variable en la que se basan los grupos.

E Pulse en Aceptar.

Ejecución del análisis

E Para obtener intervalos de confianza autodocimantes para proporciones, seleccione en los menús:Analizar > Estadísticos descriptivos > Frecuencias...

Figura 3-2Cuadro de diálogo principal Frecuencias

E Seleccione Abandonaron durante el último mes [abandono] como una variable en el análisis.

E Pulse en Estadísticos.

Page 20: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

12

Capítulo 3

Figura 3-3Cuadro de diálogo Estadísticos

E Seleccione Media en el grupo Tendencia central.

E Pulse en Continuar.

E Pulse en Autodocimante en el cuadro de diálogo Frecuencias.

Page 21: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

13

Muestreo autodocimante

Figura 3-4Cuadro de diálogo Autodocimante

E Seleccione Ejecutar bootstrapping.

E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para

Tornado de Mersenne e introduzca 9191972 como semilla.

E Pulse en Continuar.

E Pulse en Aceptar en el cuadro de diálogo Frecuencias.

Estas selecciones generan la siguiente sintaxis de comandos:

SORT CASES BY custcat.SPLIT FILE LAYERED BY custcat.PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP

/SAMPLING METHOD=SIMPLE/VARIABLES INPUT=churn/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

FREQUENCIES VARIABLES=churn/STATISTICS=MEAN/ORDER=ANALYSIS.

RESTORE.

Los comandos SORT CASES y SPLIT FILE dividen el archivo en la variable custcat.

Page 22: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

14

Capítulo 3

Los comandos PRESERVE y RESTORE “recuerdan” el estado actual del generador de númerosaleatorios y restaurar el sistema al estado posterior a la finalización del método autodocimante.El comando SET define el generador de números aleatorios a Mersenne Twister y el índice a9191972, para que los resultados del muestreo autodocimante se puedan replicar exactamente.El comando SHOW muestra el índice en el resultado para futura referencia.El comando BOOTSTRAP solicita 1.000 muestras autodocimantes mediante nuevas muestrassimples.La variable churn se utiliza para determinar las muestras caso a caso. Los registros convalores perdidos en esta variable se eliminan del análisis.El procedimiento FREQUENCIES posterior a BOOTSTRAP se ejecuta en cada una de lasmuestras autodocimantes.El subcomando STATISTICS produce la media de la variable churn en los datos originales.Además, las estadísticas combinadas se producen para la media y los porcentajes en la tablade frecuencias.

Especificaciones de BootstrapFigura 3-5Especificaciones de muestreo autodocimante

La tabla de especificaciones de muestreo autodocimante contiene los ajustes utilizados durante lasnuevas muestras y es una referencia útil para comprobar si se han completado los análisis previstos.

Page 23: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

15

Muestreo autodocimante

Estadísticas

Figura 3-6Tabla de estadísticos con el intervalo de confianza autodocimante para la proporción

La tabla de estadísticos muestra, para cada nivel de Categoría del cliente, el valor de media deAbandonaron durante el último mes. Como Abandonaron durante el último mes sólo toma losvalores de 0 y 1, con 1 para un cliente que ha abandonado, la media es igual a la proporción de losusuarios que han abandonado. La columna Estadísticos muestra los valores que suele producirFrecuencias, utilizando el conjunto de datos original. Las columnas Autodocimante se producenpor los algoritmos de muestreo autodocimante.

Bias es la diferencia entre el valor promedio de este estadístico entre las muestrasautodocimantes y el valor en la columna Estadístico. En este caso, el valor promedio deAbandonaron durante el último mes se calcula para las 1000 muestras autodocimantes yposteriormente se calcula el promedio estas medias.Desv. El error es el error típico de Abandonaron durante el último mes en las 1000 muestrasautodocimantes.El límite inferior del 95% del intervalo de confianza autodocimante es una interpolación de losvalores 25 y 26 de Abandonaron durante el último mes, si las 1000 muestras autodocimantesse clasifican en orden ascendente. El límite superior es una interpolación de los valoresde las medias 975 y 976.

Los resultados de la tabla sugieren que el índice de abandono es diferente entre tipos de clientesdiferentes. En concreto, el intervalo de confianza de los clientes de Servicio plus no se superponecon ningún otro, lo que sugiere que de media es menos probable que estos clientes abandonen.

Si trabaja con variables categóricas con sólo dos valores, estos intervalos de confianza sonalternativas a los producidos por el procedimiento de Pruebas no paramétricas para una muestra oPrueba T para una muestra.

Page 24: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

16

Capítulo 3

Tabla de frecuenciaFigura 3-7Tabla de frecuencias con el intervalo de confianza autodocimante para la proporción

La tabla de frecuencias muestra los intervalos de confianza de los porcentajes (proporción × 100%)de cada categoría y están disponibles para todas las variables categóricas. Otras característicasdel producto no tienen intervalos de confianza comparables.

Uso de muestreo autodocimante para obtener intervalos de confianzade medianas

En una revisión de los registros de empleados, los directivos están interesados en las experienciasanteriores de los empleados. La experiencia laboral es asimétrica, lo que hace que la media seauna estimación menos deseable de la experiencia laboral “habitual” entre los empleados que lamediana. Sin embargo, sin muestreo autodocimante, los intervalos de confianza de la mediana noestán disponibles de forma general en procedimientos estadísticos del producto.

Esta información se recoge en el archivo Employee data.sav. Si desea obtener más información,consulte el tema Archivos muestrales en el apéndice A el p. 31. Uso de muestreo autodocimantepara obtener intervalos de confianza de la media.

Nota: Este ejemplo utiliza el procedimiento Explorar y requiere la opción Statistics Base.

Ejecución del análisis

E Para obtener intervalos de confianza autodocimantes de la mediana, seleccione en los menús:Analizar > Estadísticos descriptivos > Explorar...

Page 25: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

17

Muestreo autodocimante

Figura 3-8Cuadro de diálogo principal Explorar

E Seleccione Experiencia anterior (meses) [prevexp] como variable dependiente.

E Seleccione Estadísticos en la sección Mostrar.

E Pulse en Autodocimante.

Page 26: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

18

Capítulo 3

Figura 3-9Cuadro de diálogo Autodocimante

E Seleccione Ejecutar bootstrapping.

E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para

Tornado de Mersenne e introduzca 592004 como semilla.

E Para obtener resultados más precisos (requiere más tiempo de procesamiento), seleccione Bias

corregido acelerado (BCa).

E Pulse en Continuar.

E Pulse en Aceptar en el cuadro de diálogo Explorar.

Estas selecciones generan la siguiente sintaxis de comandos:

PRESERVE.SET RNG=MT MTINDEX=592004.SHOW RNG.BOOTSTRAP

/SAMPLING METHOD=SIMPLE/VARIABLES TARGET=prevexp/CRITERIA CILEVEL=95 CITYPE=BCA NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

EXAMINE VARIABLES=prevexp/PLOT NONE/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.

Page 27: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

19

Muestreo autodocimante

RESTORE.

Los comandos PRESERVE y RESTORE “recuerdan” el estado actual del generador de númerosaleatorios y restaurar el sistema al estado posterior a la finalización del método bootstrap.El comando SET define el generador de números aleatorios a Mersenne Twister y el índice a592004, para que los resultados del muestreo bootstrap se puedan replicar exactamente. Elcomando SHOW muestra el índice en el resultado para futura referencia.El comando BOOTSTRAP solicita 1000 muestras bootstrap mediante nuevas muestras simples.El subcomando VARIABLES especifica que la variable prevexp se utiliza para determinarlas muestras caso a caso. Los registros con valores perdidos en esta variable se eliminandel análisis.El subcomando CRITERIA , además de requerir el número de muestras de bootstrap,requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar delos intervalos de percentiles predefinidos.El procedimiento EXAMINE posterior a BOOTSTRAP se ejecuta en cada una de las muestrasbootstrap.El subcomando PLOT desactiva el resultado de la representación.El resto de opciones están establecidas en sus valores por defecto.

DescriptivosFigura 3-10Tabla Descriptivos con intervalos de confianza autodocimantes

La tabla descriptivos contiene un número de intervalos de confianza de estadísticos yautodocimantes de esos estadísticos. El intervalo de confianza autodocimante de la media (86,39,105,20) es similar al intervalo de confianza paramétrico (86,42, 105,30) y sugiere que el empleado“típico” tiene unos 7-9 años de experiencia previa. Sin embargo, Experiencia anterior (meses)tiene una distribución asimétrica, que convierte a la media en un indicador menos deseable delsalario actual “típico” que la mediana. El intervalo de confianza autodocimante de la mediana(50,00, 60,00) es más estrecho e inferior que el intervalo de confianza de la media y sugiere que el

Page 28: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

20

Capítulo 3

empleado “típico” tiene unos 4-5 años de experiencia previa. El uso de muestreo autodocimante hahecho posible obtener un intervalo de valores que representen mejor la experiencia típica anterior.

Uso de muestreo autodocimante para seleccionar mejores predictores

Durante una revisión de los registros de los empleados, los directivos también están interesados endeterminar los factores que están asociados con los aumentos de salarios de los empleados, aldefinir un modelo lineal de la diferencia entre el salario inicial y el actual. Al realizar un muestreoautodocimante de un modelo lineal, puede utilizar métodos de muestreado sucesivo especiales(muestreo autodocimante residual y wild) para obtener resultados más precisos.

Esta información se recoge en el archivo Employee data.sav. Si desea obtener más información,consulte el tema Archivos muestrales en el apéndice A el p. 31.

Nota: Este ejemplo utiliza el procedimiento MLG Univariante y requiere la opción Statistics Base.

Preparación de datos

En primer lugar debe calcular la diferencia entre Salario actual y Salario inicial.

E Seleccione en los menús:Transformar > Calcular variable...

Page 29: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

21

Muestreo autodocimante

Figura 3-11Cuadro de diálogo Calcular variable

E Escriba diff como variable de destino.

E Escriba salario-iniciosalario como expresión numérica.

E Pulse en Aceptar.

Ejecución del análisis

Para ejecutar MLG Univariante con muestreo autodocimante residual y wild, necesita crearresiduos.

E Seleccione en los menús:Analizar > Modelo lineal general > Univariante...

Page 30: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

22

Capítulo 3

Figura 3-12Cuadro de diálogo principal MLG Univariante

E Seleccione diff como la variable dependiente.

E Seleccione Género [gender], Categoría laboral [gender] y Clasificación étnica [minority]como factores fijos.

E Seleccione Meses desde el contrato [jobtime] y Experiencia anterior (meses) [prevexp] comocovariables.

E Pulse en Modelo.

Page 31: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

23

Muestreo autodocimante

Figura 3-13Cuadro de diálogo Modelo

E Seleccione Personalizado y seleccione Efectos principales en la lista desplegable Construir términos.

E Seleccione gender hasta prevexp como términos de modelo.

E Pulse en Continuar.

E Pulse en Guardar en el cuadro de diálogo MLG Univariante.

Page 32: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

24

Capítulo 3

Figura 3-14Cuadro de diálogo Guardar

E Seleccione No tipificados en el grupo Residuos.

E Pulse en Continuar.

E Pulse en Autodocimante en el cuadro de diálogo MLG Univariante.

Page 33: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

25

Muestreo autodocimante

Figura 3-15Cuadro de diálogo Autodocimante

La configuración autodocimante se mantiene en los cuadros de diálogo que admiten el muestreoautodocimante. Mientras el muestreo autodocimante esté activado no se podrán guardar nuevasvariables en el conjunto de datos, así que deberá asegurarse de que está desactivado.

E Si es necesario, elimine la selección de Ejecutar bootstrapping.

E Pulse en Aceptar en el cuadro de diálogo MLG Univariante. El conjunto de datos contiene ahorauna nueva variable, RES_1, que contiene los residuos no tipificados del modelo.

E Active el cuadro de diálogo MLG Univariante y pulse Guardar.

Page 34: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

26

Capítulo 3

E Cancele la selección de No tipificados y pulse Continuar y Opciones en el cuadro de diálogo MLGUnivariante.

Figura 3-16Cuadro de diálogo Opciones

E Seleccione Estimaciones de los parámetros en la sección Mostrar.

E Pulse en Continuar.

E Pulse en Autodocimante en el cuadro de diálogo MLG Univariante.

Page 35: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

27

Muestreo autodocimante

Figura 3-17Cuadro de diálogo Autodocimante

E Seleccione Ejecutar bootstrapping.

E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla para

Tornado de Mersenne e introduzca 9191972 como semilla.

E No hay opciones para ejecutar muestreo autodocimante wild en los cuadros de diálogo, por lo quetendrá que pulsar Continuar y, a continuación, Pegar en el cuadro de diálogo MLG Univariante.

Estas selecciones generan la siguiente sintaxis de comandos:

PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP

/SAMPLING METHOD=SIMPLE/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/PRINT=PARAMETER/CRITERIA=ALPHA(.05)/DESIGN=gender jobcat minority jobtime prevexp.

Page 36: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

28

Capítulo 3

RESTORE.

Para ejecutar muestreo autodocimante wild, edite la palabra clave METHOD del subcomandoSAMPLING a METHOD=WILD(RESIDUALS=RES_1).

El conjunto “final” de la sintaxis de comandos tendrá la siguiente apariencia:

PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP

/SAMPLING METHOD=WILD(RESIDUALS=RES_1)/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/PRINT=PARAMETER/CRITERIA=ALPHA(.05)/DESIGN=gender jobcat minority jobtime prevexp.

RESTORE.

Los comandos PRESERVE y RESTORE “recuerdan” el estado actual del generador de númerosaleatorios y restaurar el sistema al estado posterior a la finalización del método bootstrap.El comando SET define el generador de números aleatorios a Mersenne Twister y el índice a9191972, para que los resultados del muestreo bootstrap se puedan replicar exactamente. Elcomando SHOW muestra el índice en el resultado para futura referencia.El comando BOOTSTRAP requiere 1000 muestras de bootstrap con muestreo wild y RES_1como la variable que contiene los residuos.El subcomando VARIABLES especifica que diff es la variable objetivo del modelo lineal. Estavariable y gender, jobcat, minority, jobtime y prevexp se utilizan para determinar las muestrascaso a caso. Los registros con valores perdidos en estas variables se eliminan del análisis.El subcomando CRITERIA , además de requerir el número de muestras de bootstrap,requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar delos intervalos de percentiles predefinidos.El procedimiento UNIANOVA posterior a BOOTSTRAP se ejecuta en cada muestra bootstrap yproduce estimaciones de los parámetros para los datos originales. Además, los estadísticoscombinados se producen para los coeficientes del modelo.

Page 37: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

29

Muestreo autodocimante

Estimaciones de los parámetros

Figura 3-18Estimaciones de los parámetros

La tabla Estimaciones de los parámetros muestra las estimaciones normales sin muestreoautodocimante de los parámetros de los términos de modelo. El valor de significación de 0,105para [minority=0] es mayor que 0,05, lo que sugiere que Clasificación étnica no tiene ningúnefecto en los aumentos de los salarios.

Figura 3-19Estimaciones de parámetros autodocimantes

Ahora mire la tabla Estimaciones de parámetros autodocimantes. En la columna Error típico, veráque los errores típicos paramétricos de algunos coeficientes, como intersección, son demasiadopequeños en comparación con las estimaciones autodocimantes y los intervalos de confianzason mayores. En algunos coeficientes, como [minority=0], los errores típicos paramétricoseran demasiado grandes y el valor de significación de 0,006 en los resultados autodocimantes,menor de 0,05, muestra que la diferencia observada en aumentos de salarios entre los empleados

Page 38: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

30

Capítulo 3

pertenecientes a minorías étnicas o no no obedecen a las posibilidades. Los directivos saben ahoraque merece la pena investigar más a fondo esta diferencia para determinar sus posibles causas.

Lecturas recomendadas

Consulte los siguientes textos si desea obtener más información acerca de muestreosautodocimantes:

Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : CambridgeUniversity Press.

Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.

Page 39: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Apéndice

AArchivos muestrales

Los archivos muestrales instalados con el producto se encuentran en el subdirectorio Samples deldirectorio de instalación. Hay una carpeta independiente dentro del subdirectorio Samples paracada uno de los siguientes idiomas: Inglés, francés, alemán, italiano, japonés, coreano, polaco,ruso, chino simplificado, español y chino tradicional.

No todos los archivos muestrales están disponibles en todos los idiomas. Si un archivo muestralno está disponible en un idioma, esa carpeta de idioma contendrá una versión en inglés del archivomuestral.

Descripciones

A continuación, se describen brevemente los archivos muestrales usados en varios ejemplosque aparecen a lo largo de la documentación.

accidents.sav.Archivo de datos hipotéticos sobre una compañía de seguros que estudia losfactores de riesgo de edad y género que influyen en los accidentes de automóviles de unaregión determinada. Cada caso corresponde a una clasificación cruzada de categoría deedad y género.adl.sav.Archivo de datos hipotéticos relativo a los esfuerzos para determinar las ventajas de untipo propuesto de tratamiento para pacientes que han sufrido un derrame cerebral. Los médicosdividieron de manera aleatoria a pacientes (mujeres) que habían sufrido un derrame cerebralen dos grupos. El primer grupo recibió el tratamiento físico estándar y el segundo recibió untratamiento emocional adicional. Tres meses después de los tratamientos, se puntuaron lascapacidades de cada paciente para realizar actividades cotidianas como variables ordinales.advert.sav. Archivo de datos hipotéticos sobre las iniciativas de un minorista para examinarla relación entre el dinero invertido en publicidad y las ventas resultantes. Para ello, serecopilaron las cifras de ventas anteriores y los costes de publicidad asociados.aflatoxin.sav. Archivo de datos hipotéticos sobre las pruebas realizadas en las cosechas demaíz con relación a la aflatoxina, un veneno cuya concentración varía ampliamente en losrendimientos de cultivo y entre los mismos. Un procesador de grano ha recibido 16 muestrasde cada uno de los 8 rendimientos de cultivo y ha medido los niveles de aflatoxinas en partespor millón (PPM).aflatoxin20.sav. Este archivo de datos contiene las medidas de aflatoxina de cada una de las 16muestras de los rendimientos 4 y 8 procedentes del archivo de datos aflatoxin.sav.anorectic.sav.Mientras trabajaban en una sintomatología estandarizada del comportamientoanoréxico/bulímico, los investigadores (Van der Ham, Meulman, Van Strien, y Van Engeland,1997) realizaron un estudio de 55 adolescentes con trastornos de la alimentación conocidos.Cada paciente fue examinado cuatro veces durante cuatro años, lo que representa un total

© Copyright SPSS Inc. 1989, 2010 31

Page 40: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

32

Apéndice A

de 220 observaciones. En cada observación, se puntuó a los pacientes por cada uno de los16 síntomas. Faltan las puntuaciones de los síntomas para el paciente 71 en el tiempo 2, elpaciente 76 en el tiempo 2 y el paciente 47 en el tiempo 3, lo que nos deja 217 observacionesválidas.autoaccidents.sav. Archivo de datos hipotéticos sobre las iniciativas de un analista de segurospara elaborar un modelo del número de accidentes de automóvil por conductor teniendo encuenta la edad y el género del conductor. Cada caso representa un conductor diferente yregistra el sexo, la edad en años y el número de accidentes de automóvil del conductor en losúltimos cinco años.band.sav Este archivo de datos contiene las cifras de ventas semanales hipotéticas de CD demúsica de una banda. También se incluyen datos para tres variables predictoras posibles.bankloan.sav.Archivo de datos hipotéticos sobre las iniciativas de un banco para reducir latasa de moras de créditos. El archivo contiene información financiera y demográfica de850 clientes anteriores y posibles clientes. Los primeros 700 casos son clientes a los queanteriormente se les ha concedido un préstamo. Al menos 150 casos son posibles clientescuyos riesgos de crédito el banco necesita clasificar como positivos o negativos.bankloan_binning.sav. Archivo de datos hipotéticos que contiene información financiera ydemográfica sobre 5.000 clientes anteriores.behavior.sav. En un ejemplo clásico (Price y Bouffard, 1974), se pidió a 52 estudiantesque valoraran las combinaciones de 15 situaciones y 15 comportamientos en una escalade 10 puntos que oscilaba entre 0 =“extremadamente apropiado” y 9=“extremadamenteinapropiado”. Los valores promediados respecto a los individuos se toman comodisimilaridades.behavior_ini.sav. Este archivo de datos contiene una configuración inicial para una soluciónbidimensional de behavior.sav.brakes.sav. Archivo de datos hipotéticos sobre el control de calidad de una fábrica queproduce frenos de disco para automóviles de alto rendimiento. El archivo de datos contienelas medidas del diámetro de 16 discos de cada una de las 8 máquinas de producción. Eldiámetro objetivo para los frenos es de 322 milímetros.breakfast.sav.En un estudio clásico (Green y Rao, 1972), se pidió a 21 estudiantes deadministración de empresas de la Wharton School y sus cónyuges que ordenaran 15 elementosde desayuno por orden de preferencia, de 1=“más preferido” a 15=“menos preferido”. Suspreferencias se registraron en seis escenarios distintos, de “Preferencia global” a “Aperitivo,con bebida sólo”.breakfast-overall.sav. Este archivo de datos sólo contiene las preferencias de elementos dedesayuno para el primer escenario, “Preferencia global”.broadband_1.sav Archivo de datos hipotéticos que contiene el número de suscriptores, porregión, a un servicio de banda ancha nacional. El archivo de datos contiene números desuscriptores mensuales para 85 regiones durante un período de cuatro años.broadband_2.sav Este archivo de datos es idéntico a broadband_1.sav pero contiene datospara tres meses adicionales.car_insurance_claims.sav. Un conjunto de datos presentados y analizados en otro lugar(McCullagh y Nelder, 1989) estudia las reclamaciones por daños en vehículos. La cantidad dereclamaciones media se puede modelar como si tuviera una distribución Gamma, mediante

Page 41: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

33

Archivos muestrales

una función de enlace inversa para relacionar la media de la variable dependiente conuna combinación lineal de la edad del asegurado, el tipo de vehículo y la antigüedad delvehículo. El número de reclamaciones presentadas se puede utilizar como una ponderación deescalamiento.car_sales.sav. Este archivo de datos contiene estimaciones de ventas, precios de lista yespecificaciones físicas hipotéticas de varias marcas y modelos de vehículos. Los precios delista y las especificaciones físicas se han obtenido de edmunds.com y de sitios de fabricantes.car_sales_uprepared.sav.Ésta es una versión modificada de car_sales.sav que no incluyeninguna versión transformada de los campos.carpet.sav En un ejemplo muy conocido (Green y Wind, 1973), una compañía interesada ensacar al mercado un nuevo limpiador de alfombras desea examinar la influencia de cincofactores sobre la preferencia del consumidor: diseño del producto, marca comercial, precio,sello de buen producto para el hogar y garantía de devolución del importe. Hay tres nivelesde factores para el diseño del producto, cada uno con una diferente colocación del cepillodel aplicador; tres nombres comerciales (K2R, Glory y Bissell); tres niveles de precios; y dosniveles (no o sí) para los dos últimos factores. Diez consumidores clasificaron 22 perfilesdefinidos por estos factores. La variable Preferencia contiene el rango de las clasificacionesmedias de cada perfil. Las clasificaciones inferiores corresponden a preferencias elevadas.Esta variable refleja una medida global de la preferencia de cada perfil.carpet_prefs.sav Este archivo de datos se basa en el mismo ejemplo que el descrito paracarpet.sav, pero contiene las clasificaciones reales recogidas de cada uno de los 10consumidores. Se pidió a los consumidores que clasificaran los 22 perfiles de los productosempezando por el menos preferido. Las variables desde PREF1 hasta PREF22 contienen losID de los perfiles asociados, como se definen en carpet_plan.sav.catalog.savEste archivo de datos contiene cifras de ventas mensuales hipotéticas de tresproductos vendidos por una compañía de venta por catálogo. También se incluyen datospara cinco variables predictoras posibles.catalog_seasfac.savEste archivo de datos es igual que catalog.sav, con la excepción deque incluye un conjunto de factores estacionales calculados a partir del procedimientoDescomposición estacional junto con las variables de fecha que lo acompañan.cellular.sav. Archivo de datos hipotéticos sobre las iniciativas de una compañía de telefoníamóvil para reducir el abandono de clientes. Las puntuaciones de propensión al abandono declientes se aplican a las cuentas, oscilando de 0 a 100. Las cuentas con una puntuación de 50o superior pueden estar buscando otros proveedores.ceramics.sav.Archivo de datos hipotéticos sobre las iniciativas de un fabricante paradeterminar si una nueva aleación de calidad tiene una mayor resistencia al calor que unaaleación estándar. Cada caso representa una prueba independiente de una de las aleaciones; latemperatura a la que registró el fallo del rodamiento.cereal.sav. Archivo de datos hipotéticos sobre una encuesta realizada a 880 personas sobresus preferencias en el desayuno, teniendo también en cuenta su edad, sexo, estado civil y sitienen un estilo de vida activo o no (en función de si practican ejercicio al menos dos veces ala semana). Cada caso representa un encuestado diferente.clothing_defects.sav. Archivo de datos hipotéticos sobre el proceso de control de calidad enuna fábrica de prendas. Los inspectores toman una muestra de prendas de cada lote producidoen la fábrica, y cuentan el número de prendas que no son aceptables.

Page 42: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

34

Apéndice A

coffee.sav. Este archivo de datos pertenece a las imágenes percibidas de seis marcas de caféhelado (Kennedy, Riquier, y Sharp, 1996). Para cada uno de los 23 atributos de imagen de caféhelado, los encuestados seleccionaron todas las marcas que quedaban descritas por el atributo.Las seis marcas se denotan AA, BB, CC, DD, EE y FF para mantener la confidencialidad.contacts.sav.Archivo de datos hipotéticos sobre las listas de contactos de un grupo derepresentantes de ventas de ordenadores de empresa. Cada uno de los contactos estácategorizado por el departamento de la compañía en el que trabaja y su categoría en lacompañía. Además, también se registran los importes de la última venta realizada, el tiempotranscurrido desde la última venta y el tamaño de la compañía del contacto.creditpromo.sav. Archivo de datos hipotéticos sobre las iniciativas de unos almacenespara evaluar la eficacia de una promoción de tarjetas de crédito reciente. Para este fin, seseleccionaron aleatoriamente 500 titulares. La mitad recibieron un anuncio promocionandouna tasa de interés reducida sobre las ventas realizadas en los siguientes tres meses. La otramitad recibió un anuncio estacional estándar.customer_dbase.sav. Archivo de datos hipotéticos sobre las iniciativas de una compañía parausar la información de su almacén de datos para realizar ofertas especiales a los clientescon más probabilidades de responder. Se seleccionó un subconjunto de la base de clientesaleatoriamente a quienes se ofrecieron las ofertas especiales y sus respuestas se registraron.customer_information.sav. Archivo de datos hipotéticos que contiene la información de correodel cliente, como el nombre y la dirección.customer_subset.sav. Un subconjunto de 80 casos de customer_dbase.sav.customers_model.sav. Este archivo contiene datos hipotéticos sobre los individuos a los queva dirigida una campaña de marketing. Estos datos incluyen información demográfica, unresumen del historial de compras y si cada individuo respondió a la campaña. Cada casorepresenta un individuo diferente.customers_new.sav. Este archivo contiene datos hipotéticos sobre los individuos que soncandidatos potenciales para una campaña de marketing. Estos datos incluyen informacióndemográfica y un resumen del historial de compras de cada individuo. Cada caso representaun individuo diferente.debate.sav. Archivos de datos hipotéticos sobre las respuestas emparejadas de una encuestarealizada a los asistentes a un debate político antes y después del debate. Cada casocorresponde a un encuestado diferente.debate_aggregate.sav. Archivo de datos hipotéticos que agrega las respuestas de debate.sav.Cada caso corresponde a una clasificación cruzada de preferencias antes y después del debate.demo.sav. Archivos de datos hipotéticos sobre una base de datos de clientes adquirida conel fin de enviar por correo ofertas mensuales. Se registra si el cliente respondió a la oferta,junto con información demográfica diversa.demo_cs_1.sav.Archivo de datos hipotéticos sobre el primer paso de las iniciativas deuna compañía para recopilar una base de datos de información de encuestas. Cada casocorresponde a una ciudad diferente, y se registra la identificación de la ciudad, la región,la provincia y el distrito.demo_cs_2.sav.Archivo de datos hipotéticos sobre el segundo paso de las iniciativas deuna compañía para recopilar una base de datos de información de encuestas. Cada casocorresponde a una unidad familiar diferente de las ciudades seleccionadas en el primer paso, y

Page 43: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

35

Archivos muestrales

se registra la identificación de la unidad, la subdivisión, la ciudad, el distrito, la provincia y laregión. También se incluye la información de muestreo de las primeras dos etapas del diseño.demo_cs.sav.Archivo de datos hipotéticos que contiene información de encuestas recopiladamediante un diseño de muestreo complejo. Cada caso corresponde a una unidad familiardistinta, y se recopila información demográfica y de muestreo diversa.dmdata.sav. Éste es un archivo de datos hipotéticos que contiene información demográficay de compras para una empresa de marketing directo. dmdata2.sav contiene informaciónpara un subconjunto de contactos que recibió un envío de prueba, y dmdata3.sav contieneinformación sobre el resto de contactos que no recibieron el envío de prueba.dietstudy.sav.Este archivo de datos hipotéticos contiene los resultados de un estudio sobre la“dieta Stillman” (Rickman, Mitchell, Dingman, y Dalen, 1974). Cada caso correspondea un sujeto distinto y registra sus pesos antes y después de la dieta en libras y niveles detriglicéridos en mg/100 ml.dvdplayer.sav. Archivo de datos hipotéticos sobre el desarrollo de un nuevo reproductor deDVD. El equipo de marketing ha recopilado datos de grupo de enfoque mediante un prototipo.Cada caso corresponde a un usuario encuestado diferente y registra información demográficasobre los encuestados y sus respuestas a preguntas acerca del prototipo.german_credit.sav.Este archivo de datos se toma del conjunto de datos “German credit” delas Repository of Machine Learning Databases (Blake y Merz, 1998) de la Universidadde California, Irvine.grocery_1month.sav. Este archivo de datos hipotéticos es el archivo de datosgrocery_coupons.sav con las compras semanales “acumuladas” para que cada casocorresponda a un cliente diferente. Algunas de las variables que cambiaban semanalmentedesaparecen de los resultados, y la cantidad gastada registrada se convierte ahora en la sumade las cantidades gastadas durante las cuatro semanas del estudio.grocery_coupons.sav. Archivo de datos hipotéticos que contiene datos de encuestasrecopilados por una cadena de tiendas de alimentación interesada en los hábitos de comprade sus clientes. Se sigue a cada cliente durante cuatro semanas, y cada caso corresponde aun cliente-semana distinto y registra información sobre dónde y cómo compran los clientes,incluida la cantidad que invierten en comestibles durante esa semana.guttman.sav.Bell (Bell, 1961) presentó una tabla para ilustrar posibles grupos sociales.Guttman (Guttman, 1968) utilizó parte de esta tabla, en la que se cruzaron cinco variablesque describían elementos como la interacción social, sentimientos de pertenencia a un grupo,proximidad física de los miembros y grado de formalización de la relación con siete grupossociales teóricos, incluidos multitudes (por ejemplo, las personas que acuden a un partido defútbol), espectadores (por ejemplo, las personas que acuden a un teatro o de una conferencia),públicos (por ejemplo, los lectores de periódicos o los espectadores de televisión),muchedumbres (como una multitud pero con una interacción mucho más intensa), gruposprimarios (íntimos), grupos secundarios (voluntarios) y la comunidad moderna (confederacióndébil que resulta de la proximidad cercana física y de la necesidad de servicios especializados).health_funding.sav. Archivo de datos hipotéticos que contiene datos sobre inversión en sanidad(cantidad por 100 personas), tasas de enfermedad (índice por 10.000 personas) y visitas acentros de salud (índice por 10.000 personas). Cada caso representa una ciudad diferente.

Page 44: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

36

Apéndice A

hivassay.sav. Archivo de datos hipotéticos sobre las iniciativas de un laboratorio farmacéuticopara desarrollar un ensayo rápido para detectar la infección por VIH. Los resultados del ensayoson ocho tonos de rojo con diferentes intensidades, donde los tonos más oscuros indican unamayor probabilidad de infección. Se llevó a cabo una prueba de laboratorio de 2.000 muestrasde sangre, de las cuales una mitad estaba infectada con el VIH y la otra estaba limpia.hourlywagedata.sav. Archivo de datos hipotéticos sobre los salarios por horas de enfermerasde puestos de oficina y hospitales y con niveles distintos de experiencia.insurance_claims.sav. Éste es un archivo de datos hipotéticos sobre una compañía de segurosque desee generar un modelo para etiquetar las reclamaciones sospechosas y potencialmentefraudulentas. Cada caso representa una reclamación diferente.insure.sav. Archivo de datos hipotéticos sobre una compañía de seguros que estudia losfactores de riesgo que indican si un cliente tendrá que hacer una reclamación a lo largo de uncontrato de seguro de vida de 10 años. Cada caso del archivo de datos representa un par decontratos (de los que uno registró una reclamación y el otro no), agrupados por edad y sexo.judges.sav. Archivo de datos hipotéticos sobre las puntuaciones concedidas por juecescualificados (y un aficionado) a 300 actuaciones gimnásticas. Cada fila representa unaactuación diferente; los jueces vieron las mismas actuaciones.kinship_dat.sav. Rosenberg y Kim (Rosenberg y Kim, 1975) comenzaron a analizar 15términos de parentesco [tía, hermano, primos, hija, padre, nieta, abuelo, abuela, nieto, madre,sobrino, sobrina, hermana, hijo, tío]. Le pidieron a cuatro grupos de estudiantes universitarios(dos masculinos y dos femeninos) que ordenaran estos grupos según las similitudes. A dosgrupos (uno masculino y otro femenino) se les pidió que realizaran la ordenación dos veces,pero que la segunda ordenación la hicieran según criterios distintos a los de la primera. Así, seobtuvo un total de seis “fuentes“. Cada fuente se corresponde con una matriz de proximidadesde cuyas casillas son iguales al número de personas de una fuente menos el númerode veces que se particionaron los objetos en esa fuente.kinship_ini.sav. Este archivo de datos contiene una configuración inicial para una solucióntridimensional de kinship_dat.sav.kinship_var.sav. Este archivo de datos contiene variables independientes sexo, gener(ación), ygrado (de separación) que se pueden usar para interpretar las dimensiones de una soluciónpara kinship_dat.sav. Concretamente, se pueden usar para restringir el espacio de la solucióna una combinación lineal de estas variables.marketvalues.sav. Archivo de datos sobre las ventas de casas en una nueva urbanización deAlgonquin, Ill., durante los años 1999 y 2000. Los datos de estas ventas son públicos.nhis2000_subset.sav. La National Health Interview Survey (NHIS, encuesta del CentroNacional de Estadísticas de Salud de EE.UU.) es una encuesta detallada realizada entrela población civil de Estados Unidos. Las encuestas se realizaron en persona a unamuestra representativa de las unidades familiares del país. Se recogió tanto la informacióndemográfica como las observaciones acerca del estado y los hábitos de salud de losintegrantes de cada unidad familiar. Este archivo de datos contiene un subconjunto deinformación de la encuesta de 2000. National Center for Health Statistics. NationalHealth Interview Survey, 2000. Archivo de datos y documentación de uso público.ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Fecha de acceso: 2003.

Page 45: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

37

Archivos muestrales

ozono.sav. Los datos incluyen 330 observaciones de seis variables meteorológicas parapronosticar la concentración de ozono a partir del resto de variables. Los investigadoresanteriores(Breiman y Friedman, 1985), (Hastie y Tibshirani, 1990) han encontrado que no haylinealidad entre estas variables, lo que dificulta los métodos de regresión típica.pain_medication.sav. Este archivo de datos hipotéticos contiene los resultados de una pruebaclínica sobre medicación antiinflamatoria para tratar el dolor artrítico crónico. Resulta departicular interés el tiempo que tarda el fármaco en hacer efecto y cómo se compara conuna medicación existente.patient_los.sav. Este archivo de datos hipotéticos contiene los registros de tratamiento depacientes que fueron admitidos en el hospital ante la posibilidad de sufrir un infarto demiocardio (IM o “ataque al corazón”). Cada caso corresponde a un paciente distinto y registradiversas variables relacionadas con su estancia hospitalaria.patlos_sample.sav. Este archivo de datos hipotéticos contiene los registros de tratamiento deuna muestra de pacientes que recibieron trombolíticos durante el tratamiento del infarto demiocardio (IM o “ataque al corazón”). Cada caso corresponde a un paciente distinto y registradiversas variables relacionadas con su estancia hospitalaria.polishing.sav. Archivo de datos “Nambeware Polishing Times” (Tiempo de pulido de metal)de la biblioteca de datos e historiales. Contiene datos sobre las iniciativas de un fabricantede cuberterías de metal (Nambe Mills, Santa Fe, N. M.) para planificar su programa deproducción. Cada caso representa un artículo distinto de la línea de productos. Se registra eldiámetro, el tiempo de pulido, el precio y el tipo de producto de cada artículo.poll_cs.sav. Archivo de datos hipotéticos sobre las iniciativas de los encuestadores paradeterminar el nivel de apoyo público a una ley antes de una asamblea legislativa. Los casoscorresponden a votantes registrados. Cada caso registra el condado, la población y elvecindario en el que vive el votante.poll_cs_sample.sav. Este archivo de datos hipotéticos contiene una muestra de los votantesenumerados en poll_cs.sav. La muestra se tomó según el diseño especificado en el archivode plan poll.csplan y este archivo de datos registra las probabilidades de inclusión y lasponderaciones muestrales. Sin embargo, tenga en cuenta que debido a que el plan muestralhace uso de un método de probabilidad proporcional al tamaño (PPS), también existe unarchivo que contiene las probabilidades de selección conjunta (poll_jointprob.sav). Lasvariables adicionales que corresponden a los datos demográficos de los votantes y susopiniones sobre la propuesta de ley se recopilaron y añadieron al archivo de datos despuésde tomar la muestra.property_assess.sav. Archivo de datos hipotéticos sobre las iniciativas de un asesor delcondado para mantener actualizada la evaluación de los valores de las propiedades utilizandorecursos limitados. Los casos corresponden a las propiedades vendidas en el condado elaño anterior. Cada caso del archivo de datos registra la población en que se encuentra lapropiedad, el último asesor que visitó la propiedad, el tiempo transcurrido desde la últimaevaluación, la valoración realizada en ese momento y el valor de venta de la propiedad.property_assess_cs.sav. Archivo de datos hipotéticos sobre las iniciativas de un asesor de unestado para mantener actualizada la evaluación de los valores de las propiedades utilizandorecursos limitados. Los casos corresponden a propiedades del estado. Cada caso del archivode datos registra el condado, la población y el vecindario en el que se encuentra la propiedad,el tiempo transcurrido desde la última evaluación y la valoración realizada en ese momento.

Page 46: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

38

Apéndice A

property_assess_cs_sample.savEste archivo de datos hipotéticos contiene una muestra de laspropiedades recogidas en property_assess_cs.sav. La muestra se tomó en función del diseñoespecificado en el archivo de plan property_assess.csplan, y este archivo de datos registralas probabilidades de inclusión y las ponderaciones muestrales. La variable adicional Valoractual se recopiló y añadió al archivo de datos después de tomar la muestra.recidivism.sav. Archivo de datos hipotéticos sobre las iniciativas de una agencia de ordenpúblico para comprender los índices de reincidencia en su área de jurisdicción. Cada casocorresponde a un infractor anterior y registra su información demográfica, algunos detalles desu primer delito y, a continuación, el tiempo transcurrido desde su segundo arresto, si ocurrióen los dos años posteriores al primer arresto.recidivism_cs_sample.sav. Archivo de datos hipotéticos sobre las iniciativas de una agencia deorden público para comprender los índices de reincidencia en su área de jurisdicción. Cadacaso corresponde a un delincuente anterior, puesto en libertad tras su primer arresto durante elmes de junio de 2003 y registra su información demográfica, algunos detalles de su primerdelito y los datos de su segundo arresto, si se produjo antes de finales de junio de 2006. Losdelincuentes se seleccionaron de una muestra de departamentos según el plan de muestreoespecificado en recidivism_cs.csplan. Como este plan utiliza un método de probabilidadproporcional al tamaño (PPS), también existe un archivo que contiene las probabilidades deselección conjunta (recidivism_cs_jointprob.sav).rfm_transactions.sav. Archivo de datos hipotéticos que contiene datos de transacciones decompra, incluida la fecha de compra, los artículos adquiridos y el importe de cada transacción.salesperformance.sav. Archivo de datos hipotéticos sobre la evaluación de dos nuevos cursosde formación de ventas. Sesenta empleados, divididos en tres grupos, reciben formaciónestándar. Además, el grupo 2 recibe formación técnica; el grupo 3, un tutorial práctico. Cadaempleado se sometió a un examen al final del curso de formación y se registró su puntuación.Cada caso del archivo de datos representa a un alumno distinto y registra el grupo al que fueasignado y la puntuación que obtuvo en el examen.satisf.sav. Archivo de datos hipotéticos sobre una encuesta de satisfacción llevada a cabo poruna empresa minorista en cuatro tiendas. Se encuestó a 582 clientes en total y cada casorepresenta las respuestas de un único cliente.screws.sav Este archivo de datos contiene información acerca de las características detornillos, pernos, clavos y tacos (Hartigan, 1975).shampoo_ph.sav.Archivo de datos hipotéticos sobre el control de calidad en una fábrica deproductos para el cabello. Se midieron seis lotes de resultados distintos en intervalos regularesy se registró su pH. El intervalo objetivo es de 4,5 a 5,5.ships.sav. Un conjunto de datos presentados y analizados en otro lugar (McCullagh et al.,1989) sobre los daños en los cargueros producidos por las olas. Los recuentos de incidentesse pueden modelar como si ocurrieran con una tasa de Poisson dado el tipo de barco, elperíodo de construcción y el período de servicio. Los meses de servicio agregados para cadacasilla de la tabla formados por la clasificación cruzada de factores proporcionan valorespara la exposición al riesgo.site.sav.Archivo de datos hipotéticos sobre las iniciativas de una compañía para seleccionarsitios nuevos para sus negocios en expansión. Se ha contratado a dos consultores para evaluarlos sitios de forma independiente, quienes, además de un informe completo, han resumidocada sitio como una posibilidad “buena”, “media” o “baja”.

Page 47: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

39

Archivos muestrales

smokers.sav.Este archivo de datos es un resumen de la encuesta sobre toxicomanía 1998National Household Survey of Drug Abuse y es una muestra de probabilidad de unidadesfamiliares americanas. (http://dx.doi.org/10.3886/ICPSR02934) Así, el primer paso de unanálisis de este archivo de datos debe ser ponderar los datos para reflejar las tendenciasde población.stroke_clean.sav. Este archivo de datos hipotéticos contiene el estado de una base de datosmédica después de haberla limpiado mediante los procedimientos de la opción Preparaciónde datos.stroke_invalid.sav. Este archivo de datos hipotéticos contiene el estado inicial de una base dedatos médica que incluye contiene varios errores de entrada de datos.stroke_survival. Este archivo de datos hipotéticos registra los tiempos de supervivencia delos pacientes que finalizan un programa de rehabilitación tras un ataque isquémico. Tras elataque, la ocurrencia de infarto de miocardio, ataque isquémico o ataque hemorrágico seanotan junto con el momento en el que se produce el evento registrado. La muestra estátruncada a la izquierda ya que únicamente incluye a los pacientes que han sobrevivido al finaldel programa de rehabilitación administrado tras el ataque.stroke_valid.sav. Este archivo de datos hipotéticos contiene el estado de una base de datosmédica después de haber comprobado los valores mediante el procedimiento Validar datos.Sigue conteniendo casos potencialmente anómalos.survey_sample.sav. Este archivo de datos contiene datos de encuestas, incluyendo datosdemográficos y diferentes medidas de actitud. Se basa en un subconjunto de variables deNORC General Social Survey de 1998, aunque algunos valores de datos se han modificado yque existen variables ficticias adicionales se han añadido para demostraciones.telco.sav. Archivo de datos hipotéticos sobre las iniciativas de una compañía detelecomunicaciones para reducir el abandono de clientes en su base de clientes. Cada casocorresponde a un cliente distinto y registra diversa información demográfica y de uso delservicio.telco_extra.sav. Este archivo de datos es similar al archivo de datos telco.sav, pero las variablesde meses con servicio y gasto de clientes transformadas logarítmicamente se han eliminado ysustituido por variables de gasto del cliente transformadas logarítmicamente tipificadas.telco_missing.sav. Este archivo de datos es un subconjunto del archivo de datos telco.sav, peroalgunos valores de datos demográficos se han sustituido con valores perdidos.testmarket.sav. Archivo de datos hipotéticos sobre los planes de una cadena de comida rápidapara añadir un nuevo artículo a su menú. Hay tres campañas posibles para promocionarel nuevo producto, por lo que el artículo se presenta en ubicaciones de varios mercadosseleccionados aleatoriamente. Se utiliza una promoción diferente en cada ubicación y seregistran las ventas semanales del nuevo artículo durante las primeras cuatro semanas. Cadacaso corresponde a una ubicación semanal diferente.testmarket_1month.sav. Este archivo de datos hipotéticos es el archivo de datos testmarket.savcon las ventas semanales “acumuladas” para que cada caso corresponda a una ubicacióndiferente. Como resultado, algunas de las variables que cambiaban semanalmente desapareceny las ventas registradas se convierten en la suma de las ventas realizadas durante las cuatrosemanas del estudio.tree_car.sav. Archivo de datos hipotéticos que contiene datos demográficos y de preciosde compra de vehículos.

Page 48: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

40

Apéndice A

tree_credit.sav Archivo de datos hipotéticos que contiene datos demográficos y de historial decréditos bancarios.tree_missing_data.sav Archivo de datos hipotéticos que contiene datos demográficos y dehistorial de créditos bancarios con un elevado número de valores perdidos.tree_score_car.sav. Archivo de datos hipotéticos que contiene datos demográficos y de preciosde compra de vehículos.tree_textdata.sav. Archivo de datos sencillos con dos variables diseñadas principalmente paramostrar el estado por defecto de las variables antes de realizar la asignación de nivel demedida y etiquetas de valor.tv-survey.sav. Archivo de datos hipotéticos sobre una encuesta dirigida por un estudio deTV que está considerando la posibilidad de ampliar la emisión de un programa de éxito.Se preguntó a 906 encuestados si verían el programa en distintas condiciones. Cada filarepresenta un encuestado diferente; cada columna es una condición diferente.ulcer_recurrence.sav. Este archivo contiene información parcial de un estudio diseñado paracomparar la eficacia de dos tratamientos para prevenir la reaparición de úlceras. Constituyeun buen ejemplo de datos censurados por intervalos y se ha presentado y analizado en otrolugar (Collett, 2003).ulcer_recurrence_recoded.sav. Este archivo reorganiza la información de ulcer_recurrence.savpara permitir modelar la probabilidad de eventos de cada intervalo del estudio en lugar desólo la probabilidad de eventos al final del estudio. Se ha presentado y analizado en otrolugar (Collett et al., 2003).verd1985.sav. Archivo de datos sobre una encuesta (Verdegaal, 1985). Se han registrado lasrespuestas de 15 sujetos a 8 variables. Se han dividido las variables de interés en tres grupos.El conjunto 1 incluye edad y ecivil, el conjunto 2 incluye mascota y noticia, mientras que elconjunto 3 incluye música y vivir. Se escala mascota como nominal múltiple y edad comoordinal; el resto de variables se escalan como nominal simple.virus.sav.Archivo de datos hipotéticos sobre las iniciativas de un proveedor de servicios deInternet (ISP) para determinar los efectos de un virus en sus redes. Se ha realizado unseguimiento (aproximado) del porcentaje de tráfico de correos electrónicos infectados en susredes a lo largo del tiempo, desde el momento en que se descubre hasta que la amenaza secontiene.wheeze_steubenville.sav. Subconjunto de un estudio longitudinal de los efectos sobre la saludde la polución del aire en los niños (Ware, Dockery, Spiro III, Speizer, y Ferris Jr., 1984).Los datos contienen medidas binarias repetidas del estado de las sibilancias en niños deSteubenville, Ohio, con edades de 7, 8, 9 y 10 años, junto con un registro fijo de si la madreera fumadora durante el primer año del estudio.workprog.sav. Archivo de datos hipotéticos sobre un programa de obras del gobierno queintenta colocar a personas desfavorecidas en mejores trabajos. Se siguió una muestra departicipantes potenciales del programa, algunos de los cuales se seleccionaron aleatoriamentepara entrar en el programa, mientras que otros no siguieron esta selección aleatoria. Cadacaso representa un participante del programa diferente.

Page 49: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Apéndice

BNotices

Licensed Materials – Property of SPSS Inc., an IBM Company. © Copyright SPSS Inc. 1989,2010.

Patent No. 7,023,453

The following paragraph does not apply to the United Kingdom or any other country where suchprovisions are inconsistent with local law: SPSS INC., AN IBM COMPANY, PROVIDES THISPUBLICATION “AS IS” WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESSOR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIESOF NON-INFRINGEMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULARPURPOSE. Some states do not allow disclaimer of express or implied warranties in certaintransactions, therefore, this statement may not apply to you.

This information could include technical inaccuracies or typographical errors. Changes areperiodically made to the information herein; these changes will be incorporated in new editions ofthe publication. SPSS Inc. may make improvements and/or changes in the product(s) and/or theprogram(s) described in this publication at any time without notice.

Any references in this information to non-SPSS and non-IBM Web sites are provided forconvenience only and do not in any manner serve as an endorsement of those Web sites. Thematerials at those Web sites are not part of the materials for this SPSS Inc. product and use ofthose Web sites is at your own risk.

When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive rightto use or distribute the information in any way it believes appropriate without incurring anyobligation to you.

Information concerning non-SPSS products was obtained from the suppliers of those products,their published announcements or other publicly available sources. SPSS has not tested thoseproducts and cannot confirm the accuracy of performance, compatibility or any other claimsrelated to non-SPSS products. Questions on the capabilities of non-SPSS products should beaddressed to the suppliers of those products.

This information contains examples of data and reports used in daily business operations.To illustrate them as completely as possible, the examples include the names of individuals,companies, brands, and products. All of these names are fictitious and any similarity to the namesand addresses used by an actual business enterprise is entirely coincidental.

COPYRIGHT LICENSE:

This information contains sample application programs in source language, which illustrateprogramming techniques on various operating platforms. You may copy, modify, and distributethese sample programs in any form without payment to SPSS Inc., for the purposes of developing,

© Copyright SPSS Inc. 1989, 2010 41

Page 50: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

42

Apéndice B

using, marketing or distributing application programs conforming to the application programminginterface for the operating platform for which the sample programs are written. These exampleshave not been thoroughly tested under all conditions. SPSS Inc., therefore, cannot guarantee orimply reliability, serviceability, or function of these programs. The sample programs are provided“AS IS”, without warranty of any kind. SPSS Inc. shall not be liable for any damages arising outof your use of the sample programs.

Trademarks

IBM, the IBM logo, and ibm.com are trademarks of IBM Corporation, registered in manyjurisdictions worldwide. A current list of IBM trademarks is available on the Web athttp://www.ibm.com/legal/copytrade.shmtl.

SPSS is a trademark of SPSS Inc., an IBM Company, registered in many jurisdictions worldwide.

Adobe, the Adobe logo, PostScript, and the PostScript logo are either registered trademarks ortrademarks of Adobe Systems Incorporated in the United States, and/or other countries.

Intel, Intel logo, Intel Inside, Intel Inside logo, Intel Centrino, Intel Centrino logo, Celeron, IntelXeon, Intel SpeedStep, Itanium, and Pentium are trademarks or registered trademarks of IntelCorporation or its subsidiaries in the United States and other countries.

Linux is a registered trademark of Linus Torvalds in the United States, other countries, or both.

Microsoft, Windows, Windows NT, and the Windows logo are trademarks of MicrosoftCorporation in the United States, other countries, or both.

UNIX is a registered trademark of The Open Group in the United States and other countries.

Java and all Java-based trademarks and logos are trademarks of Sun Microsystems, Inc. in theUnited States, other countries, or both.

This product uses WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting,http://www.winwrap.com.

Other product and service names might be trademarks of IBM, SPSS, or other companies.

Adobe product screenshot(s) reprinted with permission from Adobe Systems Incorporated.

Microsoft product screenshot(s) reprinted with permission from Microsoft Corporation.

Page 51: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Bibliografía

Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology.Nueva York: Harper & Row.

Blake, C. L., y C. J. Merz. 1998. "UCI Repository of machine learning databases." Available athttp://www.ics.uci.edu/~mlearn/MLRepository.html.

Breiman, L., y J. H. Friedman. 1985. Estimating optimal transformations for multiple regressionand correlation. Journal of the American Statistical Association, 80, .

Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman &Hall/CRC.

Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : CambridgeUniversity Press.

Green, P. E., y V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press.

Green, P. E., y Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach.Hinsdale, Ill.: Dryden Press.

Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space forconfigurations of points. Psychometrika, 33, .

Hartigan, J. A. 1975. Clustering algorithms. Nueva York: John Wiley and Sons.

Hastie, T., y R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall.

Kennedy, R., C. Riquier, y B. Sharp. 1996. Practical applications of correspondence analysisto categorical data in market research. Journal of Targeting, Measurement, and Analysis forMarketing, 5, .

McCullagh, P., y J. A. Nelder. 1989. Modelos lineales generalizados, 2nd ed. Londres: Chapman& Hall.

Price, R. H., y D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints asdimensions of social behavior. Journal of Personality and Social Psychology, 30, .

Rickman, R., N. Mitchell, J. Dingman, y J. E. Dalen. 1974. Changes in serum cholesterol duringthe Stillman Diet. Journal of the American Medical Association, 228, .

Rosenberg, S., y M. P. Kim. 1975. The method of sorting as a data-gathering procedure inmultivariate research. Multivariate Behavioral Research, 10, .

Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.

Van der Ham, T., J. J. Meulman, D. C. Van Strien, y H. Van Engeland. 1997. Empirically basedsubgrouping of eating disorders in adolescents: A longitudinal perspective. British Journalof Psychiatry, 170, .

Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en neerlandés). Leiden:Department of Data Theory, University of Leiden.

Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, y B. G. Ferris Jr.. 1984. Passivesmoking, gas cooking, and respiratory health of children living in six cities. American Review ofRespiratory Diseases, 129, .

© Copyright SPSS Inc. 1989, 2010 43

Page 52: IBM SPSS Bootstrapping 19kela/SPSSStatistics (E)/Documentation/Spanish/… · Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Norušis

Índice

archivos de ejemploposición, 31

especificaciones de muestreo autodocimanteen muestreo autodocimante, 14

estimaciones de los parámetrosen muestreo autodocimante, 29

intervalo de confianza de medianaen muestreo autodocimante, 19

intervalo de confianza de proporciónen muestreo autodocimante, 15–16

legal notices, 41

muestreo autodocimante, 3, 10especificaciones de muestreo autodocimante, 14estimaciones de los parámetros, 29intervalo de confianza de mediana, 19intervalo de confianza de proporción, 15–16procedimientos admitidos, 5

trademarks, 42

44