Estadística Descriptiva

download Estadística Descriptiva

of 44

Transcript of Estadística Descriptiva

2.Estadstica Descriptiva Entodainvestigacincientficay,engeneral,enlatomadedecisionesdecualquier actividadhumana,serequieretenerinformacin.Porejemplo,endemografa,interesa conocer la edad al momento de contraer matrimonio, el nmero de hijos, la longevidad, etc. Delmismomodo,eneconomainteresaconocerelingresodelaspersonas,susituacin ocupacional,sunivelsocioeconmico;sisetratadeempresas,interesanloscapitales, ganancias,etc.Ensalud,esimportantetenerinformacinsobredesnutricininfantil, incidenciadedeterminadasenfermedades,nmerodeprestacioneshospitalarias,entre muchas otras variables. 2.1.Conceptos Bsicos. Enlosejemplosanterioreslainformacinconsisteenelconocimientodetalladodelas caractersticas de ciertos elementos. Por ejemplo nos puede interesar saber: La edad de una persona al momento de contraer matrimonio. El nmero de hijos de una familia. El capital de una empresa. La presencia de defectos en un envase de vidrio. Enelprimercaso,loselementossonpersonasindividuales;enelsegundo,setratade familias; y en los casos restantes, son empresas y envases de vidrio. Las caractersticas que nos interesan medir o determinar (en cada elemento), varan de uno a otro. Nos referiremos aellasenlosucesivoconelnombredevariables.Deestaforma,edad,nmerodehijos, capital y presencia de defectos, son ejemplos de variables. Cuandoqueremosestudiarunavariable,esimportantetenerclarocualessonaquellos elementosdelosquequeremossabersuvalor.Alconjuntodeestoselementoslos llamaremospoblacinyalnmerodeelementos deesteconjuntolollamaremostamao de la poblacin, el cual suele denotarse por la letra N. El uso de la palabra poblacintiene aqu un significado tcnico. En efecto, los elementos de la poblacin no son necesariamente personas.Asenlosejemplosprecedentes,aparecenpoblacionesdepersonas,familias, empresas y envase de vidrio. No es difcil pensar en otras situaciones donde las poblaciones estn constituidas por huevos, automviles o componentes electrnicos. Es conveniente clasificar las variables de acuerdo al conjunto de valoresposibles que ellas puedantener.Losvaloresdelasvariablesedad,capital,nmerodehijos,seexpresanen formanumrica.Encambiopresenciadedefectos,sabor,posicinpolticamuestranuna cualidaddelelementoynopuedenexpresarsenumricamente,salvodemaneraartificial. Entonces podemos distinguir dos tipos de variables: -Variables cualitativas o no numricas. -Variables cuantitativas o numricas. Lasvariablesedadynmerodehijos,soncuantitativas.Sinembargo,elnmerodehijos puede tomar los valores 0,1,2,..., vale decir, un entero no negativo. No tiene sentido hablar devaloresintermedioscomo1.3hijos.Porelcontrario,sibienla edadseexpresaenaoscumplidos,estolopodemosrefinarusandomeses,das,horas, minutos,segundos,etc.Osea,entredosvalorescualesquieradelavariableedad,por cercanos que sean, existe siempre un valor intermedio. Estonossugiere,quelasvariablescuantitativaspuedenserclasificadassegnlosvalores quetomen.Portantosiunavariablecuantitativatomavaloresenunconjuntofinitoo infinito numerable, careciendo de sentido valores intermedios, la denominaremos variable discreta. Ahora si una variable cuantitativa toma valores en un rango o intervalo (es decir, sidadosdosvalorescualesquieradelavariable,siempreexisteunvalorintermedio) diremos que ella es una variable continua. Porotrolado,lasvariablessexoygradosenlejercitosonvariablescualitativas.La variablesexotomalosvaloresmasculinoyfemenino,encambiolavariablegradosdel ejercitopuedetomarlosvaloressoldado,suboficial,oficial.Ladiferenciaentreambas variables es que en grados del ejercito existe un orden jerrquico, propio de la variable. De esta manera, si una variable cualitativa tomavalores en un conjunto donde los valores son solo nombres, la llamaremos variable nominal, y si adems estos nombres tienen un orden propio o jerarqua la llamaremos variable ordinal. Haysituacionesenquenecesitamosinformacinsobrelosvaloresdeciertasvariablesde intersen cada uno delos elementos dela poblacin. Por ejemplo,la estructura exacta de las edades en la poblacin chilena, slo puede conocerse determinando la edad de cada uno deloshabitantesdeChile.Ladeterminacindelosvaloresdeunaomsvariablesde inters, en cada uno delos elementos de unapoblacin, es una actividad quellamaremos censo. La realizacin de un censo es una actividad compleja y costosa. Por ejemplo en el caso de losenvasesdevidrio,deberamosexaminarcadaunodeellos,yestospodranser millones!!.An cuando esto se pudiera realizar, elcosto de una revisin exhaustiva sera tanaltoqueencareceraexcesivamenteelvalordelenvase.Lapalabracensoaparece vinculadanormalmenteconloscensosnacionalesdepoblacin.Estosseefectan,por razoneseconmicas,slocadadiezaos.Enelntertantoesnecesariocontarconla informacinsobrelasituacindelmomento.Lasdecisionesnopuedenbasarsesloenel resultado del ltimo censo, ni pueden esperar a que se realice el prximo. Ademsdelasdificultadesyasealadas,loscensosslomidenvariablesdetipogeneral. Porejemplo,pocoaportanlosresultadosdelltimocensoquesehayarealizado,ala prediccindelcomportamientodelosvotantesenunaprximaeleccin.Ladiscusin anteriorindica,quemuyraramente,esposiblerecolectarinformacincompleta.Tenemos que contentarnos, entonces, coninformacinincompleta o parcial,lo que significa quelos valoresdelasvariablesquenosinteresan,semidensloenalgunoselementosdela poblacin. Se puede preguntar la edad slo a algunas personas, determinar el capital de slo algunasempresas,revisarsloalgunosenvases,etc.Cuandocompramosfrutaesposible, con buena suerte, que podamosprobar algunas de ellas. Es ilusorio pensar que podramos probar todalafrutaantesdecomprarla.Laspersonasalascualesselespreguntalaedad, lasempresascuyocapitalsedeterminan,losenvasesqueserevisan,olasfrutasquese prueban, constituyen ejemplos de lo que denominaremos muestra. La definicin formal de esteconceptoesparticularmentesencilla,yaqueunamuestraesunsubconjuntodela poblacin. El tamao de la muestra es el nmero de elementos que ella contiene y se denota por n. Naturalmente,existeelriesgodequelosvaloresobservadosenlamuestradifieran sustancialmentedelosvaloresdeterminadosenlapoblacincompleta.Esteriesgose acenta silos elementos de lamuestra son seleccionados sin unmtodo claro y utilizando juicios subjetivos, como por ejemplo:Un2mediodeciertocolegiodelacapital,sermedido,porelministeriode educacin,parapoderdeterminarelniveldeconocimientodelosalumnos.Anteesta situacin,laprofesorajefeleindicaalosalumnosderendimientodeficientequeestn autorizadospara faltar a clases el da de la prueba, pero los alumnos de buen rendimiento estn obligados a asistir a clases y rendir la prueba. Los resultados de la prueba representan el rendimiento del curso? Como se puede ver, en realidad, los resultados obtenidos no representan el rendimiento del curso. Llamamos a este problema sesgo de seleccin. Parareduciroeliminaressesgodeseleccinenladeterminacindeloselementosque compondranlamuestra,seutiliza,apropsito,elazar.Deestaformaseeliminala subjetividaddelprocesodeseleccindeestoselementos.Existeunreadelaestadstica preocupada de esto, llamada teora de muestreo. El mtodo ms sencillo para la seleccin de una muestra es elmuestreo aleatorio simple, en el que todos los elementos de la poblacin tienen la misma posibilidad de pertenecer a la muestra.Ahora,silapoblacinseclasificaenunciertonmerodegrupos(llamados estratos) y luego, al interior de cada estrato, se obtiene una muestra por muestreo aleatorio simple, este mtodo de seleccin de unamuestra se denominamuestreo estratificado. En laprctica,losmtodosdeseleccinempleadossuelensermscomplejos,perolaidea bsica de uso del azar sigue siendo la misma. 2.2.Tablas de frecuencia. Como hemos mencionado anteriormente, la edad es una variable, en el sentido que cambia de una persona a otra. Sin embargo, unavez seleccionadala persona cuya edad queremos determinar,suedadesunnmerofijo.ParaaclararestaideasupongamosqueClaudia Reyesperteneceaciertapoblacinytiene17aos.Diremosentoncesqueelvalordela variableedad (expresada en aos) para elelemento Claudia Reyes es 17. A estevalorlo llamaremos el dato de Claudia Reyes. Suponga,queenunestudiorealizadoaungrupodetrabajadores,selesconsultporsu nivel de instruccin educacional. Los datos recopilados a estos trabajadores se muestran en la siguiente tabla: TrabajadorNivel de Instruccin TrabajadorNivel de Instruccin 1Bsico11Superior 2Medio12Medio 3Superior13Bsico 4Superior14Bsico 5Bsico15Medio 6Bsico16Medio 7Medio17Bsico 8Medio18Medio 9Medio19Superior 10Superior20Bsico Alconjuntodedatos,lollamaremoslainformacin.Sepuedepensarqueundatoesla informacin de unindividuo en particular. Bueno, a cada dato lo consideraremos comola unidadbsicadeinformacin.Generalmente,lainformacinnopresentaunaimagen valiosa,debidoasuextensinoaldesordenqueestapresenta.Porejemplo,enlatabla anterior se observa lo segundo. Entonces, debemos organizar la informacin de una manera simple y que sea entendible. A estaorganizacinlallamaremostabladefrecuencias,quenosmuestraelcomportamiento de la variable en estudio. La construccin de esta tabla es bastante sencilla y se muestra en el siguiente diagrama: Elnmerodevecesqueserepitecadavalordelavariable,nosindicacuanfrecuentees cadaunodeestosvalores.Aestacantidadlallamaremosfrecuenciaabsoluta(in ). Notemosquesimeslacantidaddevaloresposiblesdelavariable,entoncesn n n nm = + + + 2 1queeseltotaldedatos.Laproporcin,correspondealoque llamaremosfrecuenciarelativa(if )yescalculadacomo nnfii =.Lasumadelas frecuenciasrelativasdebedar1.Elporcentajenoesmsque% 100 *if ylasumade estos debe dar 100%. La tabla de frecuencias, para la variable nivel de instruccin de los trabajadores, queda: Enestatabladefrecuenciasehasuprimidolacolumnadefrecuenciasrelativas,porser redundante, ya que est la columna de porcentajes. La tabla anterior se aplica a variables cualitativas, tanto nominales como ordinales, como a Nivel de Frecuencia PorcentajeInstruccin AbsolutaBsico 7 35Medio 8 40Superior 5 25Total 20 100 variables cuantitativas discretas. En cambio paravariables cuantitativascontinuas,la tabla sefrecuenciasseconstruyedemaneradiferente.Paraaclararideas,consideremosel siguiente ejemplo: Sequiereestudiarelcomportamientodelasnotasobtenidaspor20alumnosdela universidad en la primera ctedra. La informacin recopilada se muestra a continuacin: Siseconsideralavariablenotacomovariablediscreta,entonceslatabladefrecuencia tendra tantasfilas como datos, a que nos referimos con estos, en este ejemplo tendramos 17filas.Imaginensienvezdeser20alumnosfuesen500,enestecasolatablade frecuenciatendraalomenosunas300filas.Estonosconduceadesarrollarherramientas para este caso tan especial. Valelapenarecordarqueunavariablecontinuatomavaloresenunintervaloorangode valores.Enelejemplodelasnotasdelos20alumnos,esteintervaloesde3,1a7,0.La ideanaturalesdividiresteintervalo,enintervalosmspequeos.Pararealizaresto,se debencontestarlassiguientespreguntas:Encuntosintervalosdebemosdividirel intervalo? y Cul es la amplitud o largo de cada uno de estos intervalos?.La respuesta a la primera pregunta debiese ser dada por el investigador. Si no es as se puede usar alguna de las siguientes aproximaciones: a)Algunos autores consideran que una buena aproximacin para la cantidad de intervalos es dada porn m= . AlumnoNotaAlumnoNotaAlumnoNotaAlumnoNota 16,265,7114,9166,8 24,876,4123,1174,7 33,885,4133,8185,5 44,696,3145,5197,0 54,4104,8155,1204,2 b)OtrosautoresprefierenusarlafrmuladeSturger(1926)paraobtenerlacantidadde intervalos, la que es)] ( log * 3 , 3 [ 110n m + =Apesardeexistirdiferenciaentreambasaproximacionescuandolacantidadde informacinespequea,paragrandescantidadesdedatoslosresultadosdeambas expresiones son similares. Unavez determinadala cantidad deintervalosm, se debe contestarlasegunda pregunta. Se usar como norma quela amplitud de cada uno de estos intervalos eslamisma,lo que conduce a la siguiente expresin matemtica: mMnimo Mximoc= dondec es la amplitud de cada intervalo. No siempre, la amplitud de los intervalos es constante. Hay muchas situaciones en las que la asignacin de los largos de los intervalos es dada por el investigador. As,lacantidaddeintervalosenquedebemosdividirelintervalode3,1a7,0es 5 )] 20 ( log * 3 , 3 [ 110= + = m ylaamplituddecadaunodeelloses 78 , 051 , 3 0 , 7== c. Con esta informacin se construyen los intervalos: 3,884,665,446,22 7,00 | | || || 3,10 3,10+0,783,88+0,784,66+0,785,44+0,78 Deestamanera,enlatabladefrecuencias,losvaloresquetomalavariablesonlos intervalosquesehanconstruido.Lasfrecuenciasabsolutascorrespondenalacantidadde datos que caen en cada intervalo. La columna de frecuencias relativas sigue igual que antes. Peroseincorporandosnuevascolumnas,correspondientesalasfrecuenciasacumuladas absolutasyrelativas.Lafrecuenciaabsolutaacumulada(iN)representalacantidadde datos,queestn,acumuladoshastacadaunodelosintervalos,esdecir, i in n n N + + + = 2 1.Lafrecuenciarelativaacumulada(iF )correspondeala proporcindedatosacumuladoshastacadaunodelosintervalosysecalculacomo iiif fnNF + + = = 1. Unavezconstruidalatabladefrecuencias,sepensarquelainformacinoriginal desaparece, como por arte de magia, entonces se produce ya un resumen de la informacin, porqueadiferenciadelcasodevariablescualitativasodiscreta,sepuedereconstruirla informacinoriginal.Noasenelcasocontinuo.Porlotantoesnecesarioobtenerun representantedecadaintervalo.Dichorepresentantesellamarmarcadeclasey corresponderalamitaddecadaintervalo,esdecir, 2

i iiInf Lim Sup LimClase Marca+=,donde iInf Limy iSup Limsonellmite inferior y superior, respectivamente, de intervalo i -simo. La tabla de frecuencias, para el estudio de las notas de los 20 alumnos queda: 2.3. Representacin grfica Al comn de las personas, les es muy difcil la comprensin e interpretacin de una tabla de frecuencias. Por esto se recurre a la representacin grfica. Los mtodos grficos poseen la ventaja de hacer ms rpida la comprensin de la informacin y es slo una forma distinta demostrarloquesedesprendedelatabladefrecuencias.Esimportantedestacarque cuando se elabora una representacin grfica no existe solamente una respuesta correcta. El Nota Marca de Frecuencia Frecuencia Frec. AbsolutaFrec. RelativaClase Absoluta Relativa Acumulada Acumulada3,10-3,88 3,49 3 0,15 3 0,153,88-4,66 4,27 3 0,15 6 0,304,66-5,44 5,05 6 0,30 12 0,605,44-6,22 5,83 4 0,20 16 0,806,22-7,00 6,61 4 0,20 20 1,0020 1,00 juiciodelanalistaylascircunstanciasquerodeanelproblemadesempeanunpapel primordial en el desarrollo de esta. Unaempresatabacalerarealizaunestudiodemercado,paradeterminarcualeseltipode cigarrilloqueprefierenlosconsumidores(fumadores).Paraesteestudioseconsiderauna muestra de 110 fumadores y se examina la marca del cigarrillo. La informacin es resumida en la siguiente tabla de frecuencias: La representacin grfica de la informacin en la tabla de frecuencias anterior, es mostrada en las siguiente figura: Estegrficorecibeelnombredegrficodebarrasseparadas.Comoseapreciaeleje horizontal es el eje de los valores de la variable, mientras que el eje vertical es el eje de la frecuenciaabsolutafrecuenciarelativaelporcentaje.Esimportanterecalcarquelos anchosdelasbarrasdebeserelmismo,yaquepuededistorsionarlainformacinquese quiere mostrar. Otro grfico til para este tipo de dato, es el grfico circular de torta: Marca de Frecuencia PorcentajeCigarros AbsolutaKent 22 20,00Belmont 27 24,55Derby 31 28,18Viceroy 30 27,27Total 110 100,00 Latortacompletarepresentael100%delainformacinycadasectorrepresentael porcentaje que le corresponde a cada valor de la variable. Estegrfico,comoeldebarrasseparadas,indicaqueloscigarrillospreferidosporeste grupo de fumadores son elDerbyy el Viceroy (55,45%), mientras que elmenos preferido es el Kent. Paraelcasodeunavariablecuantitativaagrupadaenintervalos,comoelejemplodelas notas de los 20 alumnos visto anteriormente, se realizan los siguientes grficos: Porcentaje de fumadores segn marca de cigarro KENT 20% BELMONT 25% DERBY 28% VICEROY 27% Adiferenciadelgrficodebarrasseparadasvistoanteriormente,esteesungrficode barrasjuntas. Este grfico recibe elnombre tcnico de histograma, donde el ejehorizontal delgrficosecolocanlosintervalosyenelejeverticallafrecuenciaabsolutala frecuenciarelativaelporcentaje,siendolaalturadelabarraslafrecuencia correspondiente a cadaintervalo. Ntese que los anchos delosintervalos soniguales, esto se debe a que por construccin la amplitud de los intervalos es la misma. Otro grfico que presentalamismainformacinqueelhistograma,eslapoligonaldefrecuencia,laquees mostrada en la siguiente figura: Laconstruccindeestafigurasebasaenunirlospuntosmediosdelapartesuperiorde cadaunadelasbarras.Esimportantedejarquebajeaceroyestosepuederealizardela siguiente manera, se construye un intervalo a la derecha del mximo (de igual amplitud que el ltimointervalo)y se une el punto medio dela ltimabarra con el punto medio de este intervalo.Anlogamente,seconstruyeunintervaloalaizquierdadelmnimo(deigual amplitud que el primer intervalo) y se une el punto medio de la primera barra con el punto mediodeesteintervalo.Comosemencionoenelprrafoanterior,estafiguracontienela misma informacin que el histograma y se debe a la forma en que se construye. 2.4.Medidas descriptivas. Llamaremosmedidasdescriptivaresmenes,aaquellascantidadesqueresumenla informacinyen algn sentido sean representativos del conjunto de datos.En el riguroso sentido,lasmedidasdescriptivasrecibenelnombredeestaddrafos,cuyosvaloresson obtenidosatravsdelosdatos.Estasmedidasdescriptivassedividenentrescategoras como se muestra enel siguiente esquema: Medidas de tendencia central y posicin Medidas de dispersinMedidas de forma Moda Promedio Mediana Percentiles Rango Rango intercuartlico Varianza Desviacin estndar Coeficiente de variacin Coeficiente de asimetra Coeficiente de Curtosis En este escrito, se estudiaran las medidas de tendencia central y posicin como las medidas de dispersin. Los otros tipos de medidas se dejan al lector. 2.4.1.Medidas de tendencia central y posicin. Las medidas de tendencia central, como su nombre lo indica, nos describen el centro de la informacin. Dentro de estas medidas la ms conocida es el promedio o media aritmtica. Lamoda( ) Mo ,esaquelvalordelavariableenestudio,quemsserepiteoquetiene mayor frecuencia.En el ejemplo de nivel de instruccinde los 20 trabajadores,se observa quelomsfrecuenteeselniveldeinstruccinmedio,porlotantolamodaesnivelde instruccinmedio.EnelejemplodelamarcadecigarrillolamodaeslamarcaDerby. Ahora, en el ejemplo delas 20 notas, lo que se obtiene es unintervalomodal, que en este casoeseltercerintervalo[4.66,5.44).Entonces,enelcasodedatosagrupadosen intervalos la moda es una aproximacin. La pregunta natural es cual aproximacin se debe usar. En la mayora de los libros de textos la moda es aproximada de la siguiente manera: ii i i ii iicn n n nn nInf Lim Mo ||.|

\| + + =+ ) ( ) () ( 1 11, donde iInf Limesellmiteocotainferiordeintervalomodal, in eslafrecuencia absolutadelintervalomodal, 1 in eslafrecuenciaabsolutadelintervaloanterioral intervalo modal, 1 + ines la frecuencia absoluta del intervalo siguiente al intervalo modaly ices la amplitud del intervalo modal.As, la moda en el problema de las notas de los 20 alumnos es 128 . 5 78 . 0) 4 6 ( ) 3 6 () 3 6 (66 . 4 = ||.|

\| + + = Mo. Una observacin importante es que la moda puede no existir. Considere los siguientes datos recopiladosa8estudiantesdelauniversidadsobrelacantidaddehijosensugrupo familiar: 1, 1, 2, 2, 3, 3, 4, 4. Como se aprecia, bajo la definicin de moda, en este caso, no existe moda. Adems puede ocurrir que exista ms de una moda, y en estos casos se hablara de multimodalidad. Elpromedioomediaaritmtica ( ) X ,talvez,eslamedidadetendenciacentralms conocida,laqueescalculadasumandotodoslosvaloresdelavariableenestudioy dividiendo por el total de datos. Formalmente, si nx x x , , ,2 1son los valores observados deunavariableX ,entonceselpromedioseexpresamatemticamentepor nxXnii ==1.Considerelasiguienteinformacin obtenida alconsultara 5individuos: 6, 3, 8, 6y 4. La media de estos 5 sujetos es 4 . 558 6 6 4 3=+ + + += X.La interpretacin del promedio sepuederepresentardelasiguientemanera:cadadato,enelejemploanterior,es representadoporpequeoparaleleppedoyelejerealseconsideracomotabla,donde colocamoscadaunodelosdatossobreella.Lasiguientefiguramuestralasituacin anterior: Como se aprecia, si se coloca el punto de apoyo a la izquierda del 3 la tabla se inclina hacia laderecha.Anlogamentesisecolocaelpuntodeapoyoaladerechadel8latablase inclina hacia la izquierda, por lo tanto la idea es buscar un punto de apoyo donde la tabla se mantenga en equilibrio, bueno el promedio es ese punto de poyo. Por eso en muchos textos, el promedio es interpretado como un punto de equilibrio o un centro de gravedad. Qu pasa si los datos estn agrupados en intervalos, como el ejemplo de las notas de los 20 alumnos?. Recordemos la informacin: Lamentablemente, no disponemos delainformacin original. Pero se puede pensar por un momento, quelamarca de clase de cadaintervalo, es el dato observado. Entonces deesta manera se puede reconstruir la informacin de la siguiente manera:6.61 6.61, 6.61, 6.61, 5.83, 5.83, 5.83, 5.83, 5.05, 5.05,5.05 5.05, 5.05, 5.05, 4.27, 4.27, 4.27, , 49 . 3 , 49 . 3 , 49 . 3 as,. 167 . 5204 61 . 6 4 83 . 5 6 05 . 5 3 27 . 4 3 49 . 3= + + + + = X Lgicamente,la informacinanteriornoeslareal,perocuntasvecesnoseobtienenverdadesde mentiras?,entodocasoelpromediocalculadodeestamaneraesunaaproximacinal Nota Marca de Frecuencia Frecuencia Frec. AbsolutaFrec. RelativaClase Absoluta Relativa Acumulada Acumulada3,10-3,88 3,49 3 0,15 3 0,153,88-4,66 4,27 3 0,15 6 0,304,66-5,44 5,05 6 0,30 12 0,605,44-6,22 5,83 4 0,20 16 0,806,22-7,00 6,61 4 0,20 20 1,0020 1,00 promedio real. La idea anterior permite dar la siguiente expresin para calcular el promedioen el caso de datos agrupados en intervalos: nn clase marcaXmii i ==1 dondem es la cantidad de intervalos. Lamediana( ) Me ,esaquelvalordelavariablequeocupalaposicincentralcuandolos datos estn ordenados de menor a mayor. En forma tcnica se define como aquel valor de la caractersticaenestudioquedejabajosal50%delainformacin.Lasiguientefigura muestra la definicin anterior: Sean nx x x , , ,2 1 losvaloresobservadosdeunavariableX .Generalmentelosdatos vienendesordenados,asqueloprimeroquesedeberealizaresordenarlosdemenora mayordigamos ( ) ( ) ( )max min2 1= s s s =nx x x .Entonceslamedianasedefine como: ( )( ) ( )+=++par es si,2impar es si ,12 221nx xn xMedianan nn Imagine que la informacin observada es 6, 3, 8, 5 y 3. Ordenando la informacin de menor a mayor queda3, 3, 5, 6 y 8. Como la cantidad de datos es impar debemos encontrar aquel dato que ocupa la posicin 321 521=+=+ n,que corresponde al valor 5, por lo tanto la 5 = Mediana .Ahoraconsiderelasiguienteinformacin:9,6,7,9,10y8.Ordenando losdatosdemenoramayorqueda6,7,8,9,9y10.Comolacantidaddedatosespar debemosencontrarlosdatosqueocupanlasposiciones3262= =ny4 12612= + = +n, quecorrespondenalosdatos8y9,aslamedianaes 5 . 829 8=+= Mediana.Enel casodedatosagrupadosenintervalos,lamedianasercalculadausandoelsiguiente algoritmo: i.Determinarlaposicinquelecorrespondealamedianacomo 2 10050 nn Posicin = = ii. Determinarenqueintervalocaelamediana,comparandolaposicinobtenida en i) y la columna de las frecuencias absolutas acumuladas. iii.La mediana se calcula como: iii inc nN Me |.|

\| + =12Inf lim , donde iInf limes el lmite o cota inferior del intervalo en que esta la mediana (obtenido en ii.); ices la amplitud del intervalo en que esta la mediana; ines la frecuencia absoluta del intervalo en que esta la mediana y 1 iNes la frecuencia absoluta acumulada del intervalo anterior al intervalo en que esta la mediana. Para aprender a aplicar el algoritmo anterior, se ver con detalles en el ejemplo de las notas de los 20 alumnos. En el paso i. Se tiene que la posicin que le corresponde a la mediana es 10. En el paso ii. recordemos la tabla de frecuencias. Como se aprecia, la posicin 10 cae en el tercer intervalo, por lo tanto la mediana es ( ) 18 . 5678 . 06 10 66 . 4 = + = Me Los percentiles, son cantidades que tienen la caracterstica de acumular informacin hasta ellos.Paraaclaraideas,imaginequelainformacinladividimosen100partesiguales dondecadaunadelaspartescorrespondeaun1%deinformacin,comomuestrala siguiente figura: Comoseaprecia, 1P esaquelvalordelavariablequetieneacumuladoel1%dela informacin, 2Pes aquel valor de la variable que tiene acumulado el 2% de la informacin, ,y 99P esaquelvalordelavariablequetieneacumuladoel99%delainformacin. Con esto, se define el percentil o %( )oPcomo aquel valor de la variable en estudio que dejabajosalo%delainformacin.Paracalcular oP sedeberealizarelsiguiente procedimiento: a)Ordenar los datos del ms pequeo al ms grande. b)Calcular 100o n . c)Si en el paso 2 se obtiene un entero, digamos,k n = 100o.Entonces el percentil o % es el promedio de los datos que ocupan la posicinky la posicin 1 + k .Si en el paso 2 se obtiene un nmero con decimales, digamosdecimal k n .100 = o. Entonces el percentil o %, es el dato que ocupa la posicin1 + k . Enunestudiorealizadoa10familias,seobtuvoelingresobrutomensual(expresadoen salariosmnimos):12,16,18,20,28,30,40,48,50y54.Sequiereencontrarelingreso mnimo del 30% de los ingresos ms altos. Para aclara ideas observe la siguiente figura: Porlotanto,sedebecalcularelpercentil70%.Comolosdatosyaestnordenadosse calcula7100701010070= = n .Comonosdaunavalorentero,debemospromediarlos datos que ocupan las posiciones 7 y 8, es decir44248 4070=+= P . Por lo tanto, el ingreso mnimo del 30% de los ingresos ms altos es de 44 sueldos mnimos. Enelcasodedatosagrupadosenintervalos,elpercentilo%escalculadousandoel siguiente algoritmo: i.Determinar la posicin que le corresponde al percentil o %100o = n Posicinii. Determinarenqueintervalocaeelpercentilo%,comparandolaposicin obtenida en i) y la columna de las frecuencias absolutas acumuladas. iii.El percentil o %es calculado por: iii incn N P |.|

\| + =1100Inf limoo, donde iInf lim esellmiteocotainferiordelintervaloenqueestaelpercentilo% (obtenido en ii.); ices la amplitud del intervalo en que el percentil o %; ines la frecuenciaabsolutadelintervaloenqueestaelpercentilo%y 1 iN esla frecuenciaabsolutaacumuladadelintervaloanterioralintervaloenqueestael percentil o %. Para aprender a aplicar el algoritmo anterior, se ver con detalles en el ejemplo de las notas delos 20 alumnos. Imagine que se quiere calcular lanota mnima del 40% delasmejores notas.Asalaplicarelalgoritmoanteriorsetienequeenelpasoi.laposicinquele corresponde al percentil 60% es 12. En el paso ii. recordemos la tabla de frecuencias. Como se aprecia, la posicin 12 cae en el tercer intervalo, por lo tanto el percentil 60% es( ) 44 . 5678 . 06 12 66 . 460= + = P .Porlotanto,lanotamnimadel40%delasmejores notas es 5.44. Se deja al lector, investigar que son los cuartiles, deciles y quintiles. 2.4.2.Medidas de dispersin o de variabilidad Las medidas de dispersin o de variabilidad, como su nombre lo indica, son cantidades que describencuancercanosoalejadosestnlosdatos,esdecircuanhomogneoso heterogneos son los datos. La siguiente figura muestra este problema. Comosepuedeapreciar,paradeterminarcuanseparadoestelconjuntodedatos,las medidas de dispersin, deben estar relacionadas conlaidea de distancia. Porque, a menor distancia, los datos son homogneos y a mayor distancia los datos son heterogneos. La medida ms simple para medir dispersin es elrango ( ) R , que ya se ha estudiado. Una delasdificultadesdelrangoesquedependedelosvaloresextremosyporlotantono siemprereflejaadecuadamenteladispersinexistenteenlosdatosyaquetiendeasobre estimarla.Paraevitardesobreestimarladispersin,seutilizaelrangointercuartlico ( ) RIque es el rango del 50% central de los datos, es decir, es la distancia entre75Py 25P , como se muestra en la siguiente figura. Por lo tanto, el rango intercuartlico es calculado por 25 75P P RI = . As, en el ejemplo de las notas de los 20 alumnos, el rango es9 . 3 = Ry el rango intercuartlico es63 . 1 = RI . Otramedidadedispersineslavarianza( )2S ,quemidelaheterogeneidaddelosdatos considerando un punto de referencia quees el promedio.Seannx x x , , ,2 1 losvalores Nota Marca de Frecuencia Frecuencia Frec. AbsolutaFrec. RelativaClase Absoluta Relativa Acumulada Acumulada3,10-3,88 3,49 3 0,15 3 0,153,88-4,66 4,27 3 0,15 6 0,304,66-5,44 5,05 6 0,30 12 0,605,44-6,22 5,83 4 0,20 16 0,806,22-7,00 6,61 4 0,20 20 1,0020 1,00 observados de una variableX . La varianza, se define como( )==niiX xnS12211. Esta cantidadsepuedecalcularcomo( ) ||.|

\|==21221XnxnnSnii,donde =niinx12esel promedio de los cuadrados. Para aclarar ideas considere los siguientes datos: 1, 3, 5, 6 y 10. El promedio de estos datos es 5510 6 5 3 1=+ + + += X y el promedio de los cuadrados es 2 . 34510 6 5 3 152 2 2 2 2 512=+ + + +== iix.Porlotantolavarianzaes ( ) ( ) 5 . 11 5 2 . 34452 2= = S .Enelcasodedatosagrupadosenintervaloslavarianzaes ( )( ) ||.|

\|== = =mii imii iXnx nnnnX x nS1221221 1-,dondemeslacantidadde intervalos y ixes la marca de clase del i-simo intervalo. En el ejemplo de las notas de los 20 alumnos: Lanotapromedioyelpromediodeloscuadradosson:167 . 5 = X y7489 . 27 2061 . 6 4 83 . 5 4 05 . 5 6 27 . 4 3 49 . 3 3202 2 2 2 2 512= + + + + == ii ix n Entonces la varianza es ( ) ( ) 10633 . 1 167 . 5 7489 . 2719202 2= = S. Unodelosproblemasdelavarianzaesquesilavariableenestudioeslaestaturayla unidad de medida es el metro, entonces, la unidad de medida de la varianza es (metro)2, si la variable en estudio es el peso y la unidad de medida es kilogramo, entonces, la unidad de medida delavarianza es (kilogramo)2. Para evitar esta dificultad seinventaladesviacin estndardesviacintpica,laquesedefinecomolarazcuadradadelavarianza,es decir, 2S S =.Comoseaprecia,launidaddemedidadeladesviacinestndaresla unidad de medida de la variable en estudio.En el ejemplo de las notas de los 20 alumnos, la desviacin estndar es0518 . 1 10633 . 1 = = S . Una de las grandes dificultades de las medidas de dispersin, que hasta el momento se han estudiado, es que dependen de la unidad de medida de la variable en estudio.Debido a esta dificultad,seinventaelcoeficientedevariacin.Elcoeficientedevariacinsedefine como XSCV =.Comoseaprecia,estamedidadedispersinesadimensionalysi multiplicamos 100 por el coeficiente de variacin, tenemos el porcentaje de variabilidad, es decir,% 100 CV . Algunos autores, proponen la siguiente clasificacinpara determinar si los datos son homogneos o heterogneos: os. heterogne muysondatos Los % 50 % 100 Si )os. heterogne sondatos Los % 50 % 100 25% Si ). homogneos sondatos Los % 25 % 100 5% Si ). homogneos muysondatos Los % 5 % 100 Si ) > s < s < s CV dCV cCV bCV a Enelejemplodelasnotasdelos20alumnos,elcoeficientedevariacines 2036 . 0167 . 50518 . 1= = CV ,elporcentajededispersinesdeun20.36%.Segnla clasificacin anterior se concluye que las notas de los 20 alumnos son homogneas. 2.5.Transformacin Lineal. Existen situaciones donde las cantidades calculadas no son las que se utilizan. Considere la siguientesituacin:...Ustedrealizaunestudiosobreelcalentamientoglobal,utilizando comounidaddemedidagradosCelsius.Ahora,unimportanteinvestigadorloinvitacon todos los gastos pagados a Estados Unidos, para que en un congreso internacional, que trata sobreelcalentamientoglobal,ustedexpongalosresultadosobtenidosensutrabajo. Lamentablemente,comosepuededarcuenta,enEstadosUnidosseutilizangrados Fahrenheit,loqueimplicararehacertodoeltrabajo....Acontinuacinseentregan resultados, cuando se realiza una transformacin lineal a los datos. Sean nx x x ...... ,2 1, las observaciones de una variableX , la pregunta es, Qu pasa con las cantidades calculadas, si a los datos, se les multiplica por una constante y luego se les suma otra?, es decir, ixse transforma en b x ai + (cona= 0)en todas las observaciones. Por ejemplo,seestudianlasestaturasde20alumnosdelauniversidad,losresultadosson resumidos en la siguiente tabla de frecuencias: Estatura (cm) Marca de Clase Frecuencias Absolutas ) 166 ; 161 [ 163,52 ) 171 ; 166 [ 168,55 ) 176 ; 171 [ 173,56 ) 181 ; 176 [ 178,52 ] 186 ; 181 [ 183,55 Total20 Lamedia,mediana,varianza,desviacinestndaryelcoeficientedevariacinson mostrados en la siguiente tabla: Promedio25 , 174 = X cm Percentil 50 5 , 17350 = P cm Varianza45,462= S cm2 Desviacin Estndar6,74 = S cm Coeficiente de variacin 25 , 17474 , 6= CV =0.0387 Aestosalumnosselesdarungolpevitamnico,quesesabequeaumentaenun1%(01 . 1 = a )susestaturas,ms3centmetros(b=3).Lapreguntaes,Qupasaconel promedio,mediana,varianza, desviacin estndary coeficiente de variacin delasnuevas estaturas?. Elsiguientecuadro, resumeelcambiodelosindicadores,silasobservacionessufrenuna transformacin lineal. TransformacinIndicadorInicialModificado ixse transforma enb x ai + *Promedio Xb X a + ModaMo b Mo a + Percentil o% oP b P a + o Varianza 2S2 2S a Desviacin Estndar S S a Coeficiente de variacin XSCV =| | b X aS aCV+ = Al aplicar estos resultados al problema planteado anteriormente se tiene que:3 y 01 , 1 = = b aDatos agrupados en la tabla de frecuencias TransformacinIndicadorInicialModificado ixse transforma en3 * 01 , 1 +ixPromedio25 , 174 = X 178,99 Percentil 505 , 17350 = P 178,235 Desviacin Estndar 6,74 = S 6,8074 Coeficiente de variacin 25 , 17474 , 6= CV =0.0387 = CV 0.0380 Algunas transformaciones tiles ocurren cuando corresponde en aumentar o disminuirun ingresoenunporcentajep,msunvalorfijob,loqueequivaleatransformar ix porb x pi + ) 100 / 1 ( , por ejemplo al aumentar un ingreso en un 25% y sumarle 30.000 por conceptodelocomocinmensualmente,loqueequivaleatransformar ix por= + + 000 . 30 ) 100 / 25 1 (ix 000 . 30 25 , 1 + ix .Otroejemploescuandosedisminuyeun ingreso en un 10% por ajuste y quitarle 6.000 para fiestas de navidad mensualmente,lo que equivale a transformar ixpor = 000 . 6 - ) 100 / 10 - 1 (ix 000 . 6 - 9 , 0ix . 2.6.Problemas Resueltos. 1.La siguiente informacin corresponde a los gastos mensuales en publicidad, expresados en millones de pesos, de un grupo de empresas de una determinada industria: Gastos (en millones de pesos) Nmero de empresas 2 56 5 810 8 1114 11 1412 14 178 17 -205 a)Determine y clasifique la variable de inters b)Cul es el gasto mensual en publicidad que se observa con mayor frecuencia? c)Cul es el promedio de gastosmensual en publicidad de las empresas? d)Calcule e interprete 84Pe)Cuntasempresastienenungastocomprendidoentre$6.2millonesy$12.7 millones? f)Determine la desviacin estndar y el coeficiente de variacin de los gastos Solucin : Construyamos la tabla de frecuencias Gastos (millones de $) Marca de clase iniNifiFif *100 iF *100 2 53.5660,110,111111 5 86.510160,180,291829 8 119.514300,250,542554 11 1412.512420,220,762276 14 1715.58500,150,911591 17 2018.55550,091.009100 Total551.00100 a)La variable de inters es Gastos, y es una variable cuantitativa continuab)Ubicacindelamoda(intervaloconmayorfrecuencia),esdecir,i=5(in =14), entonceslamodaesMo= ( )( ) ( )10 3648 312 - 14 10 - 1410 - 148 = + = ++ ,Luegoel gasto mensual que ms se repite es de 10 millones de pesos. c)65 . 10555 . 18 * 5 5 . 15 * 8 5 . 12 * 12 5 . 9 * 14 5 . 6 * 10 5 . 3 * 6=+ + + + += X Luegoelgasto promedio mensual de las empresas es de 10.650.000 d) ( )575 . 1583) 42 -10084 55( 1484= + = P ,asel84%delasempresasrealizanungasto mensual en publicidad menor a $15.575.000pesos e)Primerodeterminamoselporcentajedeempresasquetienenungastomenora6.2 millones, digamos x, luego determinaremos el porcentaje de empresas que tienen un gastomenora12,7millones,digamosy,finalmenteelporcentajedeempresaque gastan entre 6.2 y 12.7 millones ser,y-x% . Para el Clculo de x%= Px6.2 (enelintervalo2delavariable),as, 103) 6 -100* 55( 5 2 . 6x+ = ,deloquese desprende, que x=18.2%. De la misma forma para y% ,= PY12.7 (en el intervalo 4 delavariable),entonces 123) 30 -100* 55( 11 7 . 12y+ = ,deloquesedesprende,que y=66.9%.finalmenteel66.9%-18.2%=47.7%,esdecir,un47,7%delas empresas gastan entre 6.2 y 12.7 millones, lo es equivalente decir que, 26 empresas (0.47*55) gastan entre 6.2 y 12.7 millones f)Lavarianzamuestrales2 . 192= S ,yporlotanto,ladesviacinestndarmuestrales 4 , 42= = S Smillones de pesos y finalmente el coeficiente de variacin es C.V. = 65 . 10 4 , 4= 0,41 , es decirhayun 41% de dispersin,lo que nosindica quelos datos son heterogneos. 2.UnalneaAreatransportaba,entrminomedio,encadavuelo72pasajeros.Para aumentar la cantidad media de pasajeros, hace seis meses atrs , contrato a una Agencia de Publicidad para realizar un nuevo comercial para Diarios y Televisin. Para verificar la llegada del comercial, se recopil la siguiente informacin: Cantidad de Pasajeros Nmero de Vuelos 50 603 60 707 70 8018 80 9012 90 1008 100 1202 a)En base a estos resultados Usted dira que el comercial ha sido efectivo? b)Si la lnea area quiere utilizar esta informacin para predecir los prximos 50 das y decide eliminar el 25% de los vuelos con menor nmero de pasajeros, Cul sera el mnimo nmero de pasajeros que la lnea area permitira por cada vuelo? c)Determine la Mediana e interprete su valor d)Construya un grfico adecuado para la distribucin anterior. Solucin : Construyamos la tabla de frecuencias Cantidad de Pasajeros Marca de clase iniNifiFif *100 iF*100 50 6055330,060,0666 60 70657100,140,201420 70 807518280,360,563656 80 908512400,240,802480 90 100958480,160,961696 100 1201102500,041.004100 Total501.00100 a)4 . 7950110 * 2 95 * 8 85 * 12 75 * 18 65 * 7 55 * 3=+ + + + + += X Suponiendo,quenoexistenotrosfactoresqueafectenlacantidaddepasajeros, podramosdecir,queelcomercialhatenidoefecto,queseobservaenelaumento promedio de 72 a 79,4. b) La cantidad de pasajeros que acumula el 25% de los vueloscorresponde al percentil 25 elquevale( )4 . 711810) 10 -10025 50( 7025= + = P .Lacantidadmnimadepasajerosque permitira cada vuelo ser de 72 pasajeros (aproximadamente). c)Lamedianaes3 . 781810) 10 -250( 70 = + = Me .Enel50%delosvuelos,se transportan 78 o menos pasajeros. d)Al graficar el histograma con las frecuencias relativas se obtiene la siguiente figura: 3.Se realiz un estudio enla 1 plaza de peajesaliendo de Santiago hacia elnorte, enla fecha del 16y 17 de Septiembre con respecto a las siguientes variables: X =Nmero depersonasqueviajandentrodecadavehculoquefueencuestado.Y=Montoen milesdepesosdestinadoagastos.Z=SielvehculoenqueviajanesP=propioo A=arrendado. Obteniendo los siguientes datos que se dan a continuacin: Gastos (miles de pesos) 0 100100 150150 300300 500 N de personas PAPAPAPA 1 2 3 4 2 3 3 1 3 2 2 3 3 4 2 5 3 5 2 4 2 4 7 6 8 7 6 5 3 0 5 0 4 0 7 2 a)Clasifique las variables en estudio. b)Determineunamedidadetendenciacentraladecuadapararesumirlasvariables monto destinado a gastos y al nmero de personas que viajan en vehculos propios. c)Grafique la distribucin de frecuencias absolutas de la variable vehculo propio d)Siparaelprximoaosehaestimadoqueelmontodestinadoagastosdefiestas patriasaumentarenun10%ms30milpesos.Comparelahomogeneidaddel 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 5565758595 Frecuencias relativas Marca de Clase(Cantidad de Pasajeros) Histograma de frecuenciasrelativas montodestinadoagastosactualconelestimadoparaelprximoao,solamente para los que en vehculos arrendados viajan con tres personas. e)Determineentrequvaloresfluctael50%delavariacincentraldelas observacionesdelmontodedicadoagastoparalosqueviajanenvehculo arrendado. Solucin : a)Las variables en el estudio son : X = Nmerodepersonasqueviajandentrodecadavehculoquefueencuestado que es Cuantitativa discreta Y = Monto en miles de pesos destinado a gastos que es Cuantitativa continua Z = SielvehculoenqueviajanesP=propiooA=arrendadoquees Cualitativa b)Consideramos los promediosde ambas variables: -Construyamos una tabla asociada al Monto en miles de pesos destinado a gastos Esta tabla es llamada distribucin marginal de Y= Monto destinado a Gastos. Monto destinado a gastos *iyiniNifiFif*100 iF*100 0 1005019190,170,171717 100 15012528470,250,422542 150 30022545920,400,824082 300 450375211130,18118100 Total1131.00100 25 , 197113375 * 21 225 * 45 125 * 28 50 * 19=+ + + += YLuego, la cantidad promedio destinados a gastos es de 197.250 pesos. -Anlogamente paraNmero de personas que viajan dentro de cada vehculo Esta tabla es llamada distribucin marginal de X= Nmero de personas que viajan dentro de cada vehculo Nmero de personas iniNifiFif*100 iF*100 121210,190,191919 229500,260,442644 332820,280,732873 4311130,271,0027100 Total1131.00100 65 , 21134 * 31 3 * 32 2 * 29 1 * 21=+ + + += XLuego, el nmero promedio de personas que viajan dentro de los vehculo es 2,65. c)LatabladefrecuenciasasociadaalavariableZ,vehculopropio(variable cualitativa), llamada distribucin marginal de Z= Tipo de vehculo es Tipo de vehculo inifif *100 Propio620.5555 Arrendado510.4545 Total1131.00100 Grfico de barras para Tipo de Vehculo d)ConstruyamosunatablaasociadaalMontoenmilesdepesosdestinadoagastos solamente para los que en vehculos arrendados viajan con tres personas. EstatablaesllamadadistribucincondicionaldeY(Montoenmilesdepesos destinadoagastos)dadoqueX=3(Nmerodepersonasqueviajandentrodecada vehculo es tres) Monto destinado a gastos Marca de clase iniNifiFif *100 iF *100 0 10050220,140,141414 100 150125570,360,503650 150 3002257140,501,0050100 Total141.00100 3 , 16414225 * 7 125 * 5 50 * 2=+ += YLuego,lacantidadpromediodestinadosagastosesde164.300pesosparalosqueen vehculos arrendados viajan hasta con tres personas 0 10 20 30 40 50 60 70 PropioArrendado Frecuencias absolutas (Cantidad de vehculos) Marca de Clase(Tipo de vehculo) Tipo de vehculo La varianza muestral par el monto en miles de pesos destinado a gastos para los que en vehculosarrendadosviajanhastacontrespersonases9 . 45872= S ,yporlo tanto,la desviacinestndarmuestrales7 . 672= = S S ,esdecir,67milsetecientospesos. Finalmente Datos agrupados en la tabla de frecuencias TransformacinIndicadorInicialModificado iyse transforma en30 + y * 1 , 1i Promedio3 , 164 = Y 1,1*164,3+30=210,7 Varianza9 , 587 42= S21 , 1 *4587,9=5551,4 Desviacin Estndar 66,7 = S 1,1*66,7=73,4 Coeficiente de variacin 412 , 03 , 1647 , 66= = CV = =7 , 2104 , 73CV 0,348 Se espera que el coeficiente devariacin para elprximo ao seamenor que elactual 0.348vs.0.412,esdecir,losdatosactualessonmsheterogneosquelosquese esperan el prximo ao e)Losvaloresdondefluctael50%delavariacincentraldelasobservacionesdel montodedicadoagastosparalosqueviajanenvehculoarrendado,sonentreel percentil 25(cuartil 1) y el percentil 75 (Cuartil 3) ConstruyamosunatablaasociadaalMontoenmilesdepesosdestinadoagastos solamente para los que viajan en vehculos arrendados. Esta tabla es llamada distribucin condicional de Y (Monto en miles de pesos destinado a gastos) dado que Z=A (Tipo de vehculo es arrendado) Monto destinado a gastos Marca de clase iniNifiF if *100 iF*100 70 10050990,180,181818 100 15012518270,350,533553 150 30022522490,430,964396 300 4503752510,041,004100 Total511,00100 Elpercentil25es4 , 1101850) 9 -10025 * 51( 10025= + = P .Elpercentil75es 7 , 22622150) 27 -10075 * 51( 15075= + = P .Luegoel50%delosdatosseencuentraentre 110400 y 226700. 2.7. Problemas Propuestos. 1.Complete las siguientes aseveraciones a)Elprocesode,organizaryrepresentarlosdatosdemogrficosse llama,..................................................... b)El total de objetos bajo un estudio se llama, ..................................................... c)UnapartedelUniversoescogidaparahacerelanlisisestadstico,sellama, ..................................................... d)Un estudio que examina las caractersticas de la Poblacin en su totalidad se conoce como..................................................... 2.Clasifique las variables de los siguientes problemas a)El nmero de cuestionarios que una persona ha llenado el ltimo ao. b)La Edad en aos cumplidos de una persona c)El Peso de una persona d)La profesin e)La Temperatura en la sala de Clases f)El grado de acuerdo o desacuerdo que se tiene por un poltico. g)Presencia o ausencia de una caracterstica 3.ElcoordinadordeEstadsticaquieredeterminar,culdedoslibrosdebenutilizarlos dos profesores delcursoIntroduccin a la Estadstica?. Parallegar a una decisin, seseleccionan20alumnosencadaunodelasdossecciones(81y82)ycadaseccin entregar10decadalibro.Lainformacinqueserecolectaradelosestudiantesser: Sexo, Edad (en aos), nota Final del semestre y libro utilizado. a)Que dos variables son imprescindibles para el estudio?. b)Que v ariables son cuantitativas?. c)Que variables son cualitativas?. d)Qu variables son discretas?. e)Qu variables son continuas?. 4. La siguienteinformacin fue obtenida al entrevistar a 300 alumnosde la Universidad que trabajan y estudian. Sueldo anual en millones de pesos Frecuencia Relativa1-20.35 2-30.30 3-40.10 4-50.25 Total1.00 a)Identifique y clasifique la variable b)Complete la tabla de frecuencias c)Cuntos estudiantes ganan entre 2 y 4 millones de pesos? d)Que % de los estudiantes gana a lo ms 3 millones? 5.Eldueodeunaempresacreequeelausentismodiarioensuoficinapareceiren aumento. Elaopasadounpromediode47.8empleadosestuvoausentealgunosdas, con una desviacin estndar de 14.7. Se recolect una muestra de 66 das para el ao en curso y se ubicaron en la tabla que se muestra a continuacin. Empleados ausentes Nmero de Das20-305 30-409 40-508 50-6010 60-7012 70-8011 80-908 90-1003 a)Complete la tabla de frecuencias.b)Determine la Moda, la Media y la Mediana del nmero de empleados ausentes. c)Muestre que la desviacin estndar es de 19.7 empleados. d)Enbaseacualdelasmedidasanteriorespodracontestaraldueodelaempresa Cul es su respuesta?. 6.LossindicalistasdelaplantadelaempresaZZZZenvaldivia,argumentanque,en contradelcontratolaboral,lostrabajadoresdelalneadeproduccintienenun promedio salarial por hora menor y con una mayor variabilidad que los trabajadores de oficina.Unamuestrade10 = n setomadecadaclasedetrabajadores,entregandolas siguientes observaciones.

Sujeto (N) Salario por hora Lnea de produccin (miles de pesos) Salario por hora oficina (miles de pesos) 11.21.5 21.81.8 31.91.7 41.51.6 51.81.8 61.61.5 71.51.9 81.81.9 91.91.8 101.81.9 a)Determine, la Media y la Moda en cada grupo b)Muestre que la desviacin estndar de los trabajadores de produccin es 0,23. c)Si la desviacin estndar de los trabajadores de oficina es 0,16 y tomando en cuenta losresultadosobtenidosena)yb)estadeacuerdoconlosdosargumentosdelos sindicalistas 7.La siguiente tabla de frecuencias, entrega las ventas mensuales en miles de pesos de equipos de paracaidismo en una tienda de la zona sur.Ventas en miles de pesosNmero de meses 50-1005 100-1507 150-2009 200-25010 250-3008 300-3503 350-4002 Total44 a)Ustedeseljefedeesatienda,ysugerentelesolicitaunatabladedistribucinde frecuencias de las ventas.b)El gerenteestinteresado enelvalor delaventa, parala cualse obtienen el60% ms bajo de las observaciones,c)Adems, usted siente que sera de utilidad determinar los valores de los percentiles 10, 50 y 90. d)Sielgerentequierequeinvestiguelasfacturasdelosmeses,paraloscualesno superaron los 130.000 pesos de venta Cuntos meses tendr que investigar? . 8.Los vendedores de una empresa comercial fueron clasificados de acuerdo al volumen de dichas ventas en miles de $. Volumen en miles de $ N de Trabajadores 5 153 15 2524 25 4546 45 7527 a)Clasifique e identifique la variable en estudio b)Determine el volumen promedio de ventas. c)Determine el 20% de los mayores volmenes de ventas. d)Siparaelprximomessedeterminaunincrementoenlosvolmenesdeventas dadosporlasiguienteexpresinY=1.2X+100.Determineelcoeficientede variabilidad del nuevo volumen de ventas. 9.Un fabricante desea comparar los tiempos de armado de cierto producto, utilizando el proceso de armado estndar y un nuevo proceso. Para este propsito se seleccionaron 124trabajadoresconhabilidadessimilaresyseasignaronenformaaleatoria62 trabajadoresacadaproceso.Losresultadosobtenidosseresumenenlatabla siguiente:Nmero de trabajadores Tiempo de Armado (seg) EstndarNuevo 15 25 25 35 35 45 45 55 55 60 8 12 16 14 12 12 16 14 12 8 a)Qu grupo es ms homogneo en el tiempo de armado?. b)A nivel descriptivo, Cul mtodo es mejor?. Justifique. c)Quporcentajedelostrabajadoresqueutilizaelmtodoestndardemoramsde medio minuto en armar el producto?. d)Cuntos trabajadoresqueutilizanelmtodonuevosuperanelPercentil25delos que utilizan el estndar?. e)Para un curso de capacitacin se va a elegir al 40% de los trabajadores ms rpidos que utilizan el mtodo nuevo. Qu tiempo de armado deben obtener?. f)Sieltiempodearmadoconelmtodoestndardisminuyeenun10%,calculeel porcentaje de variabilidad. 10.En una empresa se han tabulado los sueldos diarios de 180 empleados: Sueldos en miles de $ Frecuencia Acumulada 15 20 20 25 25 30 30 35 35 40 35 75 130 160 180 La empresa ofrece dos tipos de reajuste: (A)Reajustar en un 15% ms $2120 (B)Reajustar en un 11% ms $3200 a)En total Qu reajuste es ms conveniente a la empresa? b)Calcule la desviacin estndar de los sueldos 11.Lasdistribucionesdesueldosmensualesde200obrerosdedosEmpresasAyBdel mismo rubro son las siguientes (100 obreros en cada una): Empresa A (miles de $) N TrabajadoresEmpresa B (miles de $) N Trabajadores 18 22 22 26 26 30 30 34 34 38 38 42 42 46 45 25 15 7 3 3 2 17 23 23 29 29 35 35 41 41 47 47 53 53 59 38 22 12 3 13 7 5 a)En qu empresa es ms uniforme la distribucin de los sueldos de los obreros?. b)Enla Empresa A, al 40% delos obreros con sueldos ms bajos seles otorgar una bonificacin. Cul es el sueldo mximo que recibir tal beneficio?. c)En la Empresa B, Qu porcentaje de los obreros ganan ms de $44500?. d)DespusdealgntiempolosobrerosdelaEmpresaArecibirnunreajustede $3000ylosdelaempresaBunreajustedel30%.Cmosevenafectadoslos coeficientes de variacin y los resultados de las partes (b) y (c)?. 12.Las primas directas en miles de pesos (X) en 100 contratos de seguros se encuentran clasificadas en la siguiente tabla: Primas (miles de $)N de contratos 0 50 50 100 100 150 150 200 200 250 250 300 300 350 350 400 7 28 20 18 12 8 5 2 a)Obtenga la prima directa mediana e interprete su valor. b)Determine el nmero de contratos que tienen prima directa entre 60 y 180 miles de pesos. c)Sisedecideaumentarlosriesgosdemaneraquetodaslasprimasaumentenenun 12%, determine la nueva prima media y compare el porcentaje de variabilidad antes y despusde aplicada la medida d)Si se clasifican las primas directas segn los siguientes criterios: - Inferior a 150: monto asegurado reducido - 150 a 270 : monto asegurado de bajo riesgo - De 270 a 325 : valor monto asegurado alto - Sobre 325: seguro de alto riesgo Construya un histograma de frecuencias relativas. e)Supongaquesedecideestablecerapriorilosporcentajesdecadacategoradela preguntaanterior(d),delaformaquealfinalsetengaun24%demontos aseguradosreducidos,un50%debajoriesgo,un18%devalormontoasegurado alto y un 8% de seguros de alto riesgo. Qu lmites de primas deberamos poner a estas categoras para conseguir estos porcentajes?. 13. Lossiguientesdatoscorrespondenalosgastosfijosdiariosasignadosapublicidad (X)yalmontodelasventasdiarias(Y)deungrupode40empresasdedicadasal rubro de seguro automotor. a)Clasifique e identifique las variables en estudio b)Calcule medidas de tendencia central que resuman la informacin. c)Qu porcentaje de las empresas gastan en publicidad entre 32 y 67 U.F.? d)Calculeladesviacinestndardelasdosvariablesycompareloscoeficientesde variacin. 14.Enunaempresacomercialseestudiaronlosmontosdelascomprasefectuadas durante el ao anterior (divididos en trimestres) de 100 clientes. a)Clasifique e identifique la variable en estudio b)Si los montos se clasifican de la siguiente forma: - Compras bajas si son inferiores a $150000 - Compras normales si estn entre $150000 y $480000 - Compras altas si son superiores a $480000 - Se pide graficar esta nueva variable (tipo de compra) c)Calculemedidasdetendenciacentralqueresumanlainformacinparalosmontos de las compras del 1 trimestre1.Monto de las Ventas (en U.F.) Gastos fijos (en U.F.)120 140140 - 160160 180180 200 30 50 50 70 70 90 4 2 3 10 8 2 0 6 2 2 1 0 1.Trimestres (en miles de $)PrimerSegundoTerceroCuarto 0 100 100 300 300 500 500 900 8 10 4 10 5 5 6 9 10 6 4 0 2 4 4 0 d)Siparaelprximoaoenel3y4trimestresehaproyectadounaumentodel 12.5% ms $120000 para los montos de las compras. Compare la homogeneidad de ambos aos bajo las caractersticas dadas. Justifique su respuesta. e)Si sesabe que elmonto promedio total delas compras es de $329000 para todo el ao.Determineelmontopromediodelascomprasefectuadasenlosdosprimeros trimestresylavarianzasabiendoqueelporcentajedevariabilidaddelosdos ltimostrimestresesmayorenun7%queelporcentajedevariabilidaddelosdos primeros trimestres. 15.Unaempresaencargadadevendersuministroscomputacionales,harealizadoun estudioconrespectoalacantidadenmilesde$quevende,altipodeempresaalas cualesatiendeyaltipodeinsumos,duranteunmes,obteniendolasiguiente informacin (tipos de empresas: G = Grande, M = Medianas y pequeas). Cantidad en miles de $ que venden Tipos de Insumos Tipo de Empresas 0 5050 100100 110110 200200 300 Papeles G0101243 M01520202 Otros G6310108 M0810108 a)Clasifique e identifique las variables en estudio b)Calculemedidasdetendenciacentralqueresumanlainformacindelavariable cantidad que vende en miles de $, para las empresas Grande y para las empresas Medianas. c)Esta empresa ha realizado un estudio para predecir las ventas del prximo mes, con unincrementodel12.5%ms$105000.Sepidecompararlahomogeneidaddela distribucin de las ventas para ambos meses, slo para las ventas de papeles. d)Sisesabequeelpromediototaldelasventasdeestemesesde$160000,Cul deberaserelpromediodelasventasendichasempresasquehancompradohasta $100000?. e)Culeselporcentajedelasempresasquenocompranpapelesycompranotros insumos y que gastan entre $58000 y $210000 en este tipo de insumos?. 16.Los pesos en Kg. de 58 cerdos fueros los siguientes : 3669719736631286345785841835348805110769755736508614865129112565776721259955516639483910563112705972136657289801496092114935132 a)Construyaunatabladefrecuenciasyconstruirelhistogramadefrecuencias absolutas. Dibuje, sobre el histograma el polgono de frecuencias. b)Calcule Medidas de tendencia central y de dispersin a partir de los datos y a partir de la tabla del punto a). c)Construya un polgono de frecuencias relativas acumuladas y selo para determinar el porcentaje de cerdos que satisface los siguientes enunciados. - Que un Cerdo tomado al azar pese 80 Kg. o ms - Que un Cerdo tomado al azar pese entre 60 y 100 Kg. - Que un Cerdo tomado al azar pese hasta 70 Kg.