estimación
Transcripción
estimación
La inferencia estadística comprende el establecer ciertos juicios con respecto a algo después de examinar solamente una parte o muestra de ello. Así, se ofrece una muestra gratis de un nuevo producto alimenticio en un supermercado; se prueba un pedazo de pastel para saber si ya está frío; y un cocinero prueba la sopa para ver si necesita un poco más de sazón. En forma semejante, cuando se hojea un nuevo libro o revista, se mide un traje, sale con una persona por primera vez o ve un programa de televisión durante unos cuantos minutos antes de decidirse a cambiar de canal, en realidad está muestreando. El muestreo estadístico es semejante a cada uno de los ejemplos anteriores, aunque sus métodos son más formales y precisos, generalmente incluyen una proporción de probabilidad. La probabilidad y el muestreo están estrechamente relacionados, y juntos constituyen la base de la teoría de la inferencia. En este tema se examinan los conceptos básicos que comprenden el muestreo. Se exploran las razones para el muestreo y planes de muestreo alternativos. Se concede particular atención al muestreo aleatorio, debido a su importancia en el análisis. Estadístico En estadístico es una medida usada para describir alguna característica de una muestra, tal como una media aritmética, una mediana o una desviación estándar de una muestra Parámetro Un parámetro es una medida usada para describir, alguna característica de una población, tal como una media aritmética, una mediana o una desviación estándar de una población Error estándar La desviación estándar de una distribución, en el muestreo de un estadístico, es frecuentemente llamado error estándar del estadístico. Por ejemplo, la desviación estándar de las medidas de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada error estándar de la media. De la misma manera, la desviación estándar de las proporciones de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la población. La diferencia entre los términos ^desviación estándar^ y ^error estándar^ es que la primera se refiere a los valores originales, mientras que la última está relacionada con valores calculados. Un estadístico es un valor calculado, obtenido con los elementos incluidos en una muestra. Error muestral o error de muestreo La diferencia entre el resultado obtenido de una muestra (un estadístico) y el resultado el cual deberíamos haber obtenido de la población (el parámetro correspondiente) se llama el error muestral o error de muestreo. Un error de muestreo usualmente ocurre cuando no se lleva a cabo la encuesta completa de la población, sino que se toma una muestra para estimar las características de la población. El error muestral es medido por el error estándar del estadístico, en términos de probabilidad, bajo la curva normal. El resultado de la medida indica la precisión de la estimación de la población basada en el estudio de la muestra. Mientras más pequeño el error muestral, mayor es la precisión de la estimación. _ 2 Una muestra debe ser representativa si va a ser usada para estimar las características de la población. Los métodos para seleccionar una muestra representativa son numerosos, dependiendo del tiempo, dinero y habilidad disponible para tomar una muestra y la naturaleza de los elementos individuales de la población por lo tanto, se requiere un gran volumen para incluir todos los tipos de métodos de muestreo. Muestreo simple. Este tipo de muestreo toma solamente una muestra de una población dada para el propósito de inferencia estadística. Puesto que solamente una muestra es tomada. El tamaño de la muestra debe ser lo suficientemente grande para extraer una conclusión. Una muestra grande muchas veces cuesta demasiado dinero y tiempo. Muestreo doble Bajo este tipo de muestreo, cuando el resultado del estudio de la primera muestra no es decisivo, una segunda muestra es extraída de la misma población. Las dos muestras son combinadas para analizar los resultados. Este método permite a una persona principiar con una muestra relativamente pequeña para ahorrar costos y tiempo. Si la primera muestra arroja un resultado definitivo, la segunda muestra no puede necesitarse. Muestreo múltiple El procedimiento bajo este método es similar al expuesto en el muestreo doble, excepto que el número de muestras sucesivas requerido para llevar a una decisión es más de dos muestras Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes: basados en el juicio de una persona y selección aleatoria. Los métodos de muestras, clasificados de acuerdo con dos maneras diferentes: Muestreo de juicio Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal. La persona que selecciona los elementos de la muestra, usualmente experto en la materia dada. Una muestra de juicio es llamada una muestra no probabilística, puesto que este método está basado en los puntos de vista subjetivos de una persona y la teoría de la probabilidad no puede ser empleada para medir el error de muestreo. Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y el costo es usualmente bajo. Javier Alvarez Noyola 3 Muestreo aleatorio. Una muestra se dice que es extraída al azar cuando la manera de selección, es tal que cada elemento de la población tiene igual oportunidad de ser seleccionado. Una muestra aleatoria es también llamada muestra probabilística. Puesto que cada elemento tiene una probabilidad conocida. Las muestras probabilísticas son generalmente preferidas por los estadísticos porque la selección de la muestra es objetiva y el error muestral puede ser medido en términos de la probabilidad bajo la curva normal. Muestreo aleatorio simple Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Para tener una muestra aleatoria simple, cada elemento en la población probabilidad de ser seleccionado. debe tener igual Muestreo sistemático Una muestra sistemática es obtenida cuando los elementos son seleccionados en una manera ordenada. La manera de selección depende del número de elementos incluidos en la población y el tamaño de la muestra. El número de elementos de la población es, primero, dividido por el número deseado en la muestra. El cociente indicará si cada décimo, cada onceavo, o cada centésimo elemento de la población va a ser seleccionado. Primero el elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemática puede dar la misma precisión de estimación acerca de la población, que una muestra aleatoria simple cuando los elementos en la población están ordenados al azar. Muestreo estratificado Para obtener una muestra aleatoria estratificada, primero se divide la población en grupos, llamados estratos, que son más homogéneos que la población como un todo. Los elementos de la muestra son entonces seleccionados al azar o por un método sistemático de cada estrato. Las estimaciones de la población, basadas en la muestra estratificada, usualmente tienen mayor precisión (o menor error muestral) que si la población entera fuera muestreada mediante muestreo aleatorio simple. Muestreo de conglomerados. Para obtener una muestra de conglomerados, primero dividir la población en grupos que son convenientes para el muestreo. Enseguida, seleccionar una porción de los grupos al azar o por un método sistemático, finalmente toma todos los elementos o parte de ellos al azar o por un método sistemático de los grupos seleccionados para obtener una muestra. Bajo este método, aunque no todos los grupos son muestreados, cada grupo tiene una probabilidad de ser seleccionado. Una muestra de conglomerados, usualmente produce un mayor error muestral ( por lo tanto, da menor precisión de las estimaciones acerca de la población). .. Javier Alvarez Noyola 4 LA ESTIMACION es el proceso de utilizar datos muéstrales para estimar los valores de parámetros desconocidos de una población. Esencialmente, cualquier característica de la población se puede estimar a partir de una muestra al azar, entre los valores más comunes están la media y la desviación estándar de una población y la proporción de la misma. La estimación se emplea de innumerables maneras. Por ejemplo, los políticos generalmente intentan estimar la proporción de los votantes que concuerdan con sus puntos de vista económicos o sociales. Las fábricas a menudo deben calcular el porcentaje de productos defectuosos de un lote de artículos o productos. Las características de desempeño de un producto se deben establecer tomando en consideración aspectos tales como la resistencia promedio, el peso o el tiempo de vida. Las grandes tiendas de departamentos deben predecir la demanda de diversos artículos. Así, la estimación comprende: la valuación de inventarios, la estimación de costos de proyectos, la evaluación de nuevas fuentes energéticas, la predicción del desempeño en el trabajo y la elaboración de estimaciones razonables de tiempos de determinación de tareas asignadas. Una estimación de un parámetro puede ser expresada de dos maneras: una estimación de punto y una estimación de intervalo. Una estimación de punto es el número único que es usado para representar la estimación del parámetro. Una estimación de intervalo es un recorrido establecido dentro del cual podemos esperar que éste el parámetro. Intervalos, límites y coeficientes de confianza. Cuando una distribución en el muestreo de la media (o la proporción ) es normal, la probabilidad de que las medias muéstrales (o proporciones) estén dentro de la máxima ordenada (Y o) y la ordenada en Z, puede ser obtenida. La probabilidad de que las medidas muéstrales estén dentro de un recorrido. de + 1x a -1x es 68.268 %, donde z = 1 El área bajo la curva normal entre Yo y z es = ± 1 es 0.34134 + 0.34134 = 0.68268 o 68.268% Estimador insesgado. Un estadístico que es usado para estimar un parámetro se llama un estimador, tal como una media muestral cuando es usada para estimar la media de la población. Un estimador es insesgado cuando el valor esperado del estadístico es igual al valor del parámetro. El valor esperado del estadístico ( o expresado simbólicamente, E [del estadístico] =) es la distribución. Puesto que la media de la distribución en el muestreo de la media (o la media de las medias de todas las muestras posibles del mismo tamaño extraídas de la misma población, o el valor esperado de la media muestral) es igual a la media de la población, una media muestral es un estimador insesgado o dicho de otra manera. X es una estimación insesgada de , puesto que E(X) = De la misma manera, puesto que la media de la distribución en el muestreo de la proporción de la población, una proporción muestral es un estimador insesgado, o p es una estimación insesgada de P, puesto que E(p) = P Sin embargo, la media de la distribución en el muestreo de la varianza (s²) no es igual a la varianza de la población (²), o s² es una estimación insesgada de ² puesto que E (s²) = ². El valor de la varianza s² o ², se calcula dividiendo la suma del cuadrado de las desviaciones con respecto a la media x² por n (tamaño de la muestra) o por N (tamaño de la población); es decir, Javier Alvarez Noyola 5 x ( X X )2 s n n 2 2 y 2 x N 2 ( x ) 2 N Por otra parte, si la suma del cuadrado de las divisiones con respecto a la media x² es dividida por ( n - 1 ) para la muestra, denotada por s², o por ( N - 1 ) para la población, denotada por ², la media de la distribución en el muestreo de la varianza modificada s² es igual a la varianza modificada de la población ², o s² es una estimación insesgada de ², puesto que E(s²) = ² ( X X )2 S2 x n 1 n 1 x N 1 2 2 y 2 Javier Alvarez Noyola ( X )2 N 1 6 El número de variables que pueden variar libremente en un conjunto de variables bajo ciertas condiciones, es frecuentemente referido como el número de grados de libertad. supongamos que tenemos un conjunto de 3 variables A, B, C, y la suma de las variables es 10, o: A + B + C = 10 Si entonces un valor para A y un valor para B, tales como A = 1 y B = 3, entonces el valor de la tercera variable es automáticamente determinado, puesto que: 1 + 3 + C = 10 , C = 10 - 4 = 6 Por lo tanto el número de la variable que puede variar libremente en el conjunto es 2. Decimos entonces que hay 2 ( o 3 - 1) grados de libertad cuando la suma de las tres variables. Similarmente, si tenemos n variables y la suma de las variables es u valor fijo ( o una constante ), decimos que el número de grados de libertad es n - 1. El término grados de libertad es frecuentemente usado en trabajo estadístico concerniente a la influencia. Por ejemplo, al encontrar una varianza muestral insesgada, uno debe dividir la suma del cuadrado de las desviaciones x² por el tamaño de la muestra menos 1, o (n - 1). La cantidad (n - 1) es también referida como los grados de libertad. Javier Alvarez Noyola 7 La desviación estándar es una distribución, en el muestreo de un estadístico, es frecuentemente llamado el error estándar del estadístico. La diferencia entre los términos " desviación estándar "y " error estándar ". La relación entre el tamaño de la muestra y el error estándar. p x n PQ n Suponga que el promedio mensual de ingreso de 10,000 trabajadores de la repartidora de refrescos es de $500, la desviación estándar es de $100, ¿Cuál es la probabilidad de seleccionar una muestra aleatoria simple de 400 trabajadores que tengan de $510 o más por mes? Este ejercicio es un error estándar de la media de la población finita N = 10,000 = 500 = 100 n = 400 x = 510 Supongamos que el 40 % de los 5,000 estudiantes de la Facultad de Comercio son mujeres. ¿Cuál es la probabilidad de seleccionar una muestra aleatoria simple de 150 estudiantes en la cuál el número de mujeres sea 35% o menos ( - ) N P Q n Pº = 5,000 = 40% = 0.4 = 60% = 0.6 = 150 = 35% = 0.35 Javier Alvarez Noyola 8 Una maquina para cubrir cerezas con chocolate se ajusta de manera que el espesor promedio del recubrimiento sea de 3mm., el proceso esta normalmente distribuido con una desviación estándar de 1mm.. Si el proceso funciona como se espera (es decir con una media de 3mm y una desviación estándar de 1mm.) ¿Cuál es la probabilidad de obtener una muestra de 25 cerezas cubiertas con chocolate de un total de 160? encontrar un promedio muestral de más de 3.4mm. Un proceso para llenar botellas de soda, presenta una producción en la que el 10% de las botellas no están completamente llenas si mediante este proceso se selecciona al azar una muestra de 225 botellas de un lote de 625 envases llenos, ¿Cuál es la probabilidad de que la proporción muestral de botellas parcialmente llenas se encuentre en el intervalo que va de 9 al 11%? Javier Alvarez Noyola 9 Es el proceso de utilizar datos muéstrales para estimar los valores de parámetros desconocidos de una población: TIPOS DE ESTIMADOS: Estimado puntual.- Es el número único que es usado para estimar un parámetro desconocido de la población. Estimación de intervalo.- Estimación que incluye un intervalo de valores posibles en el que se considera que esta comprendido un parámetro de la población. El valor verdadero recibe el nombre de Intervalo igual a 1 - P (error) de confianza. y la confianza es Un intervalo de confianza proporciona un intervalo de valores centrado en el valor estadístico de la muestra, en el cual supuestamente se ubica el parámetro de la población, con un riego de error conocido. El intervalo de confianza presenta la forma x ± Z x Estimación de la media de la población. Estimación de un punto de : x Estimación de intervalo de : x ± Z x 2 x n Encontrar un intervalo de confianza para x cuando se tiene x como dato: tamaño de la muestra n = 36 x = 3 x = 24.2 Confianza deseada 90% 95% 99% Z 1.65 1.96 2.58 fórmula cálculos e intervalo 24.2 ± 0.825 23.375 a 25.025 23.2 ± 0.980 23.220 a 25.180 24.2 ± 1.290 23.110 a 25.690 Observe que n > 30 no tiene sentido la pregunta de si la población es ó no normal. Javier Alvarez Noyola 10 Estimación de la media cuando no se conoce x : la distribución Para utilizar la tabla de valores t se deben conocer dos cosas: El nivel de confianza deseado y los grados de libertad Los grados de libertad se conocen con la formula: gx gx n-1 ( x x ) n 1 = desviación estándar de la muestra = grados de libertad Valores de t para una confianza de 95% ( 0.025 en cada cola ) tamaño de la muestra n 8 13 23 28 grados de libertad n-1 valor t 7 12 22 27 El intervalo de confianza para una media muestral cuando se usa gx es muy semejante al intervalo con x de este modo el intervalo es: valor de la muestra x t gx n gx desviación estándar de la muestra n población o tamaño de la muestra Intervalo de confianza utilizando valores t Valor de la muestra 20 Desviación estándar de la media 1.5 tamaño de la muestra 25 (los grados de libertad son n - 1 = 24) Confianza deseada 90% 95% 99% t 1.711 2.064 2.797 fórmula cálculos intervalo 20.0 ± 0.5133 20.0 ± 0.6192 20.0 ± 0.8391 Javier Alvarez Noyola 11 Cuando la población es finita y el tamaño de la muestra constituye más del 5% de la población se debe usar el factor finito de corrección para modificar las desviaciones estándar de las formulas. Intervalo de confianza con x conocida x z x N n n N1 con no x conocida x t x N n n N1 error z x N n n 1 t x N n n 1 Determinar un intervalo de confianza del 95% para los dos siguientes casos: a).- x = 15.0 x = 2.0 n = 100 N 1,000 b).- x gx n N = 15.0 = 2.0 = 16 = 200 Javier Alvarez Noyola 12 Solamente límite superior Solamente límite inferior con x conocida con x no conocida x + z x x + t x x - z xx -x Una muestra al azar de 100 observaciones tiene una media de 30.0 y una desviación estándar de 5 a).- Obtenga un valor con el cuál usted tenga 95% de confianza de que no excederá la media de la población ? b).- Cuál es la probabilidad (riesgo) de que > 31.0? A partir de una muestra de 200 observaciones, se encontró que en una remesa, había 20 acumuladores defectuosos, utilizando un intervalo de confianza del 99% calcule el error estimado JAN ESTADISTICA Javier Alvarez Noyola