Experimentos con factores aleatorios
Transcripción
Experimentos con factores aleatorios
Experimentos con factores aleatorios Diseño de experimentos – p. 1/36 Introducción Hasta ahora hemos supuesto que los factores de un experimento son factores fijos, esto es, los niveles de los factores usados en el experimento son los niveles específicos de interés. Esto implica que las inferencias estadísticas que se hagan sobre estos factores están limitadas a estos niveles específicos estudiados. En algunas situaciones experimentales, los niveles de un factor se seleccionan al azar de una población grande de posibles niveles, y el investigador quiere tener conclusiones acerca de toda la población de niveles, no solamente de los usados en el experimento. En esta situación se dice que el factor es aleatorio. Diseño de experimentos – p. 2/36 Introducción Para el caso de un solo factor, el modelo estadístico lineal es: yij = µ + τi + ǫij i = 1, . . . , a j = 1, . . . , n donde µ es la media general, τi son los efectos aleatorios del factor, ǫij es el error aleatorio. Se supone que τi y ǫij son independientes y que se distribuyen: ǫij ∼ N (0, σ 2 ) τi ∼ N (0, στ2 ) La varianza de cualquier observación es: V (yij ) = στ2 + σ 2 στ2 y σ 2 se llaman componentes de varianza y el modelo se llama modelo de efectos aleatorios o de componentes de varianza. Diseño de experimentos – p. 3/36 Introducción Ahora lo que nos interesa es probar hipótesis acerca de la componente de varianza στ2 . H0 : στ2 = 0 ⇒ tratamientos iguales H1 : στ2 > 0 variabilidad entre tratamientos ⇒ 2 ∼ χ Se tiene que SSE 2 N −a donde N = na, y bajo la hipótesis σ nula SSσtrat ∼ χ2a−1 , entonces, bajo H0 : 2 Fc = CMtrat SStrat /a − 1 = ∼ Fa−1,N −a SSE/N − a CM E Diseño de experimentos – p. 4/36 Tabla de ANOVA F.V. Entre grupos Dentro grupos Total Bajo H0 , g.l. a−1 N −t N −1 SS SSA SSE SStot CM CMA CM E Fc CMA /CM E E(CM ) σ 2 + nστ2 σ2 CMtrat = CM E = σ̂ 2 . Si H0 no es cierta, CMtrat > CM E, por lo tanto rechazamos H0 para valores grandes de Fc , es decir, rechazamos H0 si α Fc > Fa−1,N −a . Diseño de experimentos – p. 5/36 Componentes de varianza Interesa estimar los componentes de varianza (στ2 , σ 2 ) en el modelo. Existen varios procedimientos, el que veremos se llama método de análisis de varianza o de momentos, ya que usa la información de la tabla de ANOVA. El método consiste en igualar la esperanza de cuadrados medios a sus valores observados. CMtrat CM E por lo tanto σ̂ 2 σ̂τ2 = σ 2 + nστ2 = σ2 = CM E CMtrat − CM E = n Diseño de experimentos – p. 6/36 Componentes de varianza El método de análisis de varianza para estimar los componentes de varianza es relativamente sencillo y bueno cuando se tienen experimentos balanceados. A veces este método de estimar las componentes de varianza dá estimaciones negativas. Algunos autores dicen que es evidencia de que la componente es cero, aunque otros dicen que puede ser evidencia de que el modelo es incorrecto. Un método más reciente y que tiene buenos resultados es el de máxima verosimilitud restringida, REML (éste es el método recomendado en JMP). Diseño de experimentos – p. 7/36 Ejemplo Una fábrica textil produce un tipo de tela en un número grande de telares. Se desea obtener una tela de resistencia uniforme. El ingeniero a cargo sospecha que además de la variación usual en resistencia de muestras de tela del mismo telar, puede haber variaciones en resistencia entre diferentes telares. Para investigar esto, selecciona al azar 4 telares y hace 4 determinaciones de resistencia en la tela producida por cada telar. El experimento se corre en orden aleatorio. Telar Resistencia 1 98, 97, 99, 96 2 91, 90, 93, 92 3 96, 95, 97, 95 4 95, 96, 99, 98 ej12-1.jmp Diseño de experimentos – p. 8/36 Ejemplo F.V. Telar Error Total g.l. 3 12 15 Componente Telar Error Total SS 89.19 22.75 111.94 CM 29.73 1.89 F 15.68** Componente de varianza estimado 6.96 1.89 8.85 E(CM ) σ 2 + 4σT2 σ2 % del total 78.59 21.41 100.00 La mayor parte de la variabilidad se debe a diferencias entre telares. Si el ingeniero logra disminuir la variabilidad entre telares la producción de telas sería más homogénea. Diseño de experimentos – p. 9/36 Diseño factorial con dos factores aleatorios Suponga que se tienen los factores A y B y que ambos tienen un número grande de niveles que son de interés. Seleccionamos aleatoriamente a niveles de A y b niveles de B y arreglamos estos niveles en un diseño factorial. Si el experimento se replica n veces, entonces el modelos lineal es: yijk = µ + τi + βj + (τ β)ij + ǫijk i = 1, . . . , a j = 1, . . . , b k = 1, . . . , n donde τi , βj , (τ β)ij , ǫijk son variables aleatorias independientes. Tambien suponemos que: τi ∼ N (0, στ2 ) βj ∼ N (0, σβ2 ) (τ β)ij ǫijk ∼ N (0, στ2β ) ∼ N (0, σ 2 ) Diseño de experimentos – p. 10/36 Diseño factorial con dos factores aleatorios Por lo tanto, la varianza de cualquier observación es: V (yijk ) = στ2 + σβ2 + στ2β + σ 2 Nos interesa probar las hipótesis: H01 : στ2 = 0 H02 : σβ2 = 0 H03 : στ2β = 0 Las sumas de cuadrados se calculan igual que con efectos fijos. Diseño de experimentos – p. 11/36 Diseño factorial con dos factores aleatorios Para formar las estadísticas de prueba, debemos examinar la esperanza de cuadrados medios. Se puede demostrar que: E(CMA ) = σ 2 + nστ2β + bnστ2 E(CMB ) = σ 2 + nστ2β + anσβ2 E(CMAB ) E(CM E) = σ 2 + nστ2β = σ2 Diseño de experimentos – p. 12/36 Diseño factorial con dos factores aleatorios Las estadísticas F para probar las hipótesis anteriores se calculan de la siguiente manera: H01 : στ2β H02 : στ2 H03 : σβ2 =0 ⇒ CMAB Fc = CM E =0 ⇒ CMA Fc = CMAB =0 ⇒ CMB Fc = CMAB Diseño de experimentos – p. 13/36 Diseño factorial con dos factores aleatorios Los componentes de varianza se pueden estimar por el método de análisis de varianza, igualando los cuadrados medios observados a sus respectivos valores esperados y resolviendo las ecuaciones, quedando: σ̂ 2 = CM E σ̂τ2β = CMAB − CM E n σ̂β2 = CMB − CMAB an = CMA − CMAB bn σ̂τ2 Diseño de experimentos – p. 14/36 Ejemplo con dos factores aleatorios (Ejemplo 7.1 Kuehl) Evaluación del funcionamiento de máquinas con componentes de varianza. Se está desarrollando un nuevo espectrofotómetro para uso en laboratorios clínicos. Se quiere evaluar el funcionamiento de las máquinas de la línea de producción. Pregunta de investigación: Un componente crítico del funcionamiento de un instrumento es la consistencia de las mediciones de un día a otro entre las máquinas. Se quiere saber si la variabilidad de las mediciones entre las máquinas operadas durante varios días están dentro de los estándares aceptables para aplicaciones clínicas. Estructura de tratamientos: Se construye un diseño factorial con “máquinas” y “días” como factores. Serán probadas 4 máquinas en 4 diferentes días en un arreglo 4 × 4. Diseño de experimentos – p. 15/36 Ejemplo con dos factores aleatorios Diseño experimental: Se seleccionan aleatoriamente 4 máquinas. Se preparan cada día 8 replicaciones de muestras de suero en sangre con el mismo lote de reactivos. Dos muestras de suero se asignan aleatoriamente a cada una de las cuatro máquinas en cada uno de los 4 días para un diseño completamente al azar con dos repeticiones de cada tratamiento. El mismo técnico prepara las muestras de suero y opera las máquinas durante todo el experimento. Se miden los niveles de triglicéridos (mg/dl) en las muestras de suero. Diseño de experimentos – p. 16/36 Ejemplo con dos factores aleatorios Máquina Día 1 2 3 4 1 142.3,144.0 134.9, 146.3 148.6, 156.5 152.0, 151.4 2 148.6, 146.9 145.2, 146.3 148.6, 153.1 149.7, 152.0 3 142.9, 147.4 125.9, 127.6 135.5, 138.9 142.9, 142.3 4 133.8, 133.2 108.9, 107.5 132.1, 149.7 141.7, 141.2 Las máquinas son un factor aleatorio porque representan una muestra aleatoria de una población potencial de máquinas a construir, y los días son una muestra aleatoria de una población de días en los cuales se usarán las máquinas. El arreglo factorial permite la evaluación de la interacción entre máquinas y días. La consistencia del funcionamiento de las máquinas se evidencía por la ausencia de interacción. ej7_1_kuehl.jmp Diseño de experimentos – p. 17/36 Ejemplo con dos factores aleatorios F.V. Día Máquina Interacción Error g.l. 3 3 9 16 σ̂ 2 2 σ̂dm 2 σ̂m σ̂d2 SS 1334.46 1647.28 786.04 286.33 CM 444.82 549.09 87.34 17.90 Fc 5.09* 6.29* 4.88** E(CM ) 2 σ 2 + 2σdm + 8σd2 2 2 σ 2 + 2σdm + 8σm 2 σ 2 + 2σdm σ2 = CM E = 17.90 CMdm − CM E = 34.72 = n CMm − CMdm = = 57.72 na CMd − CMdm = 44.69 = nb Diseño de experimentos – p. 18/36 Ejemplo con dos factores aleatorios Componente Día Máquina Día x Máquina Error Total Estimador 44.69 57.72 34.72 17.90 155.02 % del total 28.825 37.23 22.398 11.544 100 La varianza estimada de una observación es: 2 2 σ̂y2 = σ̂ 2 + σ̂d2 + σ̂m + σ̂dm = 155.02 Diseño de experimentos – p. 19/36 Ejemplo con dos factores aleatorios Interpretación: Cada uno de los componentes de varianza contribuye significativamente a la variación de las mediciones. El componente del error σ̂ 2 = 17.9 representa la variación en la preparación de las muestra de suero en sangre. 2 El componente de máquinas σ̂m = 57.7, es la variación en el funcionamiento de las máquinas. El componente de días σ̂d2 = 44.7, es la variabilidad asociada con un nuevo inicio utilizando nuevos reactivos para el análisis de las muestras y otras fuentes de variabilidad que pueden asociarse a las diferencias operacionales entre los días. Diseño de experimentos – p. 20/36 Ejemplo con dos factores aleatorios 2 El componente de la interacción σ̂dm = 34.7 implica que el funcionamiento de las máquinas no varía consistentemente con los cambios de operación de los días. Una posible explicación es que exista una inconsistencia en la calibración de las máquinas a lo largo de los días. El investigador, basado en su experiencia, debe ser capaz de decidir si alguna de las fuentes de variabilidad anteriores excede un nivel aceptable y corregir, si es necesario, cualquier deficiencia en las máquinas o en las condiciones de operación Diseño de experimentos – p. 21/36 Tres factores aleatorios F.V. A B C AB AC BC ABC Error g.l. a−1 b−1 c−1 (a − 1)(b − 1) (a − 1)(c − 1) (b − 1)(c − 1) (a − 1)(b − 1)(c − 1) abc(r − 1) E(CM ) 2 2 2 σ 2 + rσabc + rcσab + rbσac + rbcσa2 2 2 2 σ 2 + rσabc + rcσab + raσbc + racσb2 2 2 2 σ 2 + rσabc + rbσac + raσbc + rabσc2 2 2 σ 2 + rσabc + rcσab 2 2 σ 2 + rσabc + rbσac 2 2 σ 2 + rσabc + raσbc 2 σ 2 + rσabc σ2 Diseño de experimentos – p. 22/36 Tres factores aleatorios Las estadísticas F se construyen de la siguiente manera: ABC : CMABC CM E AB : CMAB CMABC AC : CMAC CMABC BC : CMBC CMABC Diseño de experimentos – p. 23/36 Tres factores aleatorios Para probar los tres efectos principales (A,B y C) es necesario construir un cuadrado medio para el denominador de las pruebas F. Existen pruebas F aproximadas utilizando el procedimiento de Satterthwaite, donde se calcula una combinación lineal de los cuadrados medios y sus correspondientes grados de libertad. Dada una función lineal M , donde M = a1 (CM1 ) + a2 (CM2 ) + . . . + ak (CMk ) y CM1 , CM2 , . . . , CMk son cuadrados medios con gl ν1 , ν2 , . . . , νk respectivamente, los grados de libertad para M son aproximadamente ν = Pk M2 (ai (CMi ))2 i=1 νi Diseño de experimentos – p. 24/36 Tres factores aleatorios 2 Para probar la hipótesis H0 : σA = 0 se puede construir la combinación lineal M = CMAB + CMAC − CMABC entonces la prueba queda como: CMA M Calculando los grados de libertad para el denominador con el procedimiento de Satterthwaite. Diseño de experimentos – p. 25/36 Tres factores aleatorios Es posible construir un Cuadrado Medio negativo cuando en la combinación lineal algunos de los cuadrados medios tienen coeficientes negativos. Para salvar esta dificultad, otra aproximación para probar la 2 hipótesis H0 : σA = 0 es hacer M1 = CMA + CMABC M2 = CMAB + CMAC con gl calculados con el procedimiento de Satterthwaite,entonces la prueba queda como: M1 . M2 Lo mismo se haría para los otros efectos principales (B y C). Diseño de experimentos – p. 26/36 Efectos anidados Diseño de experimentos – p. 27/36 Efectos anidados En algunos experimentos factoriales los niveles de un factor (digamos, B) son similares pero no idénticos para diferentes niveles de otro factor (A). Este arreglo se llama diseño anidado o jerárquico y se dice que B está anidado en A. Generalmente los factores que están anidados son aleatorios. Por ejemplo, una compañía compra su materia prima a tres diferentes proveedores. La compañía desea determinar si la pureza de la materia prima es la misma en cada proveedor. Se seleccionan cuatro lotes de materia prima de cada proveedor y se tomarán tres determinaciones de pureza en cada lote. Diseño de experimentos – p. 28/36 Ejemplo Diseño de experimentos – p. 29/36 Ejemplo Este es un diseño anidado de 2 etapas, con lote anidado en proveedor, y observación anidada en lote. Por qué no son dos factores cruzados? Porque el lote 1 debería referirse a una característica particular del mismo lote, equivalentemente para los otros lotes. En el ejemplo, los lotes de cada proveedor son únicos para el proveedor particular. Esto es, el lote 1 del proveedor 1 no tiene nada que ver con el lote 1 de los otros proveedores, es solamente una etiqueta. Diseño de experimentos – p. 30/36 Efectos anidados El modelo estadístico para los diseños anidados de dos etapas es: yijk = µ + τi + βj(i) + ǫk(ij) i = 1, . . . , a j = 1, . . . , b k = 1, . . . , n a niveles del factor A b niveles del factor B anidados en cada nivel del factor A n repeticiones Es conveniente pensar en las repeticiones como que están anidadas en la combinación de niveles de A y B. Este es un diseño anidado balanceado, ya que hay igual número de niveles de B dentro de cada nivel de A e igual número de repeticiones. Ya que todos los niveles de B no aparecen con todos los niveles de A entonces no puede haber interacción entre A y B. Diseño de experimentos – p. 31/36 Efectos anidados F.V. A B(A) Error Total g.l. a−1 a(b − 1) ab(n − 1) abn − 1 SS SSA SSB(A) SSE SST ot CM CMA CMB(A) CM E = 2 1 X 2 y... yi.. − bn i=1 abn = 1 X 2 1 XX 2 y y − n i=1 j=1 ij. bn i=1 i.. a SSA a SSB(A) SSE SST ot = = a b a X b X n X i=1 j=1 k=1 1 XX 2 2 y yijk − n i=1 j=1 ij. a X b X n X 2 yijk i=1 j=1 k=1 a b 2 y... − abn Diseño de experimentos – p. 32/36 Efectos anidados E(CM ) A fijo B fijo A fijo B aleatorio A aleatorio B aleatorio E(CMA ) 2 σ 2 + bnθA 2 2 σ 2 + nσB + bnθA 2 2 σ 2 + nσB + bnσA E(CMB(A) ) 2 σ 2 + nθB 2 σ 2 + nσB 2 σ 2 + nσB E(CM E) σ2 σ2 σ2 Diseño de experimentos – p. 33/36 Ejemplo 1 Lote 1 1 -1 0 2 -2 -3 -4 3 -2 0 1 4 1 4 0 Proveedor 2 1 2 3 1 0 -1 -2 4 0 -3 2 -2 3 4 0 3 2 1 2 4 0 2 -2 0 2 3 1 -1 2 4 3 2 1 Los lotes se toman al azar de cada proveedor. Proveedor es fijo y lote aleatorio. anidado.jmp Diseño de experimentos – p. 34/36 Ejemplo F.V. Proveedor Lote(Proveedor) Error Total g.l. 2 9 24 35 SS 15.06 69.92 63.33 148.31 CM 7.53 7.77 2.64 E(CM ) 2 2 σ 2 + 3σB + 12θA 2 σ 2 + 3σB σ2 F 0.97 2.94* No hay efecto significativo del proveedor en la pureza del material. La pureza de los lotes de materia prima del mismo proveedor difieren significativamente, por lo tanto, hay que trabajar con los proveedores para que reduzcan su variabilidad de lote a lote. Las estimaciones de los componentes de varianza son: Componente Estimación % del total Lote(proveedor) 1.7099 39.32 Error 2.6389 60.68 Total 4.3488 100.00 Diseño de experimentos – p. 35/36 Ejemplo Qué pasa si ignoramos que hay diferentes lotes y consideramos las 12 observaciones de cada proveedor como repeticiones? F.V. Proveedor Error Total g.l. 2 33 35 SS 15.06 133.25 148.31 CM 7.53 4.038 F 1.864 p-value 0.171 No hay diferencia en proveedores. Sin embargo, en este análisis estamos ignorando que cada 3 observaciones tienen en común que provienen de un mismo lote donde hay diferencias (según el análisis anterior). Diseño de experimentos – p. 36/36