Experimentos con factores aleatorios

Transcripción

Experimentos con factores aleatorios
Experimentos con factores aleatorios
Diseño de experimentos – p. 1/36
Introducción
Hasta ahora hemos supuesto que los factores de un
experimento son factores fijos, esto es, los niveles de los
factores usados en el experimento son los niveles específicos
de interés. Esto implica que las inferencias estadísticas que se
hagan sobre estos factores están limitadas a estos niveles
específicos estudiados.
En algunas situaciones experimentales, los niveles de un
factor se seleccionan al azar de una población grande de
posibles niveles, y el investigador quiere tener conclusiones
acerca de toda la población de niveles, no solamente de los
usados en el experimento.
En esta situación se dice que el factor es aleatorio.
Diseño de experimentos – p. 2/36
Introducción
Para el caso de un solo factor, el modelo estadístico lineal es:
yij = µ + τi + ǫij
i = 1, . . . , a j = 1, . . . , n
donde µ es la media general, τi son los efectos aleatorios del
factor, ǫij es el error aleatorio. Se supone que τi y ǫij son
independientes y que se distribuyen:
ǫij
∼ N (0, σ 2 )
τi
∼ N (0, στ2 )
La varianza de cualquier observación es:
V (yij ) = στ2 + σ 2
στ2 y σ 2 se llaman componentes de varianza y el modelo se
llama modelo de efectos aleatorios o de componentes de
varianza.
Diseño de experimentos – p. 3/36
Introducción
Ahora lo que nos interesa es probar hipótesis acerca de la
componente de varianza στ2 .
H0 : στ2 = 0 ⇒
tratamientos iguales
H1 : στ2 > 0
variabilidad entre tratamientos
⇒
2
∼
χ
Se tiene que SSE
2
N −a donde N = na, y bajo la hipótesis
σ
nula SSσtrat
∼ χ2a−1 , entonces, bajo H0 :
2
Fc =
CMtrat
SStrat /a − 1
=
∼ Fa−1,N −a
SSE/N − a
CM E
Diseño de experimentos – p. 4/36
Tabla de ANOVA
F.V.
Entre grupos
Dentro grupos
Total
Bajo H0 ,
g.l.
a−1
N −t
N −1
SS
SSA
SSE
SStot
CM
CMA
CM E
Fc
CMA /CM E
E(CM )
σ 2 + nστ2
σ2
CMtrat = CM E = σ̂ 2 .
Si H0 no es cierta, CMtrat > CM E, por lo tanto rechazamos
H0 para valores grandes de Fc , es decir, rechazamos H0 si
α
Fc > Fa−1,N
−a .
Diseño de experimentos – p. 5/36
Componentes de varianza
Interesa estimar los componentes de varianza (στ2 , σ 2 ) en el
modelo.
Existen varios procedimientos, el que veremos se llama
método de análisis de varianza o de momentos, ya que usa
la información de la tabla de ANOVA.
El método consiste en igualar la esperanza de cuadrados
medios a sus valores observados.
CMtrat
CM E
por lo tanto
σ̂ 2
σ̂τ2
= σ 2 + nστ2
= σ2
= CM E
CMtrat − CM E
=
n
Diseño de experimentos – p. 6/36
Componentes de varianza
El método de análisis de varianza para estimar los
componentes de varianza es relativamente sencillo y bueno
cuando se tienen experimentos balanceados.
A veces este método de estimar las componentes de varianza
dá estimaciones negativas.
Algunos autores dicen que es evidencia de que la componente
es cero, aunque otros dicen que puede ser evidencia de que el
modelo es incorrecto.
Un método más reciente y que tiene buenos resultados es el
de máxima verosimilitud restringida, REML (éste es el método
recomendado en JMP).
Diseño de experimentos – p. 7/36
Ejemplo
Una fábrica textil produce un tipo de tela en un número grande
de telares. Se desea obtener una tela de resistencia uniforme.
El ingeniero a cargo sospecha que además de la variación
usual en resistencia de muestras de tela del mismo telar,
puede haber variaciones en resistencia entre diferentes
telares.
Para investigar esto, selecciona al azar 4 telares y hace 4
determinaciones de resistencia en la tela producida por cada
telar. El experimento se corre en orden aleatorio.
Telar
Resistencia
1
98, 97, 99, 96
2
91, 90, 93, 92
3
96, 95, 97, 95
4
95, 96, 99, 98
ej12-1.jmp
Diseño de experimentos – p. 8/36
Ejemplo
F.V.
Telar
Error
Total
g.l.
3
12
15
Componente
Telar
Error
Total
SS
89.19
22.75
111.94
CM
29.73
1.89
F
15.68**
Componente de varianza
estimado
6.96
1.89
8.85
E(CM )
σ 2 + 4σT2
σ2
% del total
78.59
21.41
100.00
La mayor parte de la variabilidad se debe a diferencias entre
telares. Si el ingeniero logra disminuir la variabilidad entre
telares la producción de telas sería más homogénea.
Diseño de experimentos – p. 9/36
Diseño factorial con dos factores aleatorios
Suponga que se tienen los factores A y B y que ambos tienen
un número grande de niveles que son de interés.
Seleccionamos aleatoriamente a niveles de A y b niveles de B
y arreglamos estos niveles en un diseño factorial. Si el
experimento se replica n veces, entonces el modelos lineal es:
yijk = µ + τi + βj + (τ β)ij + ǫijk
i = 1, . . . , a j = 1, . . . , b k = 1, . . . , n
donde τi , βj , (τ β)ij , ǫijk son variables aleatorias
independientes.
Tambien suponemos que:
τi
∼ N (0, στ2 )
βj
∼ N (0, σβ2 )
(τ β)ij
ǫijk
∼ N (0, στ2β )
∼ N (0, σ 2 )
Diseño de experimentos – p. 10/36
Diseño factorial con dos factores aleatorios
Por lo tanto, la varianza de cualquier observación es:
V (yijk ) = στ2 + σβ2 + στ2β + σ 2
Nos interesa probar las hipótesis:
H01 : στ2
=
0
H02 : σβ2
=
0
H03 : στ2β
=
0
Las sumas de cuadrados se calculan igual que con efectos
fijos.
Diseño de experimentos – p. 11/36
Diseño factorial con dos factores aleatorios
Para formar las estadísticas de prueba, debemos examinar la
esperanza de cuadrados medios.
Se puede demostrar que:
E(CMA )
= σ 2 + nστ2β + bnστ2
E(CMB )
= σ 2 + nστ2β + anσβ2
E(CMAB )
E(CM E)
= σ 2 + nστ2β
= σ2
Diseño de experimentos – p. 12/36
Diseño factorial con dos factores aleatorios
Las estadísticas F para probar las hipótesis anteriores se
calculan de la siguiente manera:
H01 :
στ2β
H02 :
στ2
H03 :
σβ2
=0 ⇒
CMAB
Fc =
CM E
=0 ⇒
CMA
Fc =
CMAB
=0 ⇒
CMB
Fc =
CMAB
Diseño de experimentos – p. 13/36
Diseño factorial con dos factores aleatorios
Los componentes de varianza se pueden estimar por el
método de análisis de varianza, igualando los cuadrados
medios observados a sus respectivos valores esperados y
resolviendo las ecuaciones, quedando:
σ̂ 2
= CM E
σ̂τ2β
=
CMAB − CM E
n
σ̂β2
=
CMB − CMAB
an
=
CMA − CMAB
bn
σ̂τ2
Diseño de experimentos – p. 14/36
Ejemplo con dos factores aleatorios
(Ejemplo 7.1 Kuehl) Evaluación del funcionamiento de
máquinas con componentes de varianza.
Se está desarrollando un nuevo espectrofotómetro para uso en
laboratorios clínicos. Se quiere evaluar el funcionamiento de
las máquinas de la línea de producción.
Pregunta de investigación:
Un componente crítico del funcionamiento de un instrumento
es la consistencia de las mediciones de un día a otro entre las
máquinas. Se quiere saber si la variabilidad de las mediciones
entre las máquinas operadas durante varios días están dentro
de los estándares aceptables para aplicaciones clínicas.
Estructura de tratamientos:
Se construye un diseño factorial con “máquinas” y “días” como
factores. Serán probadas 4 máquinas en 4 diferentes días en
un arreglo 4 × 4.
Diseño de experimentos – p. 15/36
Ejemplo con dos factores aleatorios
Diseño experimental:
Se seleccionan aleatoriamente 4 máquinas. Se preparan cada
día 8 replicaciones de muestras de suero en sangre con el
mismo lote de reactivos. Dos muestras de suero se asignan
aleatoriamente a cada una de las cuatro máquinas en cada
uno de los 4 días para un diseño completamente al azar con
dos repeticiones de cada tratamiento. El mismo técnico
prepara las muestras de suero y opera las máquinas durante
todo el experimento. Se miden los niveles de triglicéridos
(mg/dl) en las muestras de suero.
Diseño de experimentos – p. 16/36
Ejemplo con dos factores aleatorios
Máquina
Día
1
2
3
4
1
142.3,144.0
134.9, 146.3
148.6, 156.5
152.0, 151.4
2
148.6, 146.9
145.2, 146.3
148.6, 153.1
149.7, 152.0
3
142.9, 147.4
125.9, 127.6
135.5, 138.9
142.9, 142.3
4
133.8, 133.2
108.9, 107.5
132.1, 149.7
141.7, 141.2
Las máquinas son un factor aleatorio porque representan una
muestra aleatoria de una población potencial de máquinas a
construir, y los días son una muestra aleatoria de una
población de días en los cuales se usarán las máquinas. El
arreglo factorial permite la evaluación de la interacción entre
máquinas y días. La consistencia del funcionamiento de las
máquinas se evidencía por la ausencia de interacción.
ej7_1_kuehl.jmp
Diseño de experimentos – p. 17/36
Ejemplo con dos factores aleatorios
F.V.
Día
Máquina
Interacción
Error
g.l.
3
3
9
16
σ̂ 2
2
σ̂dm
2
σ̂m
σ̂d2
SS
1334.46
1647.28
786.04
286.33
CM
444.82
549.09
87.34
17.90
Fc
5.09*
6.29*
4.88**
E(CM )
2
σ 2 + 2σdm
+ 8σd2
2
2
σ 2 + 2σdm
+ 8σm
2
σ 2 + 2σdm
σ2
= CM E = 17.90
CMdm − CM E
= 34.72
=
n
CMm − CMdm
=
= 57.72
na
CMd − CMdm
= 44.69
=
nb
Diseño de experimentos – p. 18/36
Ejemplo con dos factores aleatorios
Componente
Día
Máquina
Día x Máquina
Error
Total
Estimador
44.69
57.72
34.72
17.90
155.02
% del total
28.825
37.23
22.398
11.544
100
La varianza estimada de una observación es:
2
2
σ̂y2 = σ̂ 2 + σ̂d2 + σ̂m
+ σ̂dm
= 155.02
Diseño de experimentos – p. 19/36
Ejemplo con dos factores aleatorios
Interpretación:
Cada uno de los componentes de varianza contribuye
significativamente a la variación de las mediciones.
El componente del error σ̂ 2 = 17.9 representa la variación en
la preparación de las muestra de suero en sangre.
2
El componente de máquinas σ̂m
= 57.7, es la variación en el
funcionamiento de las máquinas.
El componente de días σ̂d2 = 44.7, es la variabilidad asociada
con un nuevo inicio utilizando nuevos reactivos para el análisis
de las muestras y otras fuentes de variabilidad que pueden
asociarse a las diferencias operacionales entre los días.
Diseño de experimentos – p. 20/36
Ejemplo con dos factores aleatorios
2
El componente de la interacción σ̂dm
= 34.7 implica que el
funcionamiento de las máquinas no varía consistentemente
con los cambios de operación de los días. Una posible
explicación es que exista una inconsistencia en la calibración
de las máquinas a lo largo de los días.
El investigador, basado en su experiencia, debe ser capaz de
decidir si alguna de las fuentes de variabilidad anteriores
excede un nivel aceptable y corregir, si es necesario, cualquier
deficiencia en las máquinas o en las condiciones de operación
Diseño de experimentos – p. 21/36
Tres factores aleatorios
F.V.
A
B
C
AB
AC
BC
ABC
Error
g.l.
a−1
b−1
c−1
(a − 1)(b − 1)
(a − 1)(c − 1)
(b − 1)(c − 1)
(a − 1)(b − 1)(c − 1)
abc(r − 1)
E(CM )
2
2
2
σ 2 + rσabc
+ rcσab
+ rbσac
+ rbcσa2
2
2
2
σ 2 + rσabc
+ rcσab
+ raσbc
+ racσb2
2
2
2
σ 2 + rσabc
+ rbσac
+ raσbc
+ rabσc2
2
2
σ 2 + rσabc
+ rcσab
2
2
σ 2 + rσabc
+ rbσac
2
2
σ 2 + rσabc
+ raσbc
2
σ 2 + rσabc
σ2
Diseño de experimentos – p. 22/36
Tres factores aleatorios
Las estadísticas F se construyen de la siguiente manera:
ABC :
CMABC
CM E
AB :
CMAB
CMABC
AC :
CMAC
CMABC
BC :
CMBC
CMABC
Diseño de experimentos – p. 23/36
Tres factores aleatorios
Para probar los tres efectos principales (A,B y C) es necesario
construir un cuadrado medio para el denominador de las
pruebas F.
Existen pruebas F aproximadas utilizando el procedimiento de
Satterthwaite, donde se calcula una combinación lineal de los
cuadrados medios y sus correspondientes grados de libertad.
Dada una función lineal M , donde
M = a1 (CM1 ) + a2 (CM2 ) + . . . + ak (CMk )
y CM1 , CM2 , . . . , CMk son cuadrados medios con gl
ν1 , ν2 , . . . , νk respectivamente, los grados de libertad para M
son aproximadamente
ν = Pk
M2
(ai (CMi ))2
i=1
νi
Diseño de experimentos – p. 24/36
Tres factores aleatorios
2
Para probar la hipótesis H0 : σA
= 0 se puede construir la
combinación lineal
M = CMAB + CMAC − CMABC
entonces la prueba queda como:
CMA
M
Calculando los grados de libertad para el denominador con el
procedimiento de Satterthwaite.
Diseño de experimentos – p. 25/36
Tres factores aleatorios
Es posible construir un Cuadrado Medio negativo cuando en la
combinación lineal algunos de los cuadrados medios tienen
coeficientes negativos.
Para salvar esta dificultad, otra aproximación para probar la
2
hipótesis H0 : σA
= 0 es hacer
M1 = CMA + CMABC
M2 = CMAB + CMAC
con gl calculados con el procedimiento de
Satterthwaite,entonces la prueba queda como:
M1
.
M2
Lo mismo se haría para los otros efectos principales (B y C).
Diseño de experimentos – p. 26/36
Efectos anidados
Diseño de experimentos – p. 27/36
Efectos anidados
En algunos experimentos factoriales los niveles de un factor
(digamos, B) son similares pero no idénticos para diferentes
niveles de otro factor (A).
Este arreglo se llama diseño anidado o jerárquico y se dice
que B está anidado en A.
Generalmente los factores que están anidados son aleatorios.
Por ejemplo, una compañía compra su materia prima a tres
diferentes proveedores. La compañía desea determinar si la
pureza de la materia prima es la misma en cada proveedor.
Se seleccionan cuatro lotes de materia prima de cada
proveedor y se tomarán tres determinaciones de pureza en
cada lote.
Diseño de experimentos – p. 28/36
Ejemplo
Diseño de experimentos – p. 29/36
Ejemplo
Este es un diseño anidado de 2 etapas, con lote anidado en
proveedor, y observación anidada en lote.
Por qué no son dos factores cruzados? Porque el lote 1
debería referirse a una característica particular del mismo lote,
equivalentemente para los otros lotes.
En el ejemplo, los lotes de cada proveedor son únicos para el
proveedor particular.
Esto es, el lote 1 del proveedor 1 no tiene nada que ver con el
lote 1 de los otros proveedores, es solamente una etiqueta.
Diseño de experimentos – p. 30/36
Efectos anidados
El modelo estadístico para los diseños anidados de dos
etapas es:
yijk = µ + τi + βj(i) + ǫk(ij)
i = 1, . . . , a j = 1, . . . , b k = 1, . . . , n
a niveles del factor A
b niveles del factor B anidados en cada nivel del factor A
n repeticiones
Es conveniente pensar en las repeticiones como que están
anidadas en la combinación de niveles de A y B.
Este es un diseño anidado balanceado, ya que hay igual
número de niveles de B dentro de cada nivel de A e igual
número de repeticiones.
Ya que todos los niveles de B no aparecen con todos los
niveles de A entonces no puede haber interacción entre A y B.
Diseño de experimentos – p. 31/36
Efectos anidados
F.V.
A
B(A)
Error
Total
g.l.
a−1
a(b − 1)
ab(n − 1)
abn − 1
SS
SSA
SSB(A)
SSE
SST ot
CM
CMA
CMB(A)
CM E
=
2
1 X 2
y...
yi.. −
bn i=1
abn
=
1 X 2
1 XX 2
y
y −
n i=1 j=1 ij. bn i=1 i..
a
SSA
a
SSB(A)
SSE
SST ot
=
=
a
b
a X
b X
n
X
i=1 j=1 k=1
1 XX 2
2
y
yijk −
n i=1 j=1 ij.
a X
b X
n
X
2
yijk
i=1 j=1 k=1
a
b
2
y...
−
abn
Diseño de experimentos – p. 32/36
Efectos anidados
E(CM )
A fijo
B fijo
A fijo
B aleatorio
A aleatorio
B aleatorio
E(CMA )
2
σ 2 + bnθA
2
2
σ 2 + nσB
+ bnθA
2
2
σ 2 + nσB
+ bnσA
E(CMB(A) )
2
σ 2 + nθB
2
σ 2 + nσB
2
σ 2 + nσB
E(CM E)
σ2
σ2
σ2
Diseño de experimentos – p. 33/36
Ejemplo
1
Lote
1
1
-1
0
2
-2
-3
-4
3
-2
0
1
4
1
4
0
Proveedor
2
1 2 3
1 0 -1
-2 4 0
-3 2 -2
3
4
0
3
2
1
2
4
0
2
-2
0
2
3
1
-1
2
4
3
2
1
Los lotes se toman al azar de cada proveedor.
Proveedor es fijo y lote aleatorio.
anidado.jmp
Diseño de experimentos – p. 34/36
Ejemplo
F.V.
Proveedor
Lote(Proveedor)
Error
Total
g.l.
2
9
24
35
SS
15.06
69.92
63.33
148.31
CM
7.53
7.77
2.64
E(CM )
2
2
σ 2 + 3σB
+ 12θA
2
σ 2 + 3σB
σ2
F
0.97
2.94*
No hay efecto significativo del proveedor en la pureza del
material.
La pureza de los lotes de materia prima del mismo proveedor
difieren significativamente, por lo tanto, hay que trabajar con
los proveedores para que reduzcan su variabilidad de lote a
lote.
Las estimaciones de los componentes de varianza son:
Componente
Estimación % del total
Lote(proveedor)
1.7099
39.32
Error
2.6389
60.68
Total
4.3488
100.00
Diseño de experimentos – p. 35/36
Ejemplo
Qué pasa si ignoramos que hay diferentes lotes y
consideramos las 12 observaciones de cada proveedor como
repeticiones?
F.V.
Proveedor
Error
Total
g.l.
2
33
35
SS
15.06
133.25
148.31
CM
7.53
4.038
F
1.864
p-value
0.171
No hay diferencia en proveedores.
Sin embargo, en este análisis estamos ignorando que cada 3
observaciones tienen en común que provienen de un mismo
lote donde hay diferencias (según el análisis anterior).
Diseño de experimentos – p. 36/36