Análisis de Precisión de Técnicas de Agregación en Contextos
Transcripción
Análisis de Precisión de Técnicas de Agregación en Contextos
Análisis de Precisión de Técnicas de Agregación en Contextos Experimentales Poco Maduros Hernán Amatriain1, María Florencia Pollo Cattaneo1,2, Ramon Garcia-Martinez3,4 1 Facultad Regional La Plata. Universidad Tecnológica Nacional. Bs.As. Argentina 2 Software & Knowledge Engineering Center. ITBA. Bs.As. Argentina. 3 Intelligent Systems Laboratory. School of Engineering. University of Buenos Aires. 4 Software Engineering Area. Information Systems Degree Program. National University of Lanús [email protected]; [email protected]; [email protected]; [email protected] Resumen: cuando se trabaja en el campo de la experimentación científica, es estadísticamente importante poder contar con un gran número de experimentos y sujetos experimentales para poder combinar los resultados de ellos y obtener así un resultado general más fiable por estar éste sustentado por u mayor de evidencia empírica. Esto se consigue aplicando alguna técnica de agregación. Dichas técnicas se han aplicado exitosamente en contextos experimentales muy maduros (muchos experimentos y/o sujetos). Aquí analizaremos a través del diseño de un proceso de simulación de experimentos cual es la precisión de estas técnicas en contextos poco maduros, como es actualmente la Ingeniería de Software. Palabras clave: agregación de experimentos, diferencia de medias ponderadas, response ratio paramétrico y no paramétrico, vote counting, fiabilidad y potencia estadística. 1 Introducción La agregación de experimentos consiste en combinar los resultados de varios experimentos, que analizan el comportamiento de un par de tratamientos específico, para obtener un único resultado final. El nuevo resultado será más general y fiable que los resultados individuales, porque el mismo estará sustentado por un mayor nivel de evidencia empírica [Cochrane, 2008]. Si bien se han desarrollado estudios tendientes a determinar el nivel de precisión de las técnicas de agregación [Lajeunesse, M.; et al; 2003], estos estudios fueron realizados pensando en la aplicación de los métodos de agregación en contextos experimentales maduros (por ejemplo: medicina), donde la cantidad de sujetos experimentales es alta y la cantidad de estudios a agregar también lo es [Gambara, H.; et al; 2002]. Lamentablemente el actual contexto experimental de la Ingeniería del Software dista bastante de un contexto maduro, en general los proceso de agregación incluyen pocos estudios que a su vez contienen pocos sujetos experimentales [Davis, A.; et al; 2006]. El presente trabajo tiene como objetivo determinar el nivel de precisión de los métodos de agregación en contextos experimentales poco maduros como el que actualmente presenta la Ingeniería del Software. Donde, como se indico anteriormente, es habitual que los estudios posean pocos sujetos experimentales y los procesos de agregación incluyan pocos experimentos. 2 Técnicas de agregación de experimentos Existen varias técnicas de agregación cuantitativas, dentro de las más conocidas podemos mencionar [Hedges L.; et al; 1999]: Diferencia de medias ponderadas (WMD) Response Ratio paramétricos Response Ratio no paramétricos Vote Counting 2.1 Diferencia de Medias Ponderadas (DMP o WMD): La técnica diferencias medias ponderadas [Hedges y Olkin, 1985] es la técnica de estimación de tamaño de efecto, o mejora de un tratamiento respecto de otro, mas conocida y difundida para el análisis de variables continuas. Esta técnica es conceptualmente sencilla: el estimador de efecto individual (para cada experimento) se estima como el cociente de las diferencias entre las medias y el desvío estándar y el efecto global se calcula como una media ponderada de los estimadores de efecto de los estudios individuales. La estimación del efecto individual consiste en estimar, para un estudio particular, si el tratamiento Experimental es mejor o no que el tratamiento de control. Estos se hace dividiendo la diferencia de medias de ambos grupos por la varianza conjunta [Hedges, L.; Olkin, I.; 1985]. La función de estimación es la siguiente: YE YC d J ( N 2) SP d es el Effect Size J (N – 2) = factor de corrección Y‘s son la media de los grupos experimental (E) y de control (C) Sp es el desvío estándar conjunto N es el número de sujetos conjunto (nE + nC) Figura 1: estimación del tamaño de efecto Donde: SP (n E 1)(s E )2 (nC 1)(s C )2 n E nC 2 Sp desvío estándar conjunto S‘s son el desvío estándar del grupo experimental (E) y de control (C) n‘s son el numero de sujetos del grupo experimental (E) y de control (C) Figura 2: desvío estándar conjunto El factor de ajuste “J” puede estimarse mediante la siguiente función: J 1 3 4N 9 J es el factor de ajuste N es el número de sujetos conjunto (nE + nC) Figura 3: factor de ajuste Una vez estimado el tamaño de efecto, podrá estimarse el intervalo de confianza mediante la siguiente función [Hedges, L.; Olkin, I.; 1985]: d Z / 2 v d Z / 2 v d es el Effect Size Z es la cantidad de desvíos estándar que separan, al nivel de significancia dado, la media del límite. En general se utiliza 1.96 (α = 0,05) v es el error típico Figura 4: estimación del intervalo de confianza La función para estimar el error típico, mencionado en la función anterior, es la siguiente [Hedges, L.; Olkin, I.; 1985]: v ñ d2 2(n E nC ) v es el error típico ñ = (nE+nC) / (nE*nC) d son el effect size de los estudios individuales n‘s son el número de sujetos del grupo experimental (E) y de control (C) Figura 5: error típico La estimación del efecto global se realiza como la suma ponderada de los efectos individuales [Borenstein, M.; et al; 2007] [Hedges, L.; Olkin, I.; 1985]. Donde cada estudio es ponderado en función de su tamaño y la inversa de la varianza, de esta forma los estudios que incluyan mayor cantidad de sujetos experimentales y posean una menor varianza recibirán una mayor ponderación, por considerar que sus resultados son más fiables, que los estudios más pequeños. La función de estimación general es la siguiente: dw w1 * d1 ......... wk * dk dw es el efecto global w1 … wk son los pesos de lose studios individuales d1…..dk son los efectos individuales de cada estudio Figura 6: estimación del efecto global 2.2 Response Ratio Paramétrico: Para estimar el Response Ratio de un estudio particular, como se mencionó anteriormente, se debe dividir la media del tratamiento Experimental por la media del tratamiento de Control [Hedges, L.; et al; 1999] como se muestra a continuación: YE RR C Y RR es el Response Ratio Y‘s son las medias de los tratamientos experimental y de control Figura 7: estimación del tamaño de efecto Si bien, realizar en forma directa el cociente de ambas medias permite obtener un índice de mejora para un estudio en particular, para que la combinación de un conjunto de estudios sea más precisa se le incorporó, a la misma, el logaritmo natural [Hedges, L.; et al; 1999] [Miguez, E. & Bollero, G; 2005]. Esto permite linealizar los resultados (mientras que el RR es afectado más por los cambios en el denominador que en el numerador, el Ln (RR), gracias a las propiedades de los logaritmos, afecta de modo parejo al numerador y al denominador) y así normalizar su distribución, convirtiéndolo en un método apropiado para estimaciones de conjuntos de experimentos pequeños. La nueva función de estimación es la siguiente: L = Ln (RR) Una vez estimado el ratio, podrá estimarse el intervalo de confianza del mismo mediante la siguiente función [Gurevitch, J. and Hedges, L.; 2001] [Miguez, E. & Bollero, G; 2005]: l Z / 2 v l Z / 2 v L = Ln (RR) Z es la cantidad de desvíos estándar que separan, al nivel de significancia dado, la media del límite. En general se utiliza 1.96 (α = 0.05) v es el error típico Figura 8: estimación del intervalo de confianza La función para estimar el error típico, mencionado en la función anterior, es la siguiente [Hedges, L.; et al; 1999]: v S 2E S 2C n E Y 2 E n C Y 2C V es el error típico S2‘s son la varianza de los grupos experimental (E) y de control (C) Y‘s son las medias de los grupos experimental (E) y de control (C) n‘s son los números de sujetos de los grupos experimental (E) y de control (C) Figura 9: estimación del error típico Una vez estimados el intervalo de confianza, se debe aplicar al mismo el antilogaritmo para obtener nuevamente el índice de relación. La estimación del efecto global se realiza mediante la suma ponderada de los efectos individuales [Johnson, D.; et al; 2001]. Donde, a semejanza de lo que sucede con las diferencias medias ponderadas, cada estudio es ponderado en función de su tamaño y la inversa de la varianza. A continuación se describe la función de estimación: k L* * Wi Li i 1 * ik1Wi L* es el efecto global Li es el efecto individual Wi es el factor de peso = 1/v Figura 10: estimación del efecto global Una vez estimado el Ratio Global, podrá estimarse el intervalo de confianza del mismo mediante la siguiente función [Gurevitch, J. and Hedges, L.; 2001] [Miguez, E. & Bollero, G; 2005]: L * Z / 2 v L * Z / 2 v L* es el efecto global Z es la cantidad de desvíos estándar que separan, al nivel de significancia dado, la media del límite. En general se utiliza 1.96 (α = 0.05) v es el error típico (1/ 1/ W ) ) i Figura 11: estimación del intervalo de confianza global Al igual que en el caso de la estimación del ratio individual, una vez estimados el intervalo de confianza, se debe aplicar el anti-logaritmo a los resultados para obtener nuevamente el índice de relación. 2.3 Response Ratio No Paramétrico: La estimación del Response Ratio consiste en dividir la media del tratamiento Experimental por la media del tratamiento de Control [Hedges, L.; et al; 1999] como se muestra a continuación: RR YE YC RR es el Response Ratio Y‘s son la media de los grupos experimental (E) y de control (C) Figura 12: estimación del RR (tamaño de efecto) Como se mencionó cuando se describió a la versión paramétrica de este método, para mejorar la precisión de esta función (RR=YE/YC), se incorporó a la misma el logaritmo natural [Hedges, L.; et al; 1999] [Miguez, E. & Bollero, G; 2005]. Esto permite linealizar los resultados (mientras que el RR es afectado más por los cambios en el denominador que en el numerador, el Ln (RR) afecta de modo parejo al numerador y el denominador) y, de esa forma, normalizar su distribución, convirtiéndolo en un método apropiado para estimaciones de experimentos de pequeño tamaño. La nueva función de estimación es la siguiente: Li Ln(RR ) Una vez estimado el tamaño de efecto, podrá estimarse el intervalo de confianza mediante la siguiente función [Gurevitch, J. and Hedges, L.; 2001] [Miguez, E. & Bollero, G; 2005]: Li Z / 2 v Li Z / 2 v Li Ln(RR) Z es la cantidad de desvíos estándar que separan, al nivel de significancia dado, la media del límite. En general se utiliza 1.96 (α = 0.05) V es el error típico Figura 13: estimación del intervalo de confianza Para estimar el error típico, esta versión del Response Ratio no requiere conocer las varianzas, como lo hace la versión original. En su lugar hace una estimación en base a la cantidad de sujetos y el response ratio, como se muestra a continuación [Worn, B.; et al; 2007]: v nC nE Ln( RR 2 ) nE nC 2(nC nE ) v es el error típico n‘s son los números de sujetos de los grupos experimental (E) y de control (C) RR es el Response Ratio Figura 14: estimación del error típico Una vez estimados el intervalo de confianza, se debe aplicar el anti-logaritmo a los resultados para obtener nuevamente el índice de relación. Es importante destacar que esta situación traer aparejado que el nuevo intervalo de confianza no sea simétrico. La estimación del efecto global se realiza mediante el promedio ponderado de los efectos individuales. Aquí cada estudio es ponderado en función de su tamaño (se debe a que no se conocen las varianzas reales). De esta forma, los estudios que incluyan mayor cantidad de sujetos experimentales recibirán una mayor ponderación por considerar que sus resultados son más fiables, o tienen menor posibilidad de incurrir en un error, que los resultados obtenidos en los estudios pequeños. A continuación se describe la función de estimación: k L* * Wi Li i 1 * ik1Wi L* es el efecto global Li es el efecto individual Wi es el factor de peso = 1/v Figura 15: estimación del efecto global Una vez estimado el tamaño de efecto, podrá estimarse el intervalo de confianza mediante la siguiente función [Gurevitch, J. and Hedges, L.; 2001] [Miguez, E. & Bollero, G; 2005]: L * Z / 2 v L * Z / 2 v L* es el efecto global Z es la cantidad de desvíos estándar que separan, al nivel de significancia dado, la media del límite. En general se utiliza 1.96 (α = 0.05) v es el error típico (1/ 1/ W ) ) i Figura 16: estimación del intervalo de confianza global Al igual que en el caso de la estimación del efecto individual, una vez estimados el intervalo de confianza, se debe aplicar el anti-logaritmo a los resultados para obtener nuevamente el índice de relación. 2.4 Vote Counting: El Vote counting es un método que requiere muy poca información para poder ser aplicado, básicamente conocer si existe o no diferencia entre las medias de los tratamientos y la cantidad de sujetos experimentales utilizados en el estudio experimental. Si bien existen varias versiones de esta técnica, en este apartado se describirá la versión desarrollada por [Hedges, L.; Olkin, I.; 1985]. Esta versión permite estimar el tamaño de efecto partiendo del signo de las diferencias de las medias y la cantidad de sujetos experimentales, los cuales se combinan mediante la aplicación de la función de verosimilitud. Esta función que permite establecer, en base al signo de la diferencia de medias y la cantidad de sujetos, cual es el valor de efecto que tiene mayor probabilidad de ocurrencia. A continuación se describe dicha función [Hedges, L.; Olkin, I.; 1985]: L(δ|X1,….Xn) es la X i ln 1 ñ probabilidad del L( | X 1 ,....., X i ) i 1 1 X i ln ñ efecto k δ es el tamaño de efecto a testear Xi es el valor del voto de cada estudio ñ = (nE+nC) (nE*nC) / es la probabilidad obtenida de la distribución normal Figura 17: estimación del efecto global Una vez establecido el efecto de mayor probabilidad se podrá determinar el intervalo de confianza para el mismo, el cual en general es más amplio que el estimado mediante WMD. La función para estimar el intervalo de confianza es la siguiente [Hedges, L.; Olkin, I.; 1985]: Z / 2 v( ) Z / 2 v( ) δ es el tamaño de efecto de mayor probabilidad Z es la cantidad de desvíos estándar que separan, al nivel de significancia dado, la media del límite. En general se utiliza 1.96 (α = 0.05) v(δ) es el error típico Figura 18: estimación del intervalo de confianza Donde el error típico (v(δ)) se estima como se muestra en la siguiente función [Hedges, L.; Olkin, I.; 1985]: k v( ) { i 1 1 [ Di1 ]2 } pi (1 pi ) k es el número de experimentos pi 1 ( ñi ) Di1 ñi ( 12 ñi 2 ) e 2 Figura 19: estimación del error típico 3 Descripción del problema Si bien existen pruebas que muestran la potencia de las técnicas de agregación en contextos experimentales maduros (por ejemplo medicina), no se conoce como es el comportamiento de las mismas en contextos experimentales poco maduros en los cuales la cantidad de estudios experimentales a agregar y la cantidad de sujetos experimentales en dichos estudios son escasos, como sucede actualmente en Ingeniería del Software. 4 Solución propuesta Para determinar la precisión de las distintas técnicas de agregación se llevará a delante un proceso de simulación basado en la técnica de Monte Carlo [Knuth, D.; 1997]. El objetivo del proceso de simulación es evaluar el desempeño de cuatro métodos de agregación (Diferencia Medias Ponderadas, Conteo de Votos Estadístico y Response Ratio paramétrico y no paramétrico) en diferentes contextos experimentales (variando las varianzas, los tamaños de efectos y la cantidad de experimentos y sujetos experimentales por experimento) mediante la utilización de la técnica de Montecarlo como estrategia para la generación de valores aleatorios, con el objeto de determinar en qué condiciones los métodos de agregación son fiables y tienen buena potencia estadística, fijando las mismas en 95% (error de tipo I = 0,05) y 80% (error de tipo II = 0,2) respectivamente. La simulación de Monte Carlo es una técnica que combina conceptos estadísticos (muestreo aleatorio) con la capacidad que tienen los ordenadores para generar números pseudo-aleatorios siguiendo una distribución de probabilidad normal. En este contexto, se utilizó esta técnica para simular los valores que hubieran generado los distintos sujetos en el uso de los tratamientos experimental y de control, en base a los cuales se estimar la media y la varianza de cada experimento. El primer paso para desarrollar el proceso de simulación es definir los valores poblacionales de los cuales se desprenderán los valores de la muestra que se va a simular. Los tamaño de efecto (Te) poblacional a analizar son bajo (0,2), medio (0,5) y alto (0,8), mas la incorporación del tamaño de efectos muy alto (1,2). La media poblacional del tratamiento de control (Uc) es fijada en 100 y los desvíos estándar son fijado en los siguientes porcentajes respecto de la media del tratamiento de control: 10% al cual llamaremos varianza (V) baja; 40% al cual llamaremos varianza media; y 70% al cual llamaremos varianza alta. Por su parte la media poblacional del tratamiento experimental se estimará de la siguiente forma Ue=100+Te*V y el ratio poblacional que se utilizará para validar los resultados que generen el RR paramétrico y no paramétrico será estimado: RR = Ue/Uc. Por otra parte, la cantidad de experimentos a agregar en cada proceso de agregación irá desde 2 a 10 incrementándose de dos en dos, por considerar que el contexto experimental de la IS no aporta hoy día muchos experimentos potencialmente agregables en un proceso de agregación. Conteniendo cada uno de los experimentos cantidades similares de sujetos experimentales fijadas en :4, 8, 10, 14 y 20 por considerar que los estudios hechos en IS hoy día contienen pocos sujetos experimentales y por ser este es uno de los contextos menos explorados en los trabajos previos. Por último, para cada combinación de valores de las variables (tamaño de efecto, desvío estándar, la cantidad de experimentos y cantidad de sujetos experimentales por experimento) se construirán 1.000 simulaciones. 5 Resultados obtenidos A continuación, las tabla 1 y 2, presenta un resumen de los resultados obtenidos. Las tablas vinculadas a la fiabilidad indican el porcentaje de veces (debe ser superior al 95%) que el intervalo de confianza estimado (intervalo del 95%) contuvo el valor del tamaño de efecto poblacional, mientras que las tablas vinculadas a la potencia estadística indican el porcentaje de veces (que debe ser superior al 80%) que el intervalo de confianza no contuvo el valor 0 para los métodos DMP y VC y el valor 1 para los métodos RR paramétricos y no paramétricos. Para facilitar la compresión de las mismas, se resaltaron las celdas en las cuales los porcentajes estimados superaban al valor mínimo fijado, 95% para la fiabilidad y 80% para la potencia estadística. 5.1 Fiabilidad A continuación, en la tabla 1, se presenta un cuadro comparativo general del desempeño de los métodos analizados. Para facilitar la comprensión de los aspectos aquí volcados se desarrollo la siguiente codificación: + significa que el método se comporto de forma fiable y - significa que el método no se comporto de forma fiable. Varianza Efecto Sujetos por Experimen tos Alta, media y baja Bajo Medio Alto Muy Alto y Cantidad de Sujetos totales DMP VC RRP RRNP <8 + - - + >=8 + - + + <8 + - - + >=8 < 80 + - + + >=8 >= 80 + + + + <8 - - - + >=8 - - + + Tabla 1: comparación de la fiabilidad de los métodos de agregación Como se observa en la tabla 1 los métodos RR han sido fiables a lo largo de toda la prueba, por su parte la DMP solo mostro fiabilidad en contextos de tamaños de efecto medio y bajo y el VC solo tuvo fiabilidad en contextos de efectos medios. Mostrando a la varianza como un factor que no afecta muy poco a la fiabilidad de los métodos. 5.2 Potencia Estadística A continuación, en la tabla 2, se presenta un cuadro comparativo general del desempeño de los métodos analizados. Para facilitar la comprensión de los aspectos aquí volcados se desarrollo la siguiente codificación: + significa que el método posee potencia estadística y - significa que el método no posee potencia estadística. Varianza Efecto Cantidad de sujetos totales DMP VC RRP RRNP Alta Bajo < 160 - - - - >= 160 - + - - < 40 - - - - >= 40 y < 80 - + - - >= 80 y < 120 + + - - >= 120 y < 160 + + + - >= 160 + + + + < 20 - - - - >= 20 y < 48 - + - - >= 48 y < 80 + + - - Medio Alto Varianza Efecto Muy alto Media Bajo Medio Alto Muy alto baja Bajo Medio Alto Muy alto Cantidad de sujetos totales DMP VC RRP RRNP >= 80 + + + + < 32 - + - - >= 32 y < 48 + + + - >= 48 + + + + < 160 - - - - >= 160 - + - - < 48 - - - - >= 48 y < 112 - + - - >= 112 y < 140 + + - - >= 140 + + + - < 20 - - - - >= 20 y < 48 - + - - >= 48 y < 100 + + + - >= 100 + + + + < 32 - + - - >= 32 y < 80 + + + - >= 80 + + + + < 160 - - - - >= 160 - + - - < 32 - - - - >= 32 y < 48 - + - - >= 48 y < 112 - + + - >= 112 + + + - < 16 - - - - >= 16 y < 48 - + - - >= 48 y < 64 - + + - >= 64 + + + - < 16 - + - - >= 16 y < 32 - + + - >= 32 + + + - Tabla 2: comparación de la potencia estadística de los métodos de agregación En la tabla 2 se observa que para la potencia estadística la varianza afecta fuertemente al RR no paramétricos, método que en general no aporta resultados significativos, por otra parte, también se ve que, en general, la combinación de cantidad de sujetos experimentales y el tamaño de efecto afectan directamente a los métodos para determinar si las diferencias son significativas o no. 5.3 Discusión Un aspecto llamativo identificado durante el análisis de los resultados fue el hecho de la cantidad de estudios y la cantidad de sujetos experimentales por estudio mostraron tener un comportamiento relacionado. Esto se ve claramente cuando se analiza la potencia estadística, donde se requiere que el producto de la cantidad de experimentos y la cantidad de sujetos experimentales por experimento supere un mínimo para que el método alcance el mínimo de potencia requerido. Este hecho indica que un paliativo a la baja cantidad de experimentos es contar con experimentos de gran tamaño. Esto se debe a que el objetivo de estos métodos es obtener resultados abalados con alto nivel de evidencia empírica, la cual pude provenir de pocos estudios de gran tamaños o muchos estudios pequeños. Respecto del desempeño de cada uno de los métodos podemos decir que: Es fiable utilizar el método DMP en contextos experimentales donde los tamaños de efecto poblacionales son bajos o medios, siendo su condición óptima de aplicación cuando los efectos son medios y el conjunto de experimentos a agregar superen a los 112 sujetos experimentales. Cuando los efectos poblacionales son altos o muy altos, el método tiende a perder fiabilidad sobre todo cuando se incrementa la cantidad de experimentos y la cantidad de sujetos experimentales. Este hecho, que a priori contradice el sentido común, se produce por una reducción en el tamaño del intervalo de confianza y por una subestimación del tamaño de efecto por diferencias en los valores del desvío estándar, pero se compensa, en parte, con el aumento de la potencia estadística, lo cual permite a los investigadores asegurar que uno de los tratamientos es mejor que el otro a pesar de que el tamaño de efecto indicado no sea exacto. Es aconsejable utilizar el método RR paramétrico, siempre y cuando los estudios a agregar posean más de 4 sujetos experimentales. El método mostró ser robusto ante los cambios en la varianza, tamaños de efecto y cantidad de experimentos a agregar (no pierde fiabilidad como sucede con DMP). Su condición óptima de aplicación varía en función del tamaño de efecto poblacional y la cantidad de sujetos experimentales que los estudios totalicen. Pudiéndose observar el siguiente patrón de comportamiento: para efectos muy altos se requieren por lo menos 80 sujetos experimentales, para efectos altos se requieren como mínimo 100 sujetos experimentales y para un efecto medio se requieren como mínimo 140 sujetos experimentales, para que el método posea fiabilidad y potencia estadística. Es fiable utilizar el método VC, solo cuando el tamaño de efecto es medio se cuenta con experimentos que totalicen más de 80 sujetos experimentales. Su falta de fiabilidad es compensada en parte con su alta potencia, pero se debe tener mucho cuidado con el uso del mismo sobre todo en contextos experimentales donde el tamaño de efecto poblacional es bajo. En contextos de tamaños de efectos altos, la perdida de fiabilidad es compensada en parte con la alta potencia estadística. El método RR no paramétrico ha sido el método más fiable de todos los analizados. Su mayor problema está dado por la baja potencia estadística que se acentúa en contextos donde la población tiene baja varianza. Esto se debe a que en contexto de baja varianza no se requiere que la diferencia entre las medias sea excesiva para que el efecto sea alto. Su condición óptima de aplicación varía en función de la varianza poblacional, el tamaño de efecto poblacional y la cantidad de sujetos experimentales que los estudios totalicen. Pudiéndose observar el siguiente patrón de comportamiento: para varianzas poblacionales medias y tamaños de efecto poblacionales altos o muy altos se requieren como mínimo 100 sujetos experimentales, para varianzas poblacionales altas con tamaños de efecto poblacionales muy altos se requieren como mínimo 48 sujetos experimentales, para efectos poblacionales medios se requieren como mínimo 80 sujetos experimentales y para efectos poblacionales altos se requieren como mínimo 16 sujetos experimentales, para que el método posea fiabilidad y potencia estadística. 6 Conclusiones Dentro de los parámetros normales que hoy presenta la IS el método DMP ha mostrado comportarse de forma confiable, por lo que no es necesario utilizar el método RR paramétrico como método alternativo al mismo. Por otra parte, en los casos en que los reportes experimentales no sean completos, el método RR no paramétrico mostró un comportamiento mucho más fiables que el VC que, en general, no dio buenos resultados. No obstante esto, si se trabaja en un entorno donde los tamaños de efecto son altos, el contexto cambia drásticamente, ya que aquí el método DMP deja de ser fiable, lo cual implica que los tamaños de efectos estimados pueden no ser correctos, por tal motivo el método RR paramétrico, que si ha mostrado ser fiable cuando los tamaños de efecto son altos, se convierte en el método más recomendable cuando los reportes son completos, mientras que el método RR no paramétrico sigue siendo el mejor método cuando los reportes no son completos. Referencias: Borenstein, M.; Hedges, L; Rothstein, H.; 2007; Meta-Analysis Fixed Effect vs. random effect; WWW.Meta-Analysis.com Cochrane; 2008; Curso Avanzado de Revisiones Sistemáticas; www.cochrane.es/?q=es/node/198 Davis, A.; Dieste o.; Hickey, A.; Juristo, N.; Moreno, A.; 2006; Effectiveness of Requirements Elicitation Techniques: Empirical Results Derived from a Systematic Review; 14th IEEE International Requirements Engineering Conference (RE'06) pp. 179-188 Gambara, H.; botella, J.; gempp, R.; 2002; Empty time and full time. A metaanalysis of age-related changes perceiving time; © 2002 by Fundación Infancia y Aprendizaje, ISSN: 0210-9395 García, R.; 2004; Inferencia Estadística y Diseño de Experimentos; eudeba; Buenos Aires Argentina. Gurevitch, J. and Hedges, L.; 2001; Meta-analysis: Combining results of independent experiments. Design and Analysis of Ecological Experiments (eds S.M. Scheiner and J. Gurevitch), pp. 347–369. Oxford University Press, Oxford. Hedges L.; Gurevitch J.: Curtis P.; 1999; Meta Analysis http://www.bio.mq.edu.au/pgrad/SIBS/Meta_analysis.PPT Hedges, L.; Olkin, I.; 1985; Statistical methods for meta-analysis. Academic Press. Johnson, D.; Curtis, P.; 2001; Effects of forest management on soil C and N storage: meta analysis; Forest Ecology and Management 140 (2001) 227±238 Knuth, D.; 1997; The Art of Computer Programming; Addison-Wesley, vol 2, 1997 Lajeunesse, M & Forbes, M.; 2003; Variable reporting and quantitative reviews: a comparison of three meta-analytical techniques. Ecology Letters, 6: 448454. Miguez, E. & Bollero, G; 2005; Review of Corn Yield Response under winter cover cropping systems using Meta-Analytic Methods; Crop Science Society of America Worn, B.; Barbier, E.; Beaumont, N.; Duffy, J.; Folke, C; Halpern, B.; Jackson, J.; Lotze, H.; Micheli, F.; Palumbi, S.; Sala, E.; Selkoe, K.; Stachowics, J.; Watson, R; 2007; Supporting Online Material: Impacts of biodiversity loss on ocean ecosystem services.