Unidad 8 - Aula Virtual Regional. Campus Virtual de Salud Pública
Transcripción
Unidad 8 - Aula Virtual Regional. Campus Virtual de Salud Pública
Unidad 8. Búsqueda, evaluación y síntesis de la evidencia III 1. ¿Cómo se evalúa la calidad de la evidencia usando el sistema GRADE? La calidad de la evidencia se define en el contexto de las guías informadas por evidencia como la confianza que se tiene en que los estimadores de un efecto son adecuados para soportar o informar una decisión en particular o una recomendación(1). Es importante distinguir entre el uso del término “calidad” para referirse a la calidad de la evidencia, respecto del uso habitual de este término en epidemiología clínica para referirse a la validez interna o riesgo de sesgo de un estudio en particular. Como se dijo en capítulos anteriores, GRADE evalúa la calidad de la evidencia o la confianza en los estimadores de efecto para un cuerpo de evidencia (varios ensayos clínicos o estudios observacionales informando sobre un desenlace en particular), y no a nivel de estudios individuales. Cuatro niveles han sido identificados para determinar la calidad de la evidencia(1): alta, moderada, baja y muy baja calidad de la evidencia (ver tabla 8.1) Tabla 8.1 Significado de los cuatro niveles de calidad de la evidencia en el sistema GRADE(1) Calidad Definición Alta Existe una alta confianza de que el verdadero efecto se encuentra muy cercano al estimador de efecto reportado en el cuerpo de evidencia Moderada Existe una confianza moderada en el estimador de efecto. Es probable que el verdadero efecto se encuentre próximo al estimador de efecto reportado en el cuerpo de evidencia, pero existe la posibilidad de que sea diferente Baja La confianza en el estimador de efecto es limitada. El verdadero efecto podría ser muy diferente del estimador de efecto reportado en el cuerpo de evidencia Muy baja Existe muy poca confianza de que en el estimador de efecto. Es altamente probable que el verdadero efecto sea sustancialmente diferente del estimador de efecto reportado en el cuerpo de evidencia Entendiendo entonces que calidad de la evidencia es un término global, el primer paso antes de su determinación es definir el tipo de estudio que está informando sobre los estimadores de efecto. Cuando se utilizan ensayos clínicos aleatorizados, la calidad de la evidencia parte por defecto calificada como alta. Sin embargo, existen cinco factores que pueden disminuir la confianza en los estimadores de efecto: - Riesgo de sesgo o 0 no hay riesgo de sesgo o -1 serio o -2 muy serio - Inconsistencia o 0 no hay inconsistencia o -1 seria o -2 muy seria - Pertinencia de la evidencia o 0 evidencia directa o -1 seria o -2 muy seria - Imprecisión o 0 no hay imprecisión o -1 seria o -2 muy seria - Sesgo de publicación o 0 improbable o -1 probable o -2 muy probable A la vez, cuando son estudios observacionales los que aportan con estimadores de efecto, la calidad de la evidencia parte por defecto calificada como baja. Sin embargo, existen 3 factores que pueden aumentar la confianza en los estimadores de efecto: - La magnitud del efecto de tratamiento es grande o +1 grande o +2 muy grande - Existe un gradiente dosis respuesta o +1 evidencia de un gradiente - Todos los factores confundentes plausibles y otros sesgos aumentan nuestra confianza en el efecto estimado o +1 si se observa un efecto grande que la confusión residual hubiera disminuido o +1 si se observa un efecto pequeño que la confusión residual hubiera aumentado Cuando el grupo elaborador de la guía elija una revisión sistemática para informar una recomendación, no es la revisión en sí misma a la que se le evalúa la calidad de la evidencia, es al cuerpo de evidencia, es decir, a los estudios incluidos (ensayos clínicos aleatorizados o estudios observacionales). En este sentido, cuando la revisión es de buena calidad, permite ahorrar tiempo ya que se utiliza la evidencia recolectada por los autores para elaborar el perfil de evidencia. 2. ¿Cuáles son los criterios para evaluar el riesgo de sesgo? Tanto los ensayos clínicos como los estudios observacionales pueden presentar resultados erróneos o sesgados debido a limitaciones de su diseño o la forma en que son llevados a cabo. En GRADE, los términos validez y validez interna, reciben el nombre de riesgo de sesgo o limitaciones de los estudios. Cuando se evalúa el riesgo de sesgo de un grupo de estudios, se debe realizar primero una evaluación por estudio, que luego informa a la evaluación general para cada uno de los desenlaces. Esto significa, por ejemplo, que en un mismo ensayo clínico o estudio observacional, reportando 3 desenlaces, es posible tener bajo riesgo de sesgo para uno de los desenlaces y alto riesgo de sesgo para otro(2, 3). Respecto de los 2 primeros puntos en la Tabla 8.2, la falta de ocultamiento de la secuencia de aleatorización y ciego en ensayos clínicos son limitaciones que no siempre representan una real amenaza para los resultados de un estudio (por ejemplo, cuando se evalúa el desenlace: mortalidad o niveles de HbA1c). Sin embargo, no contar con estos métodos es especialmente grave cuando los desenlaces de un estudio están sujetos a la subjetividad de los pacientes o de quienes determinan la ocurrencia de un desenlace(4) (dolor, satisfacción del paciente, calidad de vida, etc.) Tabla 8.2 Limitaciones (riesgo de sesgo) en ensayos clínicos aleatorizados(5)* 1. Ausencia de ocultamiento de la secuencia de aleatorización - Los pacientes reclutados en el estudio tienen conocimiento del grupo (o período en un estudio cruzado (cross-over)) al que será asignado el próximo paciente a ingresar al estudio. Esto genera un problema serio en los estudios “pseudo” o “cuasi” aleatorizados donde se utiliza el día de la semana, fecha de nacimiento, o número de ficha clínica, en lugar del azar, para ser asignado a los grupos de tratamiento 2. Ausencia de cegamiento - Los pacientes, sus tratantes, quienes colectan los resultados, los adjudicadores de desenlaces, o quien analiza la información, están en conocimiento de la intervención a la que fueron asignados los pacientes (o conocen qué medicamento se encuentran tomando los pacientes en un diseño cruzado (cross-over)) 3. Pérdida de seguimiento de pacientes y eventos - La pérdida de seguimiento y la falta de adherencia al principio de intención de tratar en ensayos de superioridad, o pérdidas de seguimiento y no conducir ambos análisis considerando sólo a aquellos pacientes que adhirieron al tratamiento o aquellos en los que se logró medir el desenlace, en el caso de los estudios de no-inferioridad 4. Reporte selectivo de desenlaces o outcomes - Reporte incompleto o ausente de alguno de los desenlaces y no de otros 5. Otras limitaciones - Ensayos detenidos precozmente por beneficio - Uso de métodos no validados para la medición del desenlace (desenlaces reportados por los pacientes) - Efecto arrastre (carry-over) en estudios clínicos cruzados (cross-over) - Sesgo de reclutamiento en ensayos clínicos por conglomerados (cluster) * traducida de Guyatt et al.(5) Tabla 8.3 Limitaciones (riesgo de sesgo) en estudios observacionales(5)* 1. Falta de criterios de selección apropiados (criterios de inclusión de la población control) - Falta o sobre pareamiento (matching) en estudios de casos-controles - Selección de expuestos y no expuestos de distintas poblaciones en estudios de cohorte 2. Métodos inapropiados para la medición de la exposición y el desenlace - Diferencias en la medición de la exposición (sesgo de memoria en estudios de casoscontroles) - Métodos dispares para la detección del desenlace en expuestos y no expuestos en estudios de cohorte 3. Métodos inadecuados para controlar factores confundentes - Falta de métodos apropiados para la medición de todos los factores pronósticos conocidos - Falta de pareamiento (matching) de factores pronósticos y/o falta de ajuste en el análisis estadístico 4. Seguimiento incompleto de los sujetos * traducida de Guyatt et al.(5) Por ejemplo(6) la figura 8.1 corresponde a la evaluación del riesgo de sesgo realizada en una revisión sistemática Cochrane por Cates et al.,(2008) sobre el uso de salmeterol comparado con su no uso para el manejo del asma crónico. El desenlace de interés fue efectos adversos del tratamiento. Los autores encontraron aproximadamente 30 ensayos clínicos aleatorizados reportando información al respecto. La figura 8.2 muestra el detalle de los aspectos que evaluaron los autores de la revisión en cada uno de los estudios incluidos. Particularmente determinaron si los autores de los estudios primarios mantuvieron la secuencia de aleatorización oculta, si se mantuvo el cegamiento a pacientes e investigadores, y si los estudios estuvieron libres de reporte selectivo de desenlaces, es decir, si los efectos adversos (desenlace de interés) fueron efectivamente reportados. La figura 8.3 muestra que alrededor del 50% de los estudios cometieron reporte selectivo de desenlaces (área en rojo). Esto significa que estos estudios, debiendo reportar información sobre el desenlace de interés (efectos adversos), no lo hacen. Fig 8.1 Evaluación del riesgo de sesgo en una revisión sistemática Cochrane Fig 8.2 Evaluación del riesgo de sesgo en una revisión sistemática Cochrane Fig 8.3 Gráfico de la evaluación del riesgo de sesgo para cada ítem, presentada como porcentaje para los estudios incluidos Como en GRADE la evaluación del riesgo de sesgo se realiza para cada uno de los desenlaces de interés, usando los datos de las figuras 8.1, 8.2 y 8.3, hay suficiente información para realizar un juicio y determinar si para el desenlace “efectos adversos” debemos disminuir la calidad de la evidencia. Siendo todos estos estudios ensayos clínicos aleatorizados, por defecto parten entregando alta calidad de evidencia. GRADE ofrece 3 posibles juicios a este respecto: - No existen serias limitaciones (no reducimos la calidad de la evidencia para el desenlace de interés) - Existen limitaciones serias (reducimos la calidad de la evidencia -1) - Existen limitaciones muy serias (reducimos la calidad de la evidencia -2) En el caso particular de este ejemplo, existen serias limitaciones debido al reporte selectivo del desenlace “efectos adversos” y no existe suficiente información para determinar si los autores de los estudios primarios aplicaron la secuencia de aleatorización de forma oculta (área en amarillo fig. 8.3). Por las razones aquí explicadas, para el desenlace de interés, se debe disminuir la calidad de la evidencia en -1. En este caso, disminuimos la calidad de la evidencia en -1, bajando de alta a moderada calidad. Actividad 8.1 Para esta actividad utilizaremos la revisión Cochrane “Probiotics for the prevention of pediatric antibiotic-associated diarrhea” (este documento lo encontarrá en “Material Complementario” con el nombre de “Actividad 8.1 - probiotics SR.pdf”). El desenlace primario de esta revisión es la incidencia de diarrea. Nos enfocaremos en la dosis > 5 billones de UFC de probióticos por día (Análisis 1.2, página 47 de la revisión – RR 0.40 IC95% 0.29-0.55). Evalúe si es que debiera disminuirse la calidad de la evidencia debido al riesgo de sesgo de los estudios reportando este desenlace. Para este propósito le sugerimos seguir los siguientes pasos: 1. Identifique el nombre del primer autor de cada uno de los estudios incluidos en el meta-análisis reportando la incidencia de diarrea con dosis > 5 billones de UFC de probióticos por día. 2. Diríjase a las figuras que reportan el análisis del riesgo de sesgo realizado por los autores de la revisión (páginas 10 y 11) e identifique los estudios incluidos en el meta-análisis. 3. Si necesita más información sobre cada uno de los estudios, puede dirigirse a la sección “características de los estudios incluidos” (página 23 de la revisión). 3. Defina si existen limitaciones en los estudios que podrían disminuir la confianza en el estimador (No existen serias limitaciones, existen limitaciones serias, existen limitaciones muy serias) para el desenlace incidencia de diarrea en dosis > 5 billones de UFC de probióticos por día. Justifique y suba su respuesta en el área de Tareas. 3. ¿Cuáles son los criterios para evaluar la imprecisión? La precisión o el grado de impresión de los resultados de un estudio depende principalmente del error aleatorio. Este se produce en forma inevitable como consecuencia de realizar un estudio con una muestra, en lugar de estudiar a toda la población y generalizar los resultados que se han obtenido en esta muestra, de vuelta a toda la población. Este error se puede cuantificar mediante el cálculo del intervalo de confianza. Particularmente, este tipo de error será mayor si la muestra es más pequeña y disminuirá al aumentar el tamaño muestral, llegando a desaparecer si se estudia a toda la población. El principal criterio en GRADE para juzgar el grado de precisión de un estimador de efecto es el intervalo de confianza(7). Los intervalos de confianza entregan información sobre el impacto del error aleatorio sobre la calidad de la evidencia. Estos representan el rango de resultados dentro de los cuales probablemente se encuentra el verdadero efecto. Al momento de evaluar la calidad de la evidencia, la pregunta si el intervalo de confianza alrededor del estimador de efecto es suficientemente pequeño. Si no lo es, debemos disminuir la calidad de la evidencia en -1. Cuando el intervalo es muy amplio, debemos disminuirla en -2. Contextualizando la pregunta en el ámbito de las guías, esta debiera enunciarse como: ¿Son los resultados suficientemente precisos como para soportar una recomendación? Para responder a esta pregunta se presenta el siguiente ejemplo(8). La figura 8.4 muestra un meta-análisis extraído de una revisión Cochrane sobre la efectividad de una vacuna comparado con placebo, para reducir la incidencia de influenza en población pediátrica. Los autores identificaron 5 ensayos clínicos aleatorizados, donde sólo uno reportó resultados imprecisos (ver el estudio de Hoberman 2003b. RR 1.10 IC 95% (0.35-3.5)). Sin embargo, el estimado de resumen destacado en azul muestra un RR 0.36 IC 95% (0.28-0.48) que es suficientemente preciso. Las razones que justifican esta precisión son el tamaño muestral (alrededor de 1600 individuos estudiados), el número de eventos (252 en ambos grupos). En este caso, la decisión sobre como la precisión afecta la calidad de evidencia es clara. Si bien un estudio mostró imprecisión en sus resultados, el estimador de resumen es suficientemente preciso. Ambos extremos del intervalo de confianza muestran un evidente beneficio. En situaciones como esta, no es necesario disminuir la calidad de la evidencia debido a imprecisión en la estimación del efecto. Fig. 8.4 Meta-análisis sobre la efectividad de una vacuna comparada con placebo para reducir la incidencia de influenza Otra forma de juzgar el grado de precisión de un estimador a partir del intervalo de confianza es analizar si los extremos del intervalo muestran entre las posibilidades, un gran beneficio, considerables daños, y además, no efecto. Por ejemplo, un riesgo relativo de 1.03 para la ocurrencia de un desenlace adverso, con un intervalo de confianza entre 0.75 y 1.25, muestra, una importante reducción del 25% en un extremo del intervalo, y un claro aumento del 25% en la incidencia de este desenlace en el otro extremo. A la vez, el intervalo pasa por el valor de nulidad (RR=1). Debido a que en este caso el intervalo de confianza incluye el no efecto, y sugiere un gran beneficio y daño, debe disminuirse la calidad de la evidencia para este desenlace. Existe un escenario que representa una excepción a los argumentos que hemos descrito para disminuir la calidad de la evidencia. Esto ocurre cuando a pesar de tener intervalos de confianza pequeños, el número de eventos es muy bajo. La figura 8.5 muestra un meta-análisis extraído de una revisión sistemática Cochrane en la que los autores encontraron 2 ensayos clínicos informando sobre la efectividad de la vitamina C comparada con placebo para reducir la incidencia de resfrió común. Si bien los intervalos de confianza son pequeños y el estimador de resumen se muestra a favor de vitamina C, sólo hay 30 eventos entre ambos grupos. En este caso se debe disminuir la calidad de la evidencia debido a la imprecisión de los resultados. Fig. 8.5 Meta-análisis sobre la efectividad de la vitamina C comparado con placebo sobre la incidencia de resfrío común Dado que en este curso estamos estudiando el uso del sistema GRADE en el contexto del desarrollo de guías, es fundamental interpretar el intervalo de confianza respecto del umbral de decisión. Este umbral representa un valor preestablecido que determina cuál es el mínimo valor de beneficio o daño en salud que permitiría al panel recomendar una intervención o recomendar en contra de su aplicación. Siempre es importante la valoración conjunta de los beneficios y potenciales daños que acarrearía la implementación de una medida de salud. Para esta actividad seguiremos utilizando la revisión Cochrane “Probiotics for the prevention of pediatric antibiotic-associated diarrhea”. Esta vez nos enfocaremos en el desenlace “duración de la Actividad 8.2 diarrea” (en días) y analizaremos si es necesario disminuir la calidad de la evidencia debido a imprecisión, desde el punto de vista de un panel de expertos tomando la decisión de implementar el uso de probióticos para reducir la duración de los episodios de diarrea en población pediátrica. Para este propósito le sugerimos seguir los siguientes pasos: 1. Diríjase al análisis 4.1 (Comparison 4 Mean Duration of Diarrhea, Outcome 1 High Dose vs Low Dose: Complete case) que se encuentra en la página 62 de la revisión. 2. Identifique en el meta-análisis el estimador de resumen y su intervalo de confianza del 95% para el total de los estudios incluidos. 3. Basándose en el estimador citado en el punto anterior, determine si existen diferencias estadísticamente significativas entre el grupo experimental y control 4. Utilizando el intervalo de confianza del 95% para el estimador de resumen, determine si en ambos extremos de este intervalo la intervención muestra un beneficio en salud relevante para los pacientes. 5. Defina si debiese disminuirse la calidad de la evidencia debido a imprecisión en la estimación del efecto de este desenlace (Resultados precisos, resultados imprecisos, resultados muy imprecisos). Justifique y suba su respuesta en el área de Tareas. 4. ¿Cuáles son los criterios para evaluar la pertinencia de la evidencia? Qué tan pertinente es la evidencia informando la recomendación que se va a hacer, es otra razón por la que podría disminuirse la calidad de la evidencia en el sistema GRADE. Se desprende de lo anterior que se tiene más confianza en los resultados de un grupo de estudios cuando son calificados como evidencia directa. Se entiende por evidencia directa a aquella proveniente de investigación que compara las intervenciones en las que se está interesado, estudiadas en las misma población a la que se pretende aplicar, y que mide desenlaces (outcomes) relevantes para los pacientes y para la toma de decisiones en salud (ver Tabla 8.4) Tabla 8.4 Ejemplos de desenlaces sustitutos (9)* Condición Desenlace importante para los pacientes Diabetes mellitus Hipertensión arterial Demencia Síntomas clínicos, admisión en hospital, complicaciones (cardiovasculares, oculares, renales, neuropáticas) Muerte por causas cardiovasculares, infarto al miocardio, accidente vascular Funcionalidad del paciente, comportamiento, grado de dependencia Desenlace o outcome sustituto Nivel de glucosa, niveles de hemoglobina glicosilada Valores de presión arterial Función cognitiva Osteoporosis Síndrome de distrés respiratorio en el adulto Enfermedad renal terminal Fracturas Mortalidad Densidad ósea Capacidad de oxigenación Valores de hemoglobina Trombosis venosa Calidad de vida, morbilidad (falla cardiaca) y mortalidad Trombosis venosa sintomática Enfermedad respiratoria crónica Riesgo/enfermedad cardiovascular Calidad de vida, exacerbaciones, mortalidad Eventos vasculares, mortalidad Trombosis venosa asintomática Función pulmonar, capacidad de hacer ejercicio Nivel de lípidos séricos * traducida de Guyatt et al.(9) Para esta evaluación, se hace fundamental el haber elaborado preguntas en formato PICO en etapas iniciales del proceso de desarrollo de la guía. Se considera que se cuenta con evidencia indirecta cuando la población o sistema de salud, intervenciones, comparadores, y desenlaces difieren de aquellos preestablecidos por el grupo elaborador y el panel de expertos al momento de elaborar las preguntas que guían a la elaboración de recomendaciones. Existe una última razón en la que se puede establecer que no se cuenta con evidencia directa, y corresponde al escenario en que se cuenta con pocas o nulas comparaciones directas (head-to-head) disponibles entre las alternativas de manejo planteadas en la guía, y sólo existen comparaciones indirectas (ver Tabla 8.5). Tabla 8.5 Ejemplos clínicos de escenarios en que la evidencia es considerada indirecta(9)* Pregunta de interés Uso profiláctico de Oseltamivir en influenza aviar causada por Virus influenza A Tamizaje usando colonoscopía para la prevención de cáncer de colon (mortalidad) Sevelamer vs. quelantes de fosfatos de calcio en falla renal crónica Elección de un antidepresivo Motivos para calificar la evidencia como indirecta Diferencias en la población: Evidencia de la efectividad de Oseltamivir proviene de ensayos clínicos en influenza estacional, no aviar Diferencias en la intervención: Ensayos clínicos en tamizaje usando test de sangre oculta en heces provee evidencia indirecta sobre la potencial efectividad de la colonoscopía Diferencias en el desenlace (outcome): Hipótesis de que la reducción de la cantidad de fosfatos de calcio podría reducir las calcificaciones vasculares, lo cual a su vez, reduciría los eventos vasculares Comparaciones indirectas: Algunos antidepresivos han sido comparados directamente con otros. Sin embargo, otros no han sido comparados directamente. * traducida de Guyatt et al. En resumen existen 4 principales razones por las cuales es posible juzgar la evidencia disponible para informar una recomendación como indirecta: - Diferencias en la población - Diferencias en las intervenciones Diferencias en los desenlaces medidos Uso de comparaciones indirectas Un ejemplo extraído de uno de los artículos de la serie explicando la metodología del sistema GRADE(9), Ilustra una situación en la cual es necesario generar una recomendación para un problema de salud pública en el que la calidad de la evidencia tuvo que ser disminuida debido a que no se contó con evidencia directa para su resolución. Se ha demostrado en ensayos clínicos de buena calidad la efectividad de la terapia antiviral para el manejo de la influenza estacional. Ante el surgimiento súbito de la influenza aviar, se le solicitó a un panel de expertos que elaboraran una recomendación al respecto. El panel determinó que la biología de la influenza estacional era suficientemente distinta de la influenza aviar (el virus de la influenza aviar podría ser menos sensible a los antivirales usados para la influenza estacional) como para reducir la calidad de la evidencia en dos niveles (-2) por contar con evidencia muy indirecta informando la recomendación. Para esta actividad seguiremos utilizando la revisión Cochrane “Probiotics for the prevention of pediatric antibiotic-associated diarrhea”. Imagine que se le ha encomendado realizar una guía Actividad 8.3 donde una de las preguntas planteadas por el panel es: “¿Debe recomendarse el uso de probióticos para prevenir la ocurrencia de diarrea asociada a consumo de antibióticos en pacientes adultos mayores?”. Luego de haber realizado una búsqueda sistemática de la literatura, se determina que la revisión sistemática citada arriba es la única evidencia disponible para responder esta pregunta. Basándose en la información entregada determine si procede disminuir la calidad de la evidencia debido a que se considera indirecta. Justifique y suba su respuesta en el Área de Tareas. 5. ¿Cuáles son los criterios para evaluar la inconsistencia? El enfoque GRADE utiliza cuatro criterios para evaluar si la calidad de la evidencia debe disminuirse debido a que los estimadores de los efectos relativos de tratamiento (riesgos relativos, cuociente de riesgo instantáneo (hazard ratio) y odds ratios) son inconsistentes a través de los estudios que conforman el cuerpo de evidencia a utilizar para formular una recomendación: qué tan similares son los estimadores puntuales de los efectos de las intervenciones, qué tanto se sobrelapan los intervalos de confianza de los estimadores de estos efectos, el resultado de las pruebas estadísticas utilizadas para evaluar la presencia de heterogeneidad, y el valor del estadístico I2(10, 11). Debido a que las revisiones sistemáticas combinan los resultados de muchos estudios, es esperable que los resultados sean inconsistentes o heterogéneos. Esto puede ocurrir porque existen diferencias en las poblaciones, intervenciones, desenlaces o metodología de los estudios. Si es que los autores de las revisiones sistemáticas logran explicar la inconsistencia por diferencias en las poblaciones, intervenciones o desenlaces en los estudios, se recomienda que el panel de la guía realice recomendaciones por separado para cada grupo de pacientes. Por otra parte, si la inconsistencia o heterogeneidad no puede ser explicada por estos factores, la calidad de la evidencia debe ser disminuida(10). El sistema GRADE plantea que la calidad de la evidencia debe disminuirse cuando(10, 11): 1. Los estimadores puntuales de los efectos de las intervenciones varían considerablemente a través de los estudios: al observar el gráfico de bosque (forest plot) que muestra los resultados de todos los estudios incluidos en el meta-análisis, los puntos que representan el riesgo relativo (Cuociente de riesgos instantáneos (hazard ratio) u odds ratio) muestran que hay diferencias al comparar estos estimadores puntuales. Algunos pueden sugerir efectos pequeños, otros pueden sugerir efectos grandes, o incluso pueden observarse distintas direcciones del efecto del tratamiento (algunos estudios muestran beneficios de una intervención mientras otros estudios muestran beneficios de la otra intervención). 2. Los intervalos de confianza de los estimadores de los efectos no se superponen o lo hacen mínimamente: al observar los intervalos de confianza de los efectos de tratamiento de los estudios incluidos en el meta-análisis, estos debieran superponerse (Fig 8.6, der). Si no lo hacen, se puede concluir que los estudios son heterogéneos o inconsistentes (Fig 8.6, izq). Este criterio debe combinarse con el anterior, ya que puede darse el caso de que algunos estudios muestren efectos pequeños a favor de una intervención y otros a favor de la otra intervención, pero si sus intervalos de confianza se sobreponen, no habría evidencia para disminuir la calidad de la evidencia debido a inconsistencia. Debido a que ciertas situaciones este criterio es difícil de aplicar, es que se han desarrollado otros métodos más confiables para determinar la heterogeneidad de los estudios incluidos 3. La prueba estadística (Chi2) usada para evaluar la heterogeneidad muestra que hay heterogeneidad: el valor p de la prueba estadística para evaluar heterogeneidad, que evalúa si es que todos los estudios incluidos en el meta-análisis muestran una magnitud de efecto similar. Cuando el valor es menor a 0.1 se asume que existe heterogeneidad. Fig. 8.6 Meta-análisis mostrando la superposición de los intervalos de confianza 4. EL I2 muestra que la heterogeneidad es grande: el I2 cuantifica la proporción de la variabilidad de los estimadores puntuales que se debe a diferencias entre los estudios. De acuerdo a los criterios del manual de la Colaboración Cochrane, un I2 menor a 40% muestra una baja inconsistencia, de 30 a 60% la inconsistencia es moderada, de 50 a 90% es sustancial y de 75 a 100% es considerable. Luego de hacer una evaluación de cada uno de estos criterios, se debe decidir si es que es necesario disminuir la calidad de la evidencia debido a inconsistencia en un punto (resultados inconsistentes) o dos puntos (resultados muy inconsistentes). Por ejemplo, la figura 8.7 muestra los efectos del uso de antioxidantes versus placebo para disminuir las enfermedades cardiovasculares en pacientes con enfermedad renal crónica(12). Fig. 8.7. Ffectos del uso de antioxidantes versus placebo para disminuir las enfermedades cardiovasculares en pacientes con enfermedad renal crónica Basándose en los cuatro criterios, podemos observar que los estimadores puntuales de los efectos de tratamiento difieren de manera importante. Dos estudios muestran que el placebo tiene mayores beneficios que los antioxidantes, y dos estudios muestran que los antioxidantes tienen un mayor beneficio que el placebo. Las magnitudes de estos estimadores puntuales varían desde un 46% de reducción de riesgo de enfermedades cardiovasculares al consumir antioxidantes, hasta un 34% de aumento en este riesgo. En general, los intervalos de confianza de los estimadores de los estudios se superponen, incluso cuando los estudios muestran distintas direcciones de efectos de la intervención, lo que indica que la inconsistencia no es tan severa, al considerar los dos primeros criterios en conjunto. Por otra parte, podemos observar que el valor p de la prueba estadística de heterogeneidad es 0.03, y que el I2 es 67%, lo que indica que, según estos dos criterios, la inconsistencia es importante. Por lo tanto, combinando los cuatro criterios, podemos concluir que los resultados de este meta-análisis son muy inconsistentes (reducción de la calidad de la evidencia en 2 puntos). Son embargo, debe tenerse en cuenta que todos estos juicios tienen un componente subjetivo, y si los evaluadores están de acuerdo en que, si bien hay inconsistencia, pero de acuerdo a su punto de vista esta no es tan severa, se puede reducir la calidad de la evidencia en sólo un punto. Actividad 8.4 Volvamos a la revisión Cochrane “Probiotics for the prevention of pediatric antibiotic-associated diarrhea” que hemos estado analizando a lo largo de este capítulo. Nuevamente nos enfocaremos en el desenlace “duración del cuadro de diarrea” (en días) y analizaremos si es necesario disminuir la calidad de la evidencia, esta vez debido a inconsistencia de los resultados. Para este propósito le sugerimos seguir los siguientes pasos: 1. Diríjase al análisis 4.1 (Comparison 4. Mean Duration of Diarrhea, Outcome 1 High Dose vs Low Dose: Complete case) que se encuentra en la página 62 de la revisión. 2. Determine si Los estimadores puntuales de los efectos de las intervenciones varían considerablemente a través de los estudios 3. Determine si los intervalos de confianza de los estimadores de los efectos se superponen o no, o si lo hacen mínimamente 3. Identifique en el meta-análisis el resultado del test de Chi2 aplicado para determinar si existe heterogeneidad en los estudios incluidos (Heterogeneity: Chi2 = 18.97, df = 4 (P = 0.00080)) 4. Identifique además en el meta-análisis el resultado de la estimación del estadístico I2, para determinar la proporción de la variabilidad de los estimadores puntuales que se debe a diferencias entre los estudios (Heterogeneity: I2 =79%) 5. Defina si debiese disminuirse la calidad de la evidencia debido a la presencia de inconsistencia entre los estimadores de los estudios incluidos (Resultados consistentes, resultados inconsistentes, resultados muy inconsistentes). Justifique y suba su respuesta en el área de Tareas. 6. ¿Cuáles son los criterios para evaluar el sesgo de publicación? Las revisiones sistemáticas que proveen la evidencia en la que se sustentarán las recomendaciones de una guía pueden mostrar resultados incorrectos a pesar de que todos los estudios incluidos sean de muy alta calidad metodológica. Esto puede ocurrir porque los autores de la revisión sistemática, no hayan sido capaces de detectar e incluir en ella toda la evidencia disponible(13). La literatura muestra que el sesgo de publicación es un fenómeno que se manifiesta debido a que muchos estudios no son publicados. Estos estudios serían aquellos que demuestran efectos pequeños y/o estadísticamente no significativos, o resultados que no favorecen a la intervención de interés(14-16). Debido a que son estos estudios los que con mayor probabilidad no serían detectados e incluidos en las revisiones sistemáticas, el sesgo de publicación causaría una sobreestimación o subestimación de los efectos de las intervenciones(17). El sistema GRADE propone considerar disminuir la calidad de la evidencia por sesgo de publicación en la siguientes situaciones(13): 1. La evidencia está constituida por estudios pequeños, especialmente si estos estudios fueron financiados por el sector privado (o si se sospecha que esto ocurrió), o si los autores declaran o poseen conflictos de interés. 2. El patrón de los resultados de los estudios, observado usando un gráfico de embudo (funnel plot) o usando una prueba estadística(18), es asimétrico. La figura 8.8 muestra un gráfico de embudo (funnel plot) de una revisión sistemática sobre el uso de quimioterapia preoperatoria en mujeres con cáncer de mamas operable. Tal como se puede observar, los autores declaran que la distribución de los estudios, representados por los puntos azules, es simétrica con respecto a la línea punteada, que representa el efecto de tratamiento obtenido en el meta-análsis(19). Por lo tanto, en este caso, basándose en el gráfico de embudo (funnel plot), no habría sesgo de publicación. Fig. 8.8 gráfico de embudo (funnel plot)- revisión sistemática sobre el uso de quimioterapia preoperatoria en mujeres con cáncer de mamas operable Si bien ambos criterios son de ayuda, el uso del gráfico de embudo (funnel plot) y las pruebas estadísticas sufre de las limitaciones particulares a las pruebas estadísticas utilizadas. Por otra parte, puede ser útil evaluar si los autores de la revisión sistemática hicieron todos los esfuerzos para detectar estudios no publicados, y de haber conseguido alguno, si es que los resultados de estos estudios son similares a los de los estudios publicados. Tal como se puede deducir, el juicio sobre la presencia de sesgo de publicación es complejo, ya que no se puede saber con certeza absoluta si es que está presente o no. Por este motivo, el sistema GRADE utiliza los términos “no detectado” si es que no existe evidencia o sospechas de que haya sesgo de publicación, “probable”, si es que se piensa que el sesgo de publicación debe disminuir la calidad de la evidencia en un punto, o “muy probable” si es que el sesgo de publicación detectado es tan severo como para disminuir la calidad de la evidencia de dos puntos. Actividad 8.5 Volvamos a la revisión Cochrane “Probiotics for the prevention of pediatric antibiotic-associated diarrhea” que hemos estado analizando a lo largo de este capítulo. Nuevamente nos enfocaremos en el desenlace “incidencia de diarrea” y analizaremos si es necesario disminuir la calidad de la evidencia, esta vez debido a la presencia de sesgo de publicación Para este propósito le sugerimos seguir los siguientes pasos: 1. Diríjase a la figura 3 de la revisión (Funnel plot of comparison: 1 any specific probiotic versus control (placebo, active or no treatment) que se encuentra en la página 15. En esta figura se observa un gráfico de embudo (funnel plot) similar al discutido en la figura 8.8 de esta unidad. 2. Lea el párrafo en que los autores discuten la posibilidad de sesgo de publicación para este desenlace (página 14 columna derecha, último párrafo titulado “publication bias”) 3. Para complementar su juicio, diríjase a la sección “métodos” de la revisión. Luego lea en detalle la sección “Search methods for identification of studies” ¿Le parece que los autores realizaron una búsqueda suficientemente exhaustiva?, ¿Consideraron en la búsqueda literatura gris?, ¿Limitaron la evidencia a buscar por idioma, fecha de publicación, u otro factor?, ¿Qué tan probable es que realizando el proceso de búsqueda descrito en esta sección se hayan quedado fuera de la revisión artículos potencialmente incluibles? 5. Defina si debiese disminuirse la calidad de la evidencia debido a la presencia de sesgo de publicación para el desenlace “incidencia de diarrea” (Sesgo de publicación no detectado, probable, muy probable). Justifique y suba su respuesta en el área de Tareas. 7. ¿Qué otros factores se deben considerar en la evaluación de la calidad de la evidencia? Los cinco criterios mencionados anteriormente corresponden a factores que, si están presentes, nos hacen disminuir nuestra confianza en los estimadores de los efectos de tratamiento. Por el contrario, existen factores que nos llevan a incrementar esta confianza, por lo que si están presentes se debe aumentar la calidad de la evidencia. Según el sistema GRADE, debido a que los estudios observacionales sufren de mayores riesgos de sesgo, ellos comienzan como evidencia de calidad baja, razón por la que por lo general son evaluados como evidencia de calidad baja o muy baja. Sin embargo, hay casos en los que la confianza en los estimadores de efectos que proviene de estudios observacionales puede ser alta, por lo que el sistema GRADE propone el considerar 3 factores para aumentar la calidad de la evidencia(20, 21): 1. La magnitud del efecto de tratamiento es grande: si el efecto global de tratamiento es grande, y existen estudios epidemiológicos poblacionales, esto amerita aumentar la calidad de la evidencia. El sistema GRADE propone considerar riesgos relativos mayores a 2 o menores a 0.5 para aumentar la calidad de la evidencia en un nivel, y mayores a 5 o menores a 0.2 para aumentar la calidad de la evidencia en dos niveles (el intervalo de confianza de este riesgo relativo debe ser considerado dentro de estos límites). Otras características a considerar en conjunto con este factor tienen relación con la existencia de evidencia indirecta que apoye el efecto del tratamiento, y la progresión natural de la enfermedad en ausencia de tratamiento. El ejemplo que utiliza GRADE para ilustrar esto tiene relación con el reemplazo de cadera, y la gran confianza que podemos tener en que es un tratamiento efectivo no solo por la magnitud del efecto de tratamiento, sino también porque la osteoartritis de cadera es una enfermedad que conlleva a una deterioración progresiva, que es rápidamente revertida por la cirugía(20). 2. Hay un gradiente dosis-respuesta: el gradiente dosis-respuesta ha sido reconocido como indicador de relación causal por mucho tiempo. Si los efectos globales de las intervenciones aumentan al aumentar la dosis de la intervención, podemos tener una mayor confianza en que el efecto del tratamiento existe. Por ejemplo, un estudio buscó determinar si existe un gradiente dosis-respuesta de las intervenciones de enfermería para el control del temor en gestantes. Los resultados se encuentran resumidos en la tabla 8.6. Se observa en esta tabla que a mayor número de sesiones de enfermería, mayor es el control del temor en gestantes. Cuando un estudio observacional confirma la presencia de un gradiente dosis respuesta, la calidad de la evidencia debe aumentarse. Tabla 8.6 Gradiente dosis respuesta de medidas para el control del temor en mujeres gestantes GRUPO PROMEDIO CONTROL INTERVALO DE TEMOR CONFIANZA 95% Control 3,14 2,55 – 3,73 2 sesiones 3,63 3,04 – 4,22 3 sesiones 3,90 3,33 – 4,47 3. Todos los factores confundentes plausibles y otros sesgos aumentan nuestra confianza en el efecto estimado: la mayor limitación de los estudios observacionales es su potencial de sesgo debido a la presencia de factores confundentes. Si bien muchas veces los autores de los estudios miden y dan cuenta de estos factores, es posible imaginarse el efecto de los factores confundentes no medidos (“confusión residual”). Si se observó que el efecto de la intervención toma una dirección determinada, “a pesar” de la confusión residual, incrementa nuestra confianza en los estimadores. En otras palabras, si observamos un efecto grande que la confusión residual hubiera disminuido, o si observamos un efecto pequeño que la confusión residual hubiera aumentado, podemos tener mayor confianza en el efecto de la intervención. Para ilustrar la evaluación de los factores que aumentan la calidad de la evidencia, usaremos como ejemplo una revisión sistemática de estudios observacionales que tiene como objetivo determinar si la radioterapia aumenta el riesgo de desarrollar tumores sólidos en el futuro(22). En la figura 8.9 vemos la relación entre el riesgo de desarrollar un tumor y la dosis de radiación recibida Fig. 8.9 Relación entre el riesgo de desarrollar un tumor y la dosis de radiación recibida Los puntos representan el riesgo relativo de desarrollar meningioma, y las líneas verticales son sus intervalos de confianza. Si observamos los estimadores puntuales de efecto, podemos ver que el efecto incrementa de forma importante (eje y) al aumentar la dosis de radiación (eje x). Cuando la dosis de radiación fue de 15Gy, el riesgo relativo es de aproximadamente 35, mientras que cuando la dosis de radiación fue de 50Gy el riesgo relativo es de aproximadamente 95. Esto nos muestra que no sólo hay una respuesta dosis-dependiente, sino que los efectos de la radiación tienen una magnitud muy grande. Sin embargo, es importante considerar también los intervalos de confianza de estos efectos de tratamiento, que por ser muy amplios nos sugieren que este efecto podría no ser tan grande. Los autores no hacen mención en particular sobre confundentes residuales y su efecto, por lo que dependiendo de nuestro juicio respecto a ellos, podemos decidir si aumentar la calidad de la evidencia en uno o dos niveles. Finalmente, es importante tener en cuenta que los factores para aumentar la calidad de la evidencia deben considerarse después de los factores para disminuirla. Además, hay que recordar que los factores mencionados en esta sección raramente se encuentran presentes, y que es muy poco probable detectarlos si es que el riesgo de sesgo de los estudios observacionales es importante. 8. ¿Cómo deben combinarse todos estos factores para hacer una evaluación general? El sistema GRADE requiere hacer una evaluación de la calidad de la evidencia para cada uno de los desenlaces de una pregunta clínica. En el caso de revisiones sistemáticas de ensayos clínicos, se deben considerar el riesgo de sesgo, imprecisión, pertinencia de la evidencia, inconsistencia, y sesgo de publicación. En las revisiones sistemáticas de estudios observacionales se suman la magnitud del efecto, la gradiente dosis respuesta y la confusión residual. De esta manera, se reconoce que la calidad de la evidencia puede variar dependiendo del desenlace específico al que nos estemos refiriendo. En el contexto del desarrollo de la guía, es necesario hacer una evaluación global de la calidad de la evidencia a través de los desenlaces, ya que una recomendación considera todos los desenlaces. El sistema GRADE recomienda que para esta evaluación general se considere la importancia relativa de los desenlaces, y se utilice la evaluación más baja de los desenlaces considerados como críticos para tomar una decisión(23). La tabla 8.7 (ejemplo hipotético), muestra los desenlaces de una pregunta clínica, su importancia, y la calidad de la evidencia de cada uno de los desenlaces: Tabla 8.7 Desenlaces de una pregunta clínica y su importancia Desenlace Importancia Calidad de la evidencia Mortalidad Crítico Alta Sangrado mayor Crítico Moderada Aumento de presión arterial Importante Alta Migraña Importante Alta Náuseas Importante Moderada En este ejemplo hipotético se consideran cinco desenlaces. Dos de ellos son críticos y tres son importantes para la toma de decisiones clínicas. El sistema GRADE plantea que, para hacer una evaluación general de la calidad de la evidencia, debemos considerar los desenlaces críticos, en este caso, mortalidad y sangrado mayor. Dentro de esta categoría, debemos utilizar la evaluación de la calidad de la evidencia más baja. Por lo tanto, la evaluación general de la calidad de la evidencia en este ejemplo es moderada. Actividad 8.6 Se le ha encomendado realizar una guía sobre medidas para facilitar el acceso de pacientes con VIH a triterapia en países con bajos y medianos ingresos. Luego de realizado el proceso de búsqueda, y haber elaborado los perfiles de evidencia correspondientes para cada una de las preguntas de la guía, se tienen los siguientes desenlaces y su correspondiente calidad de evidencia: Desenlace - Incidencia de VIH - Acceso a triterapia - Transmisibilidad - Mortalidad - Adherencia a tratamiento - Efectos adversos Calidad de la evidencia MODERADA BAJA MODERADA MUY BAJA ALTA BAJA Para este ejercicio le sugerimos seguir los siguientes pasos: 1. Determine la importancia de cada uno de los desenlaces descritos arriba. Considere el objetivos de la guía, y el valor que cada uno de estos desenlaces tiene para la toma de decisiones y la elaboración de una recomendación. 2. Realice la evaluación global de la calidad de la evidencia a través de los desenlaces citados arriba. Suba su respuesta en el área de Tareas. 1. Balshem H, Helfand M, Schunemann HJ, Oxman AD, Kunz R, Brozek J, et al. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011 Apr;64(4):401-6. 2. Guyatt G, Rennie D, Meade M, Cook DT. The users’ guides to the medical literature: a manual for evidence-based clinical practice. 2nd ed. New York, NY: McGraw-Hill; 2008. 3. Higgins JP, Altman D. Assessing the risk of bias in included studies. In: Higgins J, Green S, editors. Cochrane handbook for systematic reviews of interventions 501. Chichester, UK: John Wiley & Sons; 2008. 4. Wood L, Egger M, Gluud LL, Schulz KF, Juni P, Altman DG, et al. Empirical evidence of bias in treatment effect estimates in controlled trials with different interventions and outcomes: meta-epidemiological study. BMJ. 2008 Mar 15;336(7644):601-. 5. Guyatt GH, Oxman AD, Vist G, Kunz R, Brozek J, AlonsoCoello P, et al. GRADE guidelines: 4. Rating the quality of evidence--study limitations (risk of bias). J Clin Epidemiol. 2011 Apr;64(4):407-15. 6. Schünemann H, Santesso N. Introductory courses for GRADE and summary of findings tables. Risk of bias. McMaster University; 2010 [cited 2012 October, 29]; Available from: http://cebgrade.mcmaster.ca. 7. Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidence-imprecision. J Clin Epidemiol. 2011 Dec;64(12):1283-93. 8. Schünemann H, Santesso N. Introductory courses for GRADE and summary of findings tables. assessing imprecision. McMaster University; 2010 [cited 2012 October, 29]; Available from: http://cebgrade.mcmaster.ca. 9. Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 8. Rating the quality of evidence--indirectness. J Clin Epidemiol. 2011 Dec;64(12):130310. Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J, Helfand M, et al. GRADE guidelines: 7. Rating the quality of evidence--inconsistency. J Clin Epidemiol. 2011 Dec;64(12):1294-302. 11. Schünemann H, Santesso N. Introductory courses for GRADE and summary of findings tables. Inconsistency.: McMaster University; 2010 [cited 2012 October, 29]; Available from: http://cebgrade.mcmaster.ca. 12. Jun M, Venkataraman V, Razavian M, Cooper B, Zoungas S, Ninomiya T, et al. Antioxidants for chronic kidney disease. Cochrane Database Syst Rev. 2012;10:CD008176. 13. Guyatt GH, Oxman AD, Montori V, Vist G, Kunz R, Brozek J, et al. GRADE guidelines: 5. Rating the quality of evidence-publication bias. J Clin Epidemiol. 2011 Dec;64(12):1277-82. 14. Dickersin K, Min YI, Meinert CL. Factors influencing publication of research results. Follow-up of applications submitted to two institutional review boards. JAMA. 1992 Jan 15;267(3):374-8. 15. Stern JM, Simes RJ. Publication bias: evidence of delayed publication in a cohort study of clinical research projects. Bmj. 1997 Sep 13;315(7109):640-5. 16. Hopewell S, Loudon K, Clarke MJ, Oxman AD, Dickersin K. Publication bias in clinical trials due to statistical significance or direction of trial results. Cochrane Database Syst Rev. 2009(1):MR000006. 17. Schünemann H, Santesso N. Introductory courses for GRADE and summary of findings tables. Publication Bias.: McMaster University; 2010 [cited 2012 October, 29]; Available from: http://cebgrade.mcmaster.ca. 18. Egger M, Smith GD. Bias in location and selection of studies. Bmj. 1998 Jan 3;316(7124):61-6. 19. Mieog JS, van der Hage JA, van de Velde CJ. Preoperative chemotherapy for women with operable breast cancer. Cochrane Database Syst Rev. 2007(2):CD005002. 20. Guyatt GH, Oxman AD, Sultan S, Glasziou P, Akl EA, Alonso-Coello P, et al. GRADE guidelines: 9. Rating up the quality of evidence. J Clin Epidemiol. 2011 Dec;64(12):1311-6. 21. Schünemann H, Santesso N. Introductory course for GRADE and summary of findings tables. Other factorsupgrading the quality of evidence. McMaster University; 2010 [cited 2012 October, 29]; Available from: http://cebgrade.mcmaster.ca. 22. Berrington de Gonzalez A, Gilbert E, Curtis R, Inskip P, Kleinerman R, Morton L, et al. Second Solid Cancers After Radiation Therapy: A Systematic Review of the Epidemiologic Studies of the Radiation Dose-Response Relationship. Int J Radiat Oncol Biol Phys. 2012 Oct 24. 23. Guyatt G, Oxman AD, Sultan S, Brozek J, Glasziou P, Alonso-Coello P, et al. GRADE guidelines 11-making an overall rating of confidence in effect estimates for a single outcome and for all outcomes. J Clin Epidemiol. 2012 Apr 27.