Manual de usuario para Análisis Secuencial de Ensayos · BAJO NINGUNA CIRCUNSTANCIA Y BAJO NINGUNA...

115
1 Manual de usuario para Análisis Secuencial de Ensayos Kristian Thorlund, Janus Engstrøm, Jørn Wetterslev, Jesper Brok, Georgina Imberger, y Christian Gluud Copenhagen Trial Unit Centre for Clinical Intervention Research Departament 3344, Rigshospitalet DK-2100 Copenhagen Demmark Tel. +45 3545 7171 Fax +45 3545 7101 E-mail: [email protected]

Transcript of Manual de usuario para Análisis Secuencial de Ensayos · BAJO NINGUNA CIRCUNSTANCIA Y BAJO NINGUNA...

  • 1

    Manual de usuario para

    Anlisis Secuencial de Ensayos

    Kristian Thorlund, Janus Engstrm, Jrn Wetterslev, Jesper Brok,

    Georgina Imberger, y Christian Gluud

    Copenhagen Trial Unit

    Centre for Clinical Intervention Research

    Departament 3344, Rigshospitalet

    DK-2100 Copenhagen

    Demmark

    Tel. +45 3545 7171 Fax +45 3545 7101

    E-mail: [email protected]

  • 2

    Contenido

    Manifiesto de responsabilidad limitada ........................................................ 4

    Roles de los miembros del equipo y contribuciones .................................. 5

    Prefacio ............................................................................................................. 6

    1 Conceptos y racionalidad del Anlisis Secuencial de los Estudios .... 7

    El error aleatorio en el metanlisis ......................................................................... 7

    Definicin de la solidez de la evidencia Tamao necesario de la muestra .......... 9

    Evaluacin de la significacin estadstica antes de que se haya alcanzado el

    tamao necesario de la muestra. ......................................................................................10

    Pruebas de futilidad antes de que el tamao de la informacin haya sido alcanzado

    11

    Resumen ..............................................................................................................13

    2 Metodologa del TSA .............................................................................. 15

    Mtodos para combinar los resultados de los ensayos clnicos ............................15

    Medidas de efecto para los datos dicotmicos y continuos ...............................15

    Generalidades del modelo de efectos fijos y de efectos aleatorios ....................17

    Estrategias para el metanlisis con el modelo de efectos aleatorio ...................19

    Mtodos para el manejo de ensayos clnicos sin eventos .................................22

    Examinando la significacin ajustada y la futilidad en el metanlisis acumulativo .24

    El tamao de la informacin necesaria para un metanlisis concluyente ..........26

    La prueba estadstica acumulada (curva Z).......................................................35

    Los problemas con las pruebas de significacin en el metanlisis ....................36

    La funcin del gasto de alfa y los lmites de monitoreo secuencial de los

    ensayos ........................................................................................................................38

    Intervalos de confianza ajustados tras el anlisis secuencial de los ensayos ....45

    La ley del logaritmo iterado ...............................................................................47

    La funcin del gasto de y los lmites de futilidad .............................................48

    3 Instalacin e inicio del programa TSA .................................................. 54

    Requisitos previos .................................................................................................54

    Instalacin .............................................................................................................54

    Iniciando el TSA ....................................................................................................54

    Por qu no funciona el TSA? ..........................................................................55

    Uso RM5 Converter ..............................................................................................56

    Por qu no funciona? ......................................................................................56

    4 Cmo utilizar el software TSA ............................................................... 56

    Iniciando ...............................................................................................................56

    Creacin de un nuevo metanlisis ....................................................................57

    Guardando un archivo TSA y abriendo un archivo TSA existente .....................59

    Importando los datos del metanlisis desde Review Manager v.5 .....................59

    Aadiendo, editando y eliminando los ensayos clnicos ........................................63

  • 3

    Aadiendo ensayos clnicos ..............................................................................64

    Edicin y eliminacin de ensayos ......................................................................65

    Estableciendo las configuraciones del metanlisis ................................................66

    Eleccin de la medida de asociacin.................................................................66

    La eleccin de su modelo estadstico ................................................................67

    Eleccin de un mtodo para el manejo de datos con ausencia de eventos .......67

    La eleccin del tipo de intervalo de confianza ...................................................68

    Aplicacin de las pruebas ajustadas de significacin (aplicando TSA) ..................69

    Adicin de una prueba de significacin .............................................................70

    Edicin y eliminacin de una prueba de significacin ........................................77

    Adicin y recuperacin de las plantillas de pruebas de significacin .................78

    Realizando los clculos de las pruebas de significacin....................................79

    Opciones de grficos en el TSA ............................................................................81

    Explorando la diversidad entre los ensayos ..........................................................86

    5 Ejemplos de aplicaciones del TSA ........................................................ 87

    Los conjuntos de datos .........................................................................................87

    Cmo evitar los falsos positivos ............................................................................87

    Confirmacin de un resultado positivo ..................................................................89

    Confirmacin de la answer is in Desconozco una traduccin adecuada para

    esta expresin ..............................................................................................................90

    Evitando sobreestimaciones precoces ..............................................................93

    Pruebas de inutilidad ............................................................................................96

    La estimacin del tamao de la muestra de un nuevo ensayo clnico ...................97

    Otras aplicaciones publicadas del Anlisis Secuencial de los Ensayos ............... 100

    6 Apndices .............................................................................................. 102

    Medidas de efecto para metanlisis de los datos dicotmicos y continuos.......... 102

    Estrategia de efectos aleatorio ............................................................................ 103

    Frmulas del mtodo Biggerstaff-Tweedie ...................................................... 103

    Anlisis secuencial de los ensayos ..................................................................... 103

    Incremento del error tipo I debido a la repeticin de pruebas de significacin . 103

    Los mtodos alternativos no implementados en el software TSA .................... 104

    7 Lista de abreviaturas y notaciones estadsticas ............................... 107

    Abreviaturas generales ....................................................................................... 107

    Notaciones estadsticas ...................................................................................... 107

    Smbolos con letras minsculas ...................................................................... 107

    Smbolos con letras maysculas ..................................................................... 108

    7.2.3. Smbolos en letras griegas................................................................................ 110

    8 Referencias bibliogrficas ................................................................... 111

  • 4

    Manifiesto de responsabilidad limitada

    EL SOFTWARE ES PROPORCIONADO "TAL CUAL", SIN GARANTA DE NINGN

    TIPO, EXPRESA O IMPLCITA, INCLUYENDO PERO NO LIMITADO A LAS

    GARANTAS DE COMERCIALIZACIN, IDONEIDAD PARA UN PROPSITO

    PARTICULAR Y NO INFRACCIN. EN NINGN CASO, LOS AUTORES O

    TITULARES DEL DERECHO DE AUTOR SERN RESPONSABLES DE NINGUNA

    RECLAMACIN, DAO U OTRA RESPONSABILIDAD, YA SEA EN UNA ACCIN

    DE CONTRATO, AGRAVIO O DE OTRO TIPO, QUE SURJA DE O EN CONEXION

    CON EL SOFTWARE O EL USO U OTROS EN EL SOFTWARE.

    BAJO NINGUNA CIRCUNSTANCIA Y BAJO NINGUNA TEORA LEGAL, YA SEA

    POR AGRAVIO, CONTRATO, O CUALQUIER OTRA FORMA, LA CLINICAL TRIAL

    UNIT SER RESPONSABLE ANTE USTED O CUALQUIER OTRA PERSONA POR

    PRDIDA DE BENEFICIOS, PRDIDA DE FONDO DE COMERCIO, O CUALQUIER

    DAO INDIRECTO, ESPECIAL, INCIDENTAL O CONSECUENTES DAOS, O

    DAOS POR NEGLIGENCIA GRAVE DE NINGN TIPO, INCLUYENDO, SIN

    LIMITACIONES, DAOS POR PRDIDA DE FONDO DE COMERCIO,

    INTERRUPCIN DEL TRABAJO, FALLO O MAL FUNCIONAMIENTO, O POR

    CUALQUIER OTRO DAO O PRDIDA.

    El software de anlisis secuencial de los ensayos (en adelante TSA) a que se refiere

    este manual est en versin Beta. La Copenhagen Trial Unit ha evaluado ampliamente

    el software TSA; pero, an pudieran ocurrir errores. La retroalimentacin es una parte

    importante del proceso de correccin de errores y de la implementacin de mejoras.

    Por lo que le animamos a que nos comunique acerca de sus experiencias con este

    software. Para ello, por favor visite la pgina Web desde donde descarg el TSA

    (ctu.rh.dk/TSA), y haga clic en el enlace de formulario de comentarios.

  • 5

    Roles de los miembros del equipo y contribuciones

    El TSA se desarroll en la Copenhagen Trial Unit, Copenhague, Dinamarca. El equipo

    est formado por Kristian Thorlund (KT), Janus Engstrm (JE), Jrn Wetterslev (JW),

    Jesper Brok (JB), Georgina Imberger (GI), y Christian Gluud (CG). Las funciones y

    contribuciones de cada miembro del equipo se describen a continuacin:

    Jefe del proyecto: KT.

    Principal desarrollador de las aplicaciones del software: JE.

    Co-desarrolladores de las aplicaciones del software: KT, JW, JB, CG.

    Programador estadstico: KT.

    Evaluadores internos de la versin Beta: JB, GI, JW, KT, CG.

    Autores del manual: KT (principal), GI, JW, JB, JE, CG.

    Supervisores del proyecto: JW y CG.

  • 6

    Prefacio

    Este manual proporciona una gua, terica y prctica, para el uso del programa

    Anlisis Secuencial de los Estudios (TSA, por sus siglas en ingls) realizado en la

    Copenhagen Trial Unit. El captulo 1 se refiere a los conceptos y racionalidad; el

    captulo 2 aporta una descripcin tcnica de las metodologas implementadas, y los

    captulos 3 al 5 se refieren a cmo instalar, utilizar y aplicar el software.

    El software TSA puede ser descargado desde www.ctu.dk/tsa. Le invitamos a utilizarlo

    en sus anlisis y publicaciones de metanlisis acumulados, con la debida referencia

    del software y de algunos de nuestros artculos que describen la metodologa.

    En caso de que necesite ayuda con el software TSA, por favor, comunquese con

    nosotros a travs del correo electrnico: [email protected].

  • 7

    1 Conceptos y racionalidad del Anlisis Secuencial de

    los Estudios

    El error aleatorio en el metanlisis

    Algunos hallazgos metanalticos positivos pueden ser debidos a la influencia del

    azar (errores aleatorios) ms que a algn efecto verdadero subyacente de la

    intervencin.1- 10 Del mismo modo, algunos hallazgos neutrales o negativo (no

    positivo) del metanlisis pueden, tambin, representar un hallazgo casual, debido

    a la carencia de poder estadstico y precisin.9-13 Estos dos tipos de errores son

    comnmente conocidos como errores falsos positivos (o errores tipo I) y errores

    falsos negativos (o errores tipo II). Los metanlisis son tpicamente considerados

    positivo o negativo sobre la base de alguna prueba estadstica (prueba

    estadstica), reportada con el valor de p o con el intervalo de confianza

    correspondiente.

    Cuando un metanlisis incluye un bajo nmero de ensayos clnicos y de pacientes,

    los errores aleatorios pueden causar conclusiones espurias.1, 2, 4-6, 9, 11, 12, 14,15 Por el

    contrario, cuando hay un gran nmero de pacientes, y cuando numerosos ensayos

    clnicos han confirmado los hallazgos de estudios previos, las pruebas estadsticas y

    los estimadores del efecto de la intervencin tpicamente convergen hacia la

    verdad.1, 2, 4-6, 9, 11, 12, 14, 15 Las figuras 1 (A) y 1 (B) ilustran ejemplos de tal

    convergencia en las pruebas estadsticas. En ambas situaciones, las inferencias

    acerca de la significacin estadstica son errneas en los momentos iniciales, pero

    finalmente convergen hacia el lado verdadero de la significacin estadstica.

    Figura 1. Ejemplos de la convergencia en las pruebas estadsticas cuando los pacientes son incluidos

    y seguidos en la medicin de un desenlace (por ejemplo, muerte) en dos ensayos clnicos aleatorizados

    A y B.

    El error aleatorio e imprecisin solo causan problemas si las pruebas estadsticas (y

    la estimacin del efecto de la intervencin) son utilizadas en etapas donde la magnitud

    del error aleatorio o imprecisin es suficientemente extremo para producir

  • 8

    inferencias estadsticas falsas. En la figura 2(A), las pruebas de significacin, en los

    tiempos X1 y X3 se traducira en una falsa declaracin de significacin estadstica (es

    decir, un resultado falso positivo), mientras que las pruebas de significacin en X2 y

    X4 no lo seran. De este modo, solo en los tiempos X1 y X3, el impacto del error

    aleatorio es suficientemente extremo para producir resultados espurios

    estadsticamente significativos. En la figura 2(B), las pruebas de significacin en X1 y

    X2 podra haber dado lugar a una declaracin falsa de que las intervenciones objeto

    de la investigacin no fueron significativamente diferentes (es decir, un resultado falso

    negativo), mientras que pruebas de significacin en X3 y X4 no lo seran. Por lo tanto,

    solo en los momentos X1 y X2 es la imprecisin de una magnitud lo que provoca la

    ausencia espuria de significacin estadstica.

    Figura 2. Ejemplos de resultados estadsticamente falsos positivos y falsos negativos durante la

    ejecucin de dos ensayos clnicos aleatorizados A y B.

    La mayora de las pruebas estadsticas empleadas, a medida que se acumulan datos

    adicionales, incrementan la probabilidad de observar un resultado falso positivo o falso

    negativo. Este fenmeno se conoce comnmente como multiplicidad debido a

    pruebas repetidas de significacin.10, 16-18

    En el metanlisis es importante minimizar el riesgo de realizar una conclusin falsa,

    positiva o negativa.3 En el metanlisis, los efectos combinados de la intervencin

    suelen evaluarse sobre la base de los valores de p. Los autores del metanlisis deben

    decidir cul es el umbral en el cual un valor de p es suficientemente pequeo, para

    justificar una conclusin positiva. Por debajo de este umbral, una conclusin es

    considerada estadsticamente significativa. En un momento dado, cualquier umbral

    implica un equilibrio entre el riesgo de observar un resultado falso positivo (error tipo

    I) y el riesgo de observar un resultado falso negativo (error tipo II). Por ejemplo, si el

    umbral para la significacin estadstica en la Figura 2 (lnea horizontal discontinua)

    hubiese sido desplazado hacia arriba, la posibilidad de observar un resultado falso

    positivo (figura 2 (A)) habra disminuido, mientras que el riesgo de observar un falso

    resultado negativo (figura 2 (B)) habra aumentado. Cuando las pruebas de

    significancia convencionales se realizan en etapas tempranas y/o en varias

  • 9

    ocasiones, estos riesgos mximos estn distorsionados (como se ilustra en la figura

    2).16-18 Por lo tanto, cualquier inferencia acerca de la significacin estadstica debera

    ser realizada en conjunto con la solidez de la evidencia, la cual debera ser medida

    utilizando el nmero acumulado de pacientes, nmero observado de eventos en los

    ensayos incluidos, y el impacto de la multiplicidad.1, 2, 4, 6, 10, 19-21

    Definicin de la solidez de la evidencia Tamao necesario

    de la muestra

    Los metanlisis de ensayos aleatorizados aumentan la potencia y precisin de los

    efectos estimados de la intervencin.13 Cuando se incluyen todos los ensayos

    disponibles; las revisiones sistemticas y los metanlisis son considerados como la

    mejor evidencia disponible.13 Sin embargo, la mejor evidencia disponible puede no

    ser sinnimo de evidencias suficientes o evidencias slidas.1; 2; 4; 6; 11; 12

    En un ensayo aleatorizado con desenlace binario se debe estimar el nmero de

    eventos y pacientes necesarios para permitir una inferencia estadstica confiable. Es

    decir, se realiza el clculo del tamao de la muestra para asegurar que un nmero

    suficiente de eventos y de pacientes sean incluidos.22 Una estrategia similar,

    denominada goal post se requiere para un metanlisis.1, 2, 6, 23 En el campo del

    metanlisis el goal post ha sido denominado como el tamao de la informacin (IS)

    requerida o el tamao ptimo de informacin.1, 2, 4, 6, 11, 12,14,15, 19; 23-25

    La Figura 3 muestra dos escenarios metanalticos tpicos A y B, donde la estadstica

    de prueba se ha estabilizado despus de haber alcanzado el tamao de la informacin

    requerida.

    Figure 3. Ejemplos de cmo el tamao de la informacin requerida asegura pruebas de significacin

    confiables en dos metanlisis acumulados, A y B.

    En un ensayo clnico, el clculo del tamao de muestra se basa generalmente en la

    proporcin esperada del evento en el grupo control, la reduccin relativa del riesgo

    esperado de la intervencin experimental, y el riesgo mximo deseado de los errores

    tipo I y tipo II.26 En un metanlisis es posible que haya heterogeneidad en las

  • 10

    poblaciones de los ensayos incluidos, las intervenciones y los mtodos. Las

    consideraciones del tamao de la muestra del metanlisis necesitan ser ajustadas -es

    decir, incrementadas- con el fin de permitir la varianza introducida por esta

    heterogeneidad. 4, 6, 11, 12, 23 Estos ajustes son anlogos a los ajustes por la variacin

    a travs de los centros en un ensayo multicntrico.4; 6; 23

    Los mtodos convencionales de metanlisis, tales como los que estn disponibles en

    el Review Manager v.5.1 27 no toman en cuenta la cantidad de la evidencia

    disponible.13 En su lugar, la fiabilidad del efecto de la intervencin estadsticamente

    significativa se da por descontada, independientemente del nmero acumulado de

    eventos y pacientes. Por el contrario, los efectos de la intervencin que no son

    estadsticamente significativos no son considerados fiables comnmente. Ms bien,

    se supone que se necesita ms evidencia.28

    La evidencia emprica sugiere que los efectos de la intervencin y valores de p,

    basados en un nmero limitado de eventos y pacientes, a menudo no son fiables.1, 2,

    4-6, 9, 11, 12, 29

    Cerca del 25 % de los metanlisis convencionales que incluyen un nmero pequeo

    de eventos y de pacientes, pueden mostrar falsamente los efectos de la intervencin

    como estadsticamente significativos.4, 5 La evidencia emprica tambin muestra, que

    los grandes efectos de la intervencin observados en etapas tempranas o precoces

    de metanlisis positivos tienden a desaparecer a medida que se acumula ms

    evidencia.4, 5, 9

    Evaluacin de la significacin estadstica antes de que se

    haya alcanzado el tamao necesario de la muestra.

    El objetivo del metanlisis es identificar el beneficio o el dao de una intervencin tan

    pronto y de manera tan fiable como sea posible.4, 11-13, 20 Por lo tanto, los metanlisis

    se actualizan frecuentemente cuando se publican nuevos ensayos. Por ejemplo, a los

    autores de revisiones Cochrane se les solicita actualizarlas por lo menos cada dos

    aos.13 Cuando los metanlisis son actualizados, se exponen a una evaluacin

    repetida de la significacin estadstica a lo largo del tiempo.

    En los ensayos clnicos aleatorizados, las repetidas evaluaciones de la significacin

    estadstica incrementan el riesgo global del error tipo I.30

    Los estudios de simulacin sugieren que si la repeticin de pruebas de significacin

    es realizada en los metanlisis y los valores de p menor que 0,05 son considerados

    como evidencia de significacin estadstica, entonces el riesgo verdadero de error

    tipo I se situar entre el 10% y el 30%.7, 8, 10, 31 De acuerdo con esto, cuando se toman

  • 11

    decisiones para implementar la intervencin como tratamiento, significa que entre 1 y

    3 de cada 10 decisiones teraputicas son probablemente inapropiadas.

    Para hacer frente a este problema, se pueden ajustar los umbrales para determinar

    qu resultados son considerados estadsticamente significativos y cules no.1, 2, 4, 6, 11,

    12, 14, 15, 24, 25 Alternativamente, se puede penalizar a la prueba estadstica de acuerdo

    con la solidez de la evidencia y el nmero de pruebas de significacin realizado (la

    ley del logaritmo repetido).7,8 El software TSA proporciona mtodos para ambos

    enfoques, cada uno de ellos est construido sobre los teoremas de la teora avanzada

    de probabilidades. El primer mtodo utiliza la metodologa desarrollada para las

    pruebas repetidas de significacin en ensayos clnicos aleatorizados (es decir, lmites

    de monitoreo estadstico).4, 6, 11, 12 El segundo enfoque penaliza, es decir- disminuye-,

    la prueba estadstica de acuerdo con la solidez de la informacin disponible en el

    metanlisis y el nmero de pruebas de significancia realizadas.7, 8

    Figura 4. Ejemplos de ajuste del umbral de significacin (lmites predeterminados de monitorizacin)

    (A) y la prueba estadstica penalizada (predeterminado) (B) para evitar resultados falsos positivos de la

    prueba estadstica de dos metanlisis acumulados A y B.

    Figura 4 (A) ilustra un ejemplo de un escenario de metanlisis, donde un resultado

    falso positivo se evita utilizando el ajuste del umbral para la significacin estadstica

    mediante el empleo de los lmites de control. Figura 4 (B) ilustra un ejemplo donde un

    resultado falso positivo es evitado por la adecuada penalizacin de la prueba

    estadstica.

    Pruebas de futilidad antes de que el tamao de la

    informacin haya sido alcanzado

    Es posible utilizar el software de TSA para evaluar cuando es poco probable que una

    intervencin tenga algn efecto anticipado; tambin es posible su uso en el contexto

    clnico, para evaluar cuando una intervencin tiene un efecto que es ms pequeo

    que lo que sera considerado mnimamente importante para los pacientes.

  • 12

    Los metanlisis se utilizan a menudo para guiar la investigacin futura. En la

    planificacin de futuros ensayos, los investigadores necesitan tener un resumen

    preciso de los conocimientos actuales. Si un metanlisis ha encontrado que una

    determinada intervencin no tiene efecto (importante), los investigadores necesitan

    saber si este resultado se debe a la falta de poder estadstico o si la intervencin

    carezca de efecto. Utilizando el pensamiento convencional, un hallazgo de ningn

    efecto se considera que es debido a carencia de poder estadstico hasta cuando se

    haya alcanzado el tamao adecuada de informacin. En algunas situaciones, sin

    embargo, es posible que podamos llegar a la conclusin anterior de que es poco

    probable que sea tan grande como se haba previsto un efecto del tratamiento, y por

    lo tanto, prevenir a los investigadores del ensayo de gastar recursos en ensayos

    adicionales innecesarios. Por supuesto, el tamao del efecto de la intervencin

    prevista puede ser examinado de nuevo y la investigacin adicional puede ser

    diseada para investigar un tamao del efecto ms pequeo.

    Figura 5. Ejemplos de lmites de futilidad donde la intervencin experimental no es superior a la

    intervencin de control (y tambin se pueden haber llevado a cabo muchos ensayos) (A) y donde la

    intervencin experimental es significativamente superior a la intervencin de control (y demasiados

    ensayos pueden haber llevado a cabo) (B).

    El TSA proporciona una tcnica para la bsqueda de una conclusin sin efecto tan

    pronto como sea posible. Se construyen y se usan Lmites de Futilidad para

    proporcionar un umbral de ningn efecto, que fueron desarrollados originalmente

    para el anlisis intermedio en ensayos clnicos aleatorios. 30

    Si la intervencin experimental es realmente superior a la intervencin control, se

    esperara que la prueba estadstica flucte en torno de algunas lneas rectas de

    pendiente positiva, generando, eventualmente, la significacin estadstica (cuando el

    metanlisis es suficientemente potente). Si un metanlisis de una intervencin

    experimental verdaderamente eficaz incluye solo un pequeo nmero de eventos y de

    pacientes, ser baja la probabilidad de obtener un resultado estadsticamente

    significativo, debido a la falta de poder estadstico. Sin embargo, a medida que se

    acumule ms evidencia, el riesgo de obtener una conclusin negativa disminuye. Los

    lmites de futilidad son un conjunto de umbrales que reflejan la probabilidad de la

  • 13

    incertidumbre para obtener un resultado negativo en relacin con la fuerza de la

    evidencia disponible (por ejemplo, el nmero acumulado de pacientes). Por encima

    de los umbrales, la prueba estadstica puede no haber generado significacin

    estadstica debido a la falta de poder estadstico, pero todava hay posibilidad de que

    un efecto estadsticamente significativo sea encontrado antes de que el metanlisis

    sobrepase el tamao de la informacin. Por debajo del umbral, la prueba estadstica

    es tan baja que la probabilidad se torna insignificante para encontrar un efecto

    significativamente importante. En este ltimo caso, aleatorizacin de pacientes es

    vana; la intervencin carece del efecto postulado.

    La figura 5 (a) ilustra un ejemplo donde la intervencin experimental no es superior a

    la intervencin de control. La prueba estadstica cruza los lmites de futilidad (la curva

    cncava de pendiente positiva) antes de que se supere el tamao de la informacin

    requerida. La figura 5 (b) ilustra un ejemplo donde la intervencin experimental es

    estadsticamente significativamente superior a la intervencin de control. En este

    ejemplo, la estadstica de prueba se mantiene por encima de la curva de la futilidad

    (porque hay un efecto subyacente) y, finalmente, produce la significacin estadstica.

    Resumen

    El anlisis secuencial de los ensayos (TSA, por sus siglas en ingls) es una

    metodologa que utiliza una combinacin de tcnicas. Las pruebas necesarias se

    cuantifican, proporcionando un valor para el tamao requerido de la informacin. Los

    umbrales de significacin estadstica son ajustados y estas modificaciones se realizan

    de acuerdo con la fuerza cuantitativa de la evidencia y el impacto de multiplicidad.4; 6;

    1; 12 Los umbrales para futilidad tambin se pueden construir, utilizando un marco

    estadstico similar.

    En resumen, el TSA puede proporcionar un IS (por su siglas en ingls), un umbral

    para un efecto de tratamiento estadsticamente significativo, y el umbral de

    insignificante utilidad. Las conclusiones obtenidas utilizando el TSA muestran que la

    fiabilidad de stas es superior a las obtenidas mediante las tcnicas tradicionales de

    metanlisis. La evidencia emprica sugiere que las consideraciones de tamao de la

    informacin y umbrales de importancia ajustados pueden eliminar precozmente los

    resultados falsos positivos, que se originan por la imprecisin y la prueba de

    significacin repetida en los metanlisis.4; 6; 11; 12

    Alternativamente, se puede penalizar a la prueba estadstica de acuerdo con la solidez

    de la evidencia y el nmero de pruebas de significacin realizadas (la ley del

    logaritmo iterado).7; 8 Los estudios de simulacin han demostrado que la penalizacin

  • 14

    de las pruebas estadsticas puede permitir un adecuado control del error de tipo I en

    los metanalisis.7; 8

    El siguiente manual contiene una gua -terica y prctica- para el uso del software

    TSA de la Copenhagen Trial Unit. El captulo 2 proporciona, en un nivel intermedio,

    un resumen tcnico de todas las metodologas incorporadas en el software del TSA.

    Los captulos 3 al 5 son apartados prcticos que describen cmo instalar, utilizar y

    aplicar este software.

  • 15

    2 Metodologa del TSA

    El TSA combina la metodologa convencional del metanlisis con los fundamentos

    metanalticos del tamao de la muestra (es decir, el tamao de la muestra necesaria)

    y los mtodos ya desarrollados para las pruebas de significacin repetida sobre los

    datos acumulados en los ensayos clnicos aleatorizados. 1, 2, 4, 6, 11, 12 En el captulo 2,

    lo primero que se describe es la metodologa de metanlisis usado para combinar los

    datos de una serie de ensayos clnicos. La descripcin en la seccin 2.1 se refiere a

    las medidas del efecto para los datos dicotmicos y continuos, modelos estadsticos

    de metanlisis (el modelo de efecto fijo y algunas variantes del modelo de efectos

    aleatorio), y mtodos para el manejo de datos de eventos cero. En la seccin 2.2, se

    describen los mtodos para ajustar la significacin cuando existe un mayor riesgo de

    error aleatorio (debido a una evidencia dbil y pruebas de significacin repetida). En

    esta seccin, no se describe, en detalle, componentes ms avanzados de esta

    metodologa. Ms bien, este captulo est diseado para aportar conocimientos a los

    usuarios, con un nivel conceptual intermedio, sobre los temas abordados en el captulo

    1.

    Mtodos para combinar los resultados de los ensayos

    clnicos

    Medidas de efecto para los datos dicotmicos y continuos

    El programa TSA facilita el metanlisis de los datos dicotmicos (binario) y de los datos

    continuos. Los datos dicotmicos se definen por una de las dos categoras (por

    ejemplo, muerte o supervivencia). Los datos continuos son datos que se miden en una

    escala numrica (por ejemplo, la presin arterial o las puntuaciones de calidad de

    vida). Para cada tipo de datos, hay varias medidas disponibles para comparar la

    efectividad de una intervencin de inters.13

    Medidas de efecto para los datos dicotmicos

    Asumamos que tenemos k ensayos independientes que compararon dos

    intervenciones (intervencin A vs intervencin B) con un resultado dicotmico. Dichos

    ensayos (por lo general) reportarn el nmero de eventos observados (por ejemplo,

    muertes) en los dos grupos de intervencin, EA y EB y el nmero total de participantes,

    NA y NB, en los dos grupos de intervencin. Para los datos dicotmicos, el efecto de

    la intervencin entre las dos intervenciones se puede medir como la diferencia de

  • 16

    riesgo (DR), riesgo relativo (RR), y odds ratio (OR).13 Las estimaciones del efecto de

    intervencin basadas en estas medidas se calculan utilizando las siguientes frmulas:

    ( / )

    ( / )

    /( )

    /( )

    A B

    A B

    A A

    B B

    A B B

    B A A

    e eRD

    n n

    e nRR

    e n

    e n eOR

    e n e

    Las razones de riesgo relativo y odds ratios tpicamente sern expresadas en escala

    logartmica debido a que la transformacin genera ciertas propiedades estadsticas

    deseables (tales como la simetra y la normalidad aproximada).13 Los errores

    estndar, varianzas y pesos de los "efectos de la intervencin relacin son, por lo

    tanto, tambin obtenidas en escala logartmica. Las frmulas de los errores tpicos de

    la DR, log(RR) y log(OR) se muestran en el apndice 6.1.

    Cuando las proporciones de eventos en los dos grupos son bajos (datos de eventos

    raros), una alternativa preferida al OR es el odds ratio de Peto.13 Este OR se calcula

    con la frmula:

    exp ( ) /Peto A AOR e E e v

    Donde E (eA) es el nmero esperado de eventos en el grupo de intervencin A, y v es

    la varianza hipergeomtrica de eA. Las frmulas para E (eA) y v se muestran en el

    apndice 6.1.

    Medidas de efecto para datos continuos

    Asumamos que tenemos k ensayos independientes que compararon dos

    intervenciones (intervencin A contra intervencin B) con un desenlace continuo.

    Tales ensayos informan a menudo la respuesta promedio (por ejemplo, la media de la

    puntuacin de calidad de vida) en los dos grupos de intervencin, mA y mB, las

    desviaciones estndar de los dos grupos de intervencin significan respuestas, SDA

    y SDB, y el nmero total de participantes en los dos grupos de intervencin, nA y nB.

    Cuando la respuesta promedio se mide en la misma escala para todos los ensayos,

  • 17

    la eficiencia comparativa se mide con la diferencia de medias (DM), que viene dada

    por mA-mB. El error estndar de la diferencia de media est dada por

    2 2

    ( ) A B

    A B

    sd sdSE MD

    n n

    Cuando la media de la respuesta no es medida en la misma escala, aquellas deben

    ser estandarizadas a la misma escala, permitiendo la combinacin de los ensayos

    clnicos.11 El mtodo convencional consiste en dividir la media de la respuesta en cada

    ensayo por su desviacin estndar estimada; proporcionando as, una estimacin del

    efecto medido en unidades de desviacin estndar. Las diferencias de medias dividido

    por su desviacin estndar se conocen como las diferencias de medias

    estandarizadas (DME).13

    El programa TSA no facilita el metanlisis con DME. Las pruebas de

    significacin ajustada para metanlisis utilizando DME requerira el clculo del

    tamao de la muestra necesaria sobre la base de las diferencias de medias

    esperadas reportadas en unidades de desviacin estndar. Esta medida del

    efecto carece inapropiadamente de sentido para la mayora de los mdicos y,

    por lo tanto, es propenso a producir informacin poco realista de tamaos

    requeridos de informacin

    Generalidades del modelo de efectos fijos y de efectos

    aleatorios

    Asumamos que tenemos k ensayos independientes. Permita decir que Yi es el efecto

    de la intervencin observada en el ensayo i-th. Para metanlisis de datos dicotmicos,

    Yi ser o bien la diferencia estimada del riesgo, el riesgo relativo de registro, el log

    odds ratio, o log de OR de Peto para el ensayo i-th. Para el metanlisis de datos

    continuos, Yi ser la diferencia de media estimada para el ensayo i-th. Asumamos que

    i sea el verdadero efecto del ensayo i-th y es el verdadero efecto de la intervencin

    (para toda la poblacin del metanlisis). Suponga que i2 denotan la varianza (error

    de muestreo) del efecto de la intervencin observada en el ensayo i.

    En el modelo de efecto fijo, las caractersticas de los ensayos incluidos (criterios de

    inclusin y exclusin de pacientes, las variantes administradas de la intervencin, el

    diseo del estudio, la calidad metodolgica, la duracin del seguimiento, etc.) se

    supone que son similares.13 Esto es formulado matemticamente como 1 = 2 = =

    k = ... Los efectos de la intervencin observados de los ensayos individuales se

    supone que satisfacen la relacin distributiva Yi ~ N(, i2). El peso de un ensayo, wi,

    se define como el inverso de la varianza del ensayo, y por lo tanto, los pesos del

  • 18

    ensayo, en un modelo de efecto fijo, se convierten wi = i -2. El efecto combinado de

    la intervencin, , se obtiene como un promedio ponderado de los efectos de la

    intervencin observada de los ensayos individuales

    i i

    i

    wY

    w

    Y tiene varianza

    1( )

    i

    Varw

    En el modelo de efectos aleatorio, se asume que los efectos de la intervencin varan

    entre los ensayos, pero con un verdadero efecto subyacente, . Permtanos 2 significa

    la varianza entre los ensayos, el modelo de efectos aleatorio se define de la siguiente

    manera

    Yi = i + i, i ~ N(0, i2)

    i = + Ei, Ei ~ N(0, 2)

    Donde i es el error residual (muestreo) para el ensayo i, y Ei es la diferencia entre el

    "verdadero" efecto global y el "verdadero" efecto del ensayo subyacente. Si se unen

    la estructura jerrquica en las ecuaciones anteriores, se puede que Yi satisface la

    relacin de distribucin Yi ~ N (, i2 + 2). Una vez ms, los pesos de los ensayos se

    definen como el inverso de la varianza, y as el peso de los ensayos clnicos en un

    modelo de efectos aleatorio se convierten W i*= (i2 + 2)-1. El efecto combinado de la

    intervencin , se obtiene como un promedio ponderado de los efectos de la

    intervencin observados de los ensayos individuales.

    *

    * i i

    i

    w Y

    w

    y tiene varianza

    *

    1( )

    i

    Varw

  • 19

    El estudio de la significacin estadstica es realizada con la prueba estadstica de

    tipo Wald, la cual es igual al efecto metanalizado de la intervencin (escala log de

    los riesgos relativos y odds ratios) dividido por su error estndar:

    ( )Z

    Var

    Esta prueba estadstica es la conocida tpicamente como el estadstico Z o el valor Z.

    Bajo el supuesto de que dos intervenciones investigadas no difieren del valor Z,

    aproximadamente seguirn una distribucin normal estndar (una distribucin normal

    con media 0 y desviacin estndar 1). Este supuesto tambin se conoce como la

    hiptesis nula y se denota Ho. El correspondiente valor de p de dos colas se puede

    obtener usando la siguiente frmula:

    2 1 | |P Z

    Donde | Z | denota el valor absoluto del valor Z y denota la funcin de distribucin

    de la probabilidad estndar normal acumulada.13 El valor P es la probabilidad de

    observar un valor Z al menos tan extremo como la que se observa debido a la

    intervencin del azar. Cuanto menor sea el valor P, menor ser la probabilidad de que

    la diferencia observada entre los dos grupos de intervencin no sea ms que un

    hallazgo casual, y por lo tanto, mayor es la probabilidad de que la diferencia observada

    se deba a algn efecto del tratamiento verdadero subyacente.

    Estrategias para el metanlisis con el modelo de efectos

    aleatorio

    Como se explic, el modelo de efectos aleatorio intenta incluir una cuantificacin de

    la variacin a travs de los ensayos.13 El enfoque comn es estimar la varianza entre

    ensayos, 2, con un poco de variacin estimada entre ensayos.13

    El mtodo de DerSimonian-Laird

    El estimador de la varianza entre los ensayos que se ha utilizado con mayor frecuencia

    en la prctica de metanlisis (y es la nica opcin en el software Review Manager de

    la Colaboracin Cochrane) es el estimador propuesto por DerSimonian y Laird (DL) 13;

    27; 32 El estimador DL se calcula mediante

    DL2 = max(0, (Q k + 1) / (S1 (S2 / S1)))

  • 20

    Donde Q es el estadstico de la prueba de homogeneidad Cochrane dada por Q =

    wi (Yi - )2, donde Sr = wir, para r = 1,2, y donde k es el nmero de ensayos incluidos

    en el metanlisis.13; 32

    Debido a que el estimador DL es propenso a subestimar la varianza entre ensayos,33-

    40 el TSA tiene, adems, dos alternativas al modelo de efectos aleatorio, el Sidik y

    Jonkman (SJ) y los mtodos Biggerstaff y Tweedie (BT)33; 34; 41.

    El mtodo de Sidik-Jonkman (SJ)

    El modelo de efectos aleatorio SJ utiliza un estimador sencillo (no iterativo) de la

    varianza entre los ensayos basado en una re-parametrizacin de la varianza total del

    efecto estimado de la intervencin observada Yi.33;34 Esto viene dado por la expresin:

    SJ2 = vi (Yi - 0)2/ (k-1)

    en la cual vi = ri + 1, ri = i2/02, y 02 es una primera estimacin de la variacin entre

    los ensayos, que se puede definir, por ejemplo, como

    02 = (Yi - uw)2/ k

    uw es la media no ponderada de las estimaciones de los efectos observados, y 0 es

    el estimador de los efectos aleatorios ponderados utilizando 02 como la estimacin de

    la varianza entre ensayos. Los estudios de simulacin han demostrado que el

    estimador SJ proporciona estimaciones menos sesgadas hacia la baja de la variacin

    entre ensayos que el estimador DL.34; 37 Es decir, el mtodo SJ es menos probable

    que subestime la heterogeneidad entre los ensayos. Este es el caso particular para

    metanlisis donde existe heterogeneidad moderada o alta. Los intervalos de confianza

    basados en el estimador SJ tienen una cobertura cercana al nivel deseado (por

    ejemplo, intervalos de confianza del 95 % tendrn el verdadero efecto en

    aproximadamente el 95 % de todos los metanlisis).34; 37 Por el contrario, la cobertura

    comnmente reportada de los intervalos de confianza basado en el estimador DL est

    a menudo por debajo del nivel deseado.33; 35-38 Por ejemplo, muchos estudios de

    simulacin que han investigado la cobertura de los intervalos de confianza del 95 %

    basados en DL han encontrado una cobertura real de 80 % a 92 %.34; 37 El tamao de

    estos intervalos de confianza es equivalente a una proporcin de falsos positivos del

    8 % al 20 %, lo cual es evidentemente mayor que el 5 % convencionalmente aceptado.

  • 21

    El mtodo Biggerstaff - Tweedie

    Debido, a que la mayora de los metanlisis contienen solo un nmero limitado de

    ensayos clnicos, la estimacin de la varianza entre los ensayos es a menudo objeto

    de error aleatorio.41 Por lo tanto, la presencia de la incertidumbre en estimacin de la

    varianza entre los ensayos en el modelo de efectos aleatorios debe ser advertida.

    Biggerstaff y Tweedie (BT) propusieron un mtodo para lograr tal incorporacin.41

    Ellos derivaron una distribucin de probabilidad aproximada, FDL, para la estimacin

    de DL de 2. Definiendo los pesos de los ensayos, segn wi(t)= ((i2 + t)--1, donde t es

    una variable que puede asumir todos los valores posibles para 2, ellos utilizaron FDL

    y obtuvieron el peso de los ensayos que toman en cuenta la incertidumbre del

    estimado 2. Generalmente, esto crea un esquema de ponderacin lo cual, relacionado

    con el enfoque de DL, atribuye ms peso a ensayos de mayor tamao y menos peso

    a ensayos ms pequeos. Biggerstaff y Tweedie tambin propusieron una frmula

    ajustada por la variacin del efecto metanalizado de la intervencin, facilitando as los

    intervalos ajustados de confianza (vase el apndice, seccin 6.2.1).

    Cul estrategia de los efectos aleatorio puede ser la mejor?

    Los mtodos SJ y BT presentan ventajas relativas sobre el enfoque DL. Sin embargo,

    estos mtodos tienen sus propias limitaciones y es improbable que sean superiores

    en todos los casos. El estimador SJ puede sobreestimar la varianza entre los ensayos

    en los metanlisis con heterogeneidad leve, produciendo de esta manera,

    artificialmente, amplios intervalos de confianza.34, 37 Se ha demostrado que el enfoque

    de BT proporcionan una cobertura similar a los intervalos de confianza del enfoque

    DL en los metanlisis con ensayos no sesgados de bajo tamao de muestra.35 Sin

    embargo, cuando los ensayos incluidos difieren en tamao y algunos ensayos

    pequeos estn sesgados, el enfoque de BT pondr apropiadamente altos pesos en

    los ensayos ms grandes, mientras que continua considerando la heterogeneidad.

    Este punto es importante porque una crtica comn del modelo de efectos aleatorios

    DL es que a los ensayos pequeos a menudo se asignan artificialmente grandes

    pesos en metanlisis heterogneos. Una solucin generalmente aplicada, y poco

    satisfactoria, es utilizar en este caso el modelo de efecto fijo. De esta manera, el

    estimador combinado puede estar menos sesgado por el uso de un esquema de

    ponderacin inadecuada, pero los intervalos de confianza tambin sern

    artificialmente estrechos porque no toman en cuenta la heterogeneidad. El enfoque

    de BT reduce el sesgo incurrido por la ponderacin inapropiada del modelo de efectos

    aleatorio mientras que contina considerando la heterogeneidad.

    La eleccin del modelo de efectos aleatorios debera incluir un anlisis de sensibilidad

    comparando cada estrategia. Si DL, SJ, y BT mantienen inferencias estadsticas

  • 22

    similares (es decir, las estimaciones puntuales y los intervalos de confianza), sera

    razonable utilizar el enfoque DL y tener confianza en que la estimacin de la varianza

    entre ensayo es confiable.

    Si dos (o todos) de las tres estrategias son diferentes, se debe llevar a cabo un

    metanlisis con ambos (o todos) estrategias y considerar los resultados de acuerdo

    con las propiedades subyacentes de cada enfoque. Por ejemplo, si los enfoques DL y

    SJ producen resultados diferentes, dos posibles explicaciones deben ser

    consideradas: 1) el metanlisis est sujeto a una heterogeneidad moderada o

    sustancial y por lo tanto el estimador DL subestima la varianza entre los ensayos y

    produce intervalos de confianza artificialmente estrechos, y 2) el metanlisis est

    sujeto a heterogeneidad leve y por lo tanto el estimador SJ sobreestima la varianza

    entre ensayos y produce intervalos de confianza artificialmente anchos. En esta

    situacin, se debe entonces llevar a cabo metanlisis con los dos enfoques y

    considerar las implicaciones de cada uno de los dos escenarios siendo verdad.

    Mtodos para el manejo de ensayos clnicos sin eventos

    En los ensayos dicotmicos, el desenlace de inters puede ser raro. Por ejemplo, la

    incidencia de una enfermedad cardaca por el uso de hormona de reemplazo hormonal

    es muy baja.42 Algunas veces hay ausencia de eventos de un desenlace eventos

    Cero en un grupo. En esta situacin la medida de la razn del efecto (RR y OR) no

    dar una estimacin til del efecto de la intervencin.42 Una solucin a este problema

    es aadir alguna constante al nmero de eventos y no eventos de cada grupo de

    intervencin. Esta estrategia es conocida como correccin de continuidad.42

    Numerosas estrategias de correccin continua han sido propuestas en la literatura

    metanaltica.

    Correccin constante de continuidad

    La correccin constante de continuidad es un mtodo simple y es el ms comnmente

    utilizado en la literatura metanaltica.42 El mtodo involucra la adicin de un factor de

    correccin continuo (una constante) al nmero de eventos y no eventos en cada grupo

    de intervencin.

    Grupo Eventos No eventos Total

    Intervencin 0 20 20

    Control 5 20 25 Tabla 1. Ejemplo de un ensayo sin eventos

  • 23

    Considere el ejemplo del ensayo con evento cero que se muestra en la tabla 1. Si, por

    ejemplo, el mtodo de correccin constante de continuidad utiliza un factor de

    correccin de 0,5, el nmero de eventos en el grupo de intervencin se transformar

    en 0 + 0,5 = 0,5, el nmero de no eventos en el grupo de intervencin ser ahora igual

    a 20 + 0,5 = 20,5, el nmero de eventos en el grupo control resulta en 5+0,5= 5,5;

    para finalizar, el nmero de no eventos en el grupo control ser 20 + 0,5 = 20,5. Debido

    a que el nmero total de pacientes es el nmero de eventos ms el nmero de no

    eventos, el nmero total de pacientes (despus de la correccin constante de

    continuidad con la constante 0,5) ser 20,5+0,5=21 en el grupo de intervencin y 20,5

    + 5,5 = 26 en el grupo control.

    Si, por ejemplo, se utiliza un factor de correccin de 0,1, el nmero de eventos y el

    nmero total de pacientes (despus de la correccin de continuidad) seran entonces

    0,1 y 20,2 en el grupo de intervencin y 5,1 y 25,2 en el grupo control.

    La versin 5 del Review Manager utiliza correccin constante de continuidad utilizando

    un factor de correccin de 0,5.13, 27 Los estudios de simulacin han demostrado

    problemas con el uso de esta constante, esto produce estimaciones inexactas cuando

    la relacin de asignacin aleatorizada no es 1:1, y produce intervalos de confianza

    que son demasiado estrechos.42

    Correccin de continuidad utilizando la recproca del opuesto del

    grupo de intervencin

    Otro mtodo potencial de correccin de continuidad es agregar el recproco del

    nmero total de pacientes en el opuesto al grupo de intervencin al nmero de eventos

    y no eventos.42 Este tipo de correccin de continuidad es tambin comnmente

    conocido como correccin de continuidad del grupo de tratamiento.42 En el ejemplo

    de la tabla 1, el factor de correccin para el grupo de intervencin sera 1/25=0,04, y

    el factor de correccin para el grupo control sera 1/20=0,05. Este mtodo de

    correccin continua provoca 0,04 eventos y 20,04 pacientes en el grupo de

    intervencin y 5,05 eventos y 25,05 pacientes en el grupo control.

    Correccin de continuidad emprica

    Tanto el mtodo de correccin de continuidad constante y el mtodo de correccin de

    continuidad grupo de tratamiento impulsan los estimadores del efecto de la

    intervencin hacia el efecto nulo (es decir, hacia 0 para las diferencias de riesgo y

  • 24

    hacia 1 para medidas de razn).42 Una alternativa de correccin continua es la

    correccin de continuidad emprica que arrastra el estimador del efecto de la

    intervencin hacia el efecto metanalisado.42 Por ejemplo, asuma que sea el odds

    ratio del metanlisis que no incluye los ensayos de eventos cero, y sea R la relacin

    de aleatorizacin en el ensayo clnico que necesita correccin de continuidad. El factor

    de correccin de continuidad para el grupo de intervencin, CFI, y la correccin de

    continuidad para el grupo control, CFC, puede ser calculada con las siguientes

    frmulas:

    I

    C

    RCF C

    R

    CF CR

    bajo la restriccin de que dos correcciones de continuidad se suman a algunos

    constantes C.42

    Examinando la significacin ajustada y la futilidad en el

    metanlisis acumulativo

    Examinar la significacin ajustada en el metanlisis acumulativo tiene dos objetivos:

    debe medir y tomar en cuenta la fortaleza de la evidencia disponible y debe controlar

    el riesgo de errores estadsticos (error tipo I y tipo II) cuando se producen

    repetidamente pruebas de significacin sobre los datos que se van acumulando.

    La cuantificacin de la fortaleza de la evidencia disponible exige la definicin de un

    goal post.1, 2, 4, 6, 11, 12, 23 En el programa de TSA se mide la fortaleza de la evidencia

    disponible, y es considerada, para calcular el tamao de informacin requerida. Esta

    informacin del tamao es anloga al tamao requerido de la muestra en un nico

    ensayo clnico aleatorizado. 1, 2, 4, 6, 11, 12, 23

    Controlar el riesgo de error tipo I implica una alteracin en la forma en que medimos

    la significacin estadstica. Si un metanlisis se somete a pruebas de significacin

    antes de que haya superado el tamao requerido de la informacin, el umbral para la

    significacin estadstica se puede ajustar para tener en cuenta el alto riesgo del error

    aleatorio.1, 2, 4, 6, 11, 12, 23 Por otra parte, la propia prueba estadstica puede ser

    penalizada en conjunto con la fortaleza de la evidencia disponible. El TSA ofrece la

    opcin de utilizar ambos enfoques para controlar el error de tipo 1.

  • 25

    Controlar el riesgo de error tipo II antes de que un metanlisis supere su tamao

    requerido implica el establecimiento de umbrales (reglas) para cuando la intervencin

    experimental pueda ser considerada no superior (y/o no inferior) a la intervencin de

    control.

    Los mtodos para ajustar los umbrales de significacin (por ejemplo, controlando el

    error tipo I) basados en los mtodos introducidos por Armitage y Pocock; se les conoce

    como 'anlisis secuencial de grupo',18, 43, 44 En el anlisis secuencial de los grupos de

    Armitage y Pocock, es necesario conocer el nmero aproximado de pacientes

    aleatorizados entre cada anlisis intermedio de los datos.30 En los ensayos clnicos

    aleatorizados, los anlisis intermedios sobre la acumulacin de datos suelen ser pre-

    planificados y por lo tanto es posible definir el tamao de los grupos conocidos entre

    cada anlisis intermedio.30 En el metanlisis, el anlisis intermedio de los datos ocurre

    cuando hay una actualizacin, agregando datos de nuevos ensayos clnicos.

    Laactualizaciones en el metanlisis se producen a un ritmo arbitrario, rara vez son

    regulares, y el nmero de pacientes que agregamos es variada e impredecible. Los

    mtodos propuestos por Armitage y Pocock, por lo tanto, son inaplicables para el

    metanlisis.

    Lan y DeMets extendieron la metodologa propuesta por Armitage y Pocock,

    permitiendo anlisis intermedios ms flexibles y no planificados. Lan y DeMets

    pretendieron esta metodologa para la evaluacin de significacin repetida en un sola

    ensayoaleatorizado.16,17,30 Debido a la flexibilidad del momento de anlisis

    intermitente, esta metodologa es aplicable a los metanlisis. Por lo tanto, la estrategia

    de Lan y DeMets es la metodologa usada en el TSA, esto implica la construccin de

    lmites de control que facilitan la definicin de umbrales sensibles para "significacin

    estadstica" en el metanlisis.

    Del mismo modo, los lmites de futilidad pueden ser construidos, lo que facilita la

    definicin de umbrales sensibles para 'inutilidad' en metanlisis.30 Las secciones 2.2.1.

    a 2.2.5. aportan la descripcin de la metodologa subyacente y las consideraciones

    tericas para estos mtodos.

    Los mtodos de control de error tipo II son una extensin de la metodologa de Lan-

    DeMets que permite evaluar la no superioridad y no inferioridad. Es decir, en lugar de

    construir umbrales ajustados para la significacin estadstica, el mtodo construye

    umbrales ajustados para no superioridad y no inferioridad (o ninguna diferencia).

    Juntos, los lmites de no superioridad y de no inferioridad ajustados constituyen lo que

    se conoce como los lmites de futilidad o lmites de la cua interna (inner wedge).

    Las secciones 2.2.7 proporcionan una descripcin de la metodologa y

    consideraciones tericas subyacentes de este mtodo.

  • 26

    Tal como fue descrito, un enfoque alternativo a la alteracin de los umbrales es

    penalizar a la prueba estadstica en s. El mtodo para penalizar a las pruebas

    estadsticas empleadas es relativamente una nueva estrategia, que se basa en los

    teoremas de la teora de la probabilidad avanzada. En particular, la tcnica utiliza el

    teorema conocido como "la ley del logaritmo iterado".7; 8 En las secciones 2.2.2 y 2.2.6

    se ofrece una descripcin de la metodologa subyacente y consideraciones tericas

    para este mtodo.

    El tamao de la informacin necesaria para un metanlisis

    concluyente

    La determinacin del tamao de la informacin requerida (por ejemplo, el nmero

    necesario de pacientes) de un metanlisis concluyente y fiable es un requisito previo

    para la construccin de los umbrales ajustados para 'significacin estadstica' usando

    TSA.1, 2, 4, 6, 11, 12 Los niveles de los umbrales deben ser construidos de acuerdo con la

    fuerza de la evidencia.1, 2, 4, 6, 11, 12 La metodologa estadstica subyacente TSA se basa

    en el supuesto de que los datos se acumularn hasta que el tamao de la informacin

    requerida sea superada.30 Para mayor explicacin sobre esta suposicin, por favor

    refirase a los documentos metodolgicos anteriores sobre esta cuestin.16, 17, 30, 43, 44

    Consideraciones convencionales para determinar el tamao de la informacin

    Se ha argumentado que el tamao de la muestra necesaria para que un metanlisis

    sea concluyente y confiable, debera ser, por lo menos, tan grande como el tamao

    de la muestra necesaria para detectar el efecto verdadero de la intervencin en un

    ensayo clnico con un tamao de muestra suficiente.1,2,4,6,11,12 En concordancia con

    esta constructo, el tamao mnimo necesario de informacin (nmero de pacientes)

    en un metanlisis puede ser derivado usando esta conocida frmula:

    ISPatients = 2 (Z1-/2 + Z1-)2 2 2 / 2

    donde es el riesgo mximo deseado de obtener un resultado falso positivo (error tipo

    I) y es el riesgo mximo deseado de obtener un resultado falso negativo (error tipo

    II ), y donde Z1-/2 y Z1- son los (1- /2) y (1- ) distribucin estndar normal de los

    quantiles.1,2,4,6,11,12 Observe que el uso de /2 en lugar de significa que el tamao

    de la informacin es construida asumiendo una prueba estadstica bilateral. Para los

    datos binarios, = PC - PE denota una estimacin a priori para un efecto de la

    intervencin realista o mnimamente importante (PC y PE siendo la proporcin con un

    resultado en el grupo control y el del grupo de intervencin, respectivamente), donde

  • 27

    2 = P* (1 - P*), que es la varianza asociada, y suponiendo que P* = (PC + PE) / 2 (es

    decir, que los grupos de intervencin y de control son iguales en tamao). Para los

    datos continuos, denota, una estimacin a priori de la diferencia entre las medias de

    los dos grupos de intervencin y 2 indica la varianza asociada.

    Alternativas al nmero de pacientes acumulados

    En el metanlisis de datos binarios, la informacin y la precisin en un metanlisis

    dependen principalmente del nmero de eventos de un desenlace. Por lo tanto, se

    puede argumentar que en el contexto de las consideraciones de tamao de la

    informacin de un metanlisis, el nmero requerido de eventos es una medida ms

    apropiada que el nmero necesario de pacientes. Bajo el supuesto de que un nmero

    igual de pacientes son aleatorizados a las dos intervenciones investigadas en todos

    los ensayos, el nmero requerido de eventos puede ser determinado de la siguiente

    manera:

    ISEvents = PC*IS/2 + PE*IS/2

    donde ISEvents es el nmero requerido de eventos para un metanlisis concluyente y

    fiable, y PC y PE son como se definen en el prrafo anterior.

    La informacin estadstica (informacin Fischer) es una medida estadstica de la

    informacin contenida en un conjunto de datos (dado el modelo estadstico que sea

    asumido).45 En el metanlisis estndar comparando dos intervenciones, la informacin

    estadstica es simplemente el recproco de la varianza combinada.46 En un

    metanlisis, la informacin estadstica es una medida tericamente ventajosa, ya que

    combina tres factores en una sola medida: nmero de pacientes, nmero de eventos

    y el nmero de ensayos. Esta medida proporciona una propuesta simple para las

    consideraciones del tamao de la muestra de un metanlisis. Los datos metanalticos

    se consideran como algo anlogo a la acumulacin de datos en un nico ensayo y la

    informacin estadstica requerida viene dada por:

    ISStatistical = (Z1- /2 + Z1- )2/2

    Donde ISStatistical es la informacin estadstica verdadera alcanzada en el metanlisis,

    es el riesgo mximo deseado de error tipo I, Z1- /2 es el percentil estndar normal

    (1- /2), es el riesgo mximo deseado de error tipo II, Z1- es el percentil estndar

    normal (1- ) y es efecto pre-especificado (mnimamente relevante) de alguna

    intervencin.30, 45

  • 28

    El factor de ajuste de la heterogeneidad

    Los ensayos incluidos en un metanlisis, a menudo, incluyen pacientes de un amplio

    abanico de grupos de poblacin, utilizan diferentes regmenes de una intervencin y

    con diferentes diseos de estudio, y varan en la calidad metodolgica (es decir, el

    riesgo de sesgo o error sistemtico). Por todas estas razones, es natural esperar

    un mayor grado de variacin en los datos del metanlisis en comparacin con los

    datos de un solo ensayo.13, 47 Tal variacin adicional se conoce como la

    heterogeneidad (o variacin entre ensayos).13, 47 Debido a que el aumento de la

    variacin puede disminuir la precisin de los resultados, las consideraciones de

    tamao de la informacin deben incorporar todas las fuentes de variacin en un

    metanlisis, incluyendo heterogeneidad.4,6,11,12 Uno de los enfoques para la

    incorporacin de la heterogeneidad en consideraciones de tamao de la informacin

    es multiplicar el tamao de la informacin requerida en un metanlisis por algn factor

    de ajuste de heterogeneidad.6,23 Recientemente, un factor similar de ajuste de

    heterogeneidad ha sido propuesto para la estimacin del tamao de la muestra en un

    solo ensayo clnico.48

    El factor de ajuste de la heterogeneidad se conceptualiza a travs de los supuestos

    subyacentes que hacemos para nuestro modelo de metanlisis. En el modelo de

    efecto fijo, se supone que todos los ensayos incluidos pueden ser vistos como

    repeticiones del mismo ensayo (con respecto al diseo y conduccin). Por lo tanto, el

    tamao de la informacin requerida para un metanlisis de modelo de efecto fijo sea

    concluyente y efectivo puede calcularse de la misma manera que el tamao de

    muestra necesario para un ensayo clnico individual. En el modelo de efectos

    aleatorio, se supone que los ensayos incluidos provienen de una distribucin de

    posibles ensayos (con respecto al diseo y conduccin). Por definicin, la varianza en

    un modelo de efectos aleatorios es siempre mayor que en un modelo de efecto fijo.

    Por lo tanto, un ajuste del factor de heterogeneidad debe tener en cuenta el aumento

    en la variacin en que un metanlisis incurre desde pasar de la hiptesis de efecto fijo

    para el supuesto de efectos aleatorio. Un ajuste preciso se puede lograr haciendo que

    el factor de ajuste de heterogeneidad sea igual a la razn de la varianza total en el

    metanlisis de modelo de efectos aleatorio y de la varianza total en el metanlisis de

    modelo de efecto fijo.6, 23 Por consiguiente, el factor de ajuste de heterogeneidad es

    siempre igual o mayor que 1. Suponiendo ISFixed denote el tamao de la informacin

    necesaria para un metanlisis de modelo de efecto fijo dado por la ecuacin (1), R

    denota la varianza total en el metanlisis con modelo de efectos aleatorio y F denota

    la varianza total en el modelo de metanlisis de efecto fijo, el tamao de la informacin

    ajustada por heterogeneidad se puede calcular usando la siguiente frmula:

  • 29

    RRandom Fixed

    F

    IS IS

    Dado que los efectos anticipados de la intervencin en los modelos de efecto fijo - (F)

    y de modelos de efectos aleatorios (R) - son aproximadamente iguales (es decir, dado

    R=F), se puede demostrar matemticamente que en el caso especial donde todos

    los ensayos en un metanlisis tengan el mismo peso, el factor de ajuste de

    heterogeneidad (AF) se expresa de la siguiente manera:

    2

    1

    1

    R

    F

    AFI

    Donde I2 es el factor de inconsistencia comnmente utilizado para medir la

    heterogeneidad en un metanalisis.47

    Es importante recordar que, en cualquier caso donde los pesos de los ensayos no

    sean iguales, utilizando I2 dar lugar a una subestimacin del factor de ajuste, y por lo

    tanto, una subestimacin del tamao de la informacin requerida.23 En esta situacin,

    se puede definir una medida de la diversidad (D2)) como la cantidad necesaria para

    satisfacer la ecuacin:

    1

    2*

    1

    1

    1

    k

    i

    iR

    k

    Fi

    i

    w

    AFD

    w

    donde wi denota los pesos de los ensayos en el modelo de efecto fijo y wi* indica los

    pesos de los ensayos en el modelo de efectos aleatorio. La solucin de la ecuacin

    con respecto a D2, se obtiene:

    1

    * 1 2

    2 1 1

    1 1

    1 1

    k k

    i i

    i iR F F

    k k

    R Ri i

    i i

    w w

    D

    w w

    Donde 2 indica la variacin entre ensayos. Una propiedad ventajosa de la medida de

    diversidad, D2, es que las derivaciones anteriores son generalizables a cualquier

    modelo de metanlisis. Por lo tanto, si queremos realizar un metanlisis de algunos

    ensayos mediante un modelo de efectos aleatorios alternativo con varianza total VR,

    la medida de diversidad y el correspondiente factor de ajuste simplemente se toma la

    expresin:

  • 30

    2 R F R

    R F

    D and AF

    Las estimaciones de la variabilidad, y, en particular, la variabilidad entre ensayos,

    pueden estar sujetos al error aleatorio y al sesgo.41, 47, 49, 50 Por esta razn, y en

    algunas situaciones, el uso de D2 o I2 basado en los datos disponibles puede ser

    inadecuada. En el metanlisis que incluye solamente un nmero limitado de ensayos

    (por ejemplo, menos de 10 ensayos), las estimaciones de la heterogeneidad y de la

    varianza entre ensayos pueden ser tan poco fiables como las estimaciones del efecto

    de intervencin de ensayos clnicos aleatorizados pequeos (por ejemplo, ensayos

    con menos de 100 pacientes). Cuando un metanlisis est sujeto a sesgo de

    tendencia temporal (es decir, cuando los ensayos, la mayora con resultados positivos,

    han sido publicados), por lo general se subestima la varianza entre los ensayos. Esta

    subestimacin ocurre porque el conjunto de ensayos incluidos tempranamente es

    probable que reproduzcan una estimacin del efecto similar a la de la intervencin

    (positiva).50 Los metanlisis posteriores- actualizaciones-, es probable que incluyan

    ms ensayos con resultados neutros o incluso negativos, en cuyo caso las

    estimaciones de la heterogeneidad sern mayores.

    Para los metanlisis con un esperado nmero pequeo de ensayos, se sugiere hacer

    una estimacin a priori sobre el grado previsto de heterogeneidad. Si se permite

    que H muestre una estimacin conceptual de D2, podemos utilizar la siguiente frmula

    en un clculo a priori:

    1

    1AF

    H

    Por ejemplo, si se espera que un metanlisis incluya un grado leve de heterogeneidad,

    sobre la base de lo que sabemos sobre el tema clnico, las diferencias observadas

    entre los ensayos incluidos, las diferencias esperadas entre presente y futuro, y el

    alcance de la revisin- uno puede optar por definir H como el 25 %. En este caso, la

    AF se estima en 1,33. Si se espera un moderado grado de heterogeneidad, se puede

    optar por definir H como el 50 %, y AF sera entonces estimada en 2,00. Si se espera

    gran heterogeneidad, entonces H puede llegar a ser del 75 % y el AF se estima en

    4,00.

    Debido a que el grado de la heterogeneidad esperado puede ser difcil estimar cuando

    un metanlisis solo incluye pocos ensayos, se recomienda que los usuarios del TSA

    realicen anlisis de sensibilidad para esta variable. Por ejemplo, se podra concebir

    grados mximos y mnimo realistas o aceptables de heterogeneidad para un

    metanlisis dado. Como un ejemplo, se podra especular que el grado mnimo

  • 31

    aceptable de heterogeneidad estadstica sera 20 %. Tambin se podra decidir que si

    la heterogeneidad estadstica supera el 60 %, entonces la medicin del efecto en los

    subgrupos, en lugar de la estimacin del efecto del tratamiento estimado mediante la

    combinacin de los ensayos, sera ms apropiada. En este caso, no debera ser

    realizado el metanlisis. En este ejemplo, se podra usar el promedio de los dos, (60

    % + 20 %)/2 = 40 %, para el clculo del tamao de la informacin primaria, pero

    reconociendo que el tamao de la informacin requerida puede ser tan grande como

    el basado en el 60 % de ajuste de la heterogeneidad o tan baja como el basado en el

    20 %. Como otro ejemplo, se podra concebir la construccin de un nmero de

    mejores y peores escenarios de casos (cualesquiera que sean) mediante la

    adicin de futuros ensayos imaginario para el metanlisis actual.

    Este enfoque permitira evaluar la solidez y la fiabilidad de la estimacin D2 y construir

    un espectro de grados realistas o aceptables de heterogeneidad que fcilmente

    podran ser utilizados para el anlisis de sensibilidad.

    Estimacin de la proporcin de eventos del grupo control y un supuesto efecto

    de la intervencin

    La estimacin de la proporcin de eventos del grupo control y un probable efecto de

    la intervencin son determinantes importantes para calcular el tamao de la

    informacin necesaria al usar TSA. Por lo tanto, debe hacerse todo lo posible para

    que estas estimaciones sean lo ms precisa y verdadera posible.

    Para los datos binarios, la proporcin de eventos del grupo control se puede estimar

    mediante el uso de la experiencia clnica y la evidencia de reas relacionadas. Una

    estimacin a priori de un efecto objetivo de la intervencin se expresa generalmente

    como una reduccin relativa del riesgo (RRR). Cuando la disponibilidad de la

    evidencia, acerca de la intervencin bajo investigacin, es limitada se puede estimar

    un efecto clnicamente relevante de la intervencin mediante el uso de la experiencia

    clnica y las pruebas de las reas relacionadas. Un ejemplo se puede encontrar en un

    artculo de Pogue y Yusuf, en el que la proporcin de eventos del grupo control, Pc, y

    un RRR a priori se basaron en las experiencias de las reas relacionadas en

    cardiologa.1,2 Pogue y Yusuf aplicaron consideraciones del tamao de la informacin

    a dos metanlisis conocidos bien destacados en cardiologa: La estreptoquinasa

    intravenosa en infarto agudo de miocardio y magnesio intravenoso en infarto agudo

    de miocardio. Ellos postularon que para la mayora de los principales resultados

    vasculares, como la muerte, pudiera ser sensato esperar una mortalidad del 10% en

    el grupo control. Pogue y Yusuf, adems, consideraron un ejemplo de una intervencin

  • 32

    terica para la prevencin de la mortalidad despus de un infarto al miocardio.

    Sealaron que los verdaderos tratamientos eficaces para reducir el riesgo de eventos

    cardiovasculares, tales como la muerte, haban generado unos RRRs de 10 %, 15 %,

    o -en el mejor de los casos- 20 %.

    Para cualquier pregunta clnica, la decisin tiene que ser realizada sobre qu valores

    son adecuados para el Pc y RRR. La proporcin anticipada de eventos en el grupo de

    intervencin (experimental), PE, a continuacin, se pueden obtener usando la frmula

    PE = Pc (1- RRR). Posteriormente, el PE hipottica y Pc pueden ser introducidos en la

    frmula para el tamao de la informacin requerida.

    La inferencia realizada sobre los efectos de intervencin verdadera prevista en un rea

    de intervencin a otra puede ser problemtica porque una estimacin a priori puede a

    menudo representar aproximaciones pobres de la verdad. La literatura de ensayos

    clnicos est llena de ejemplos de clculos del tamao de la muestra realizados sobre

    la base de los efectos sobreestimados de las intervenciones previstas. No hay ninguna

    razn de por qu esto debera ser diferente para los clculos del tamao de

    informacin para un metanlisis.

    Si los ensayos aleatorizados ya han investigado el efecto de una intervencin,

    entonces, una recoleccin de tales estimados se puede usar para cuantificar mejor el

    efecto de la intervencin prevista. Sin embargo, no todos los ensayos aportan

    estimaciones vlidas, y se debe tener cuidado en asegurarse de la validez de los

    estimadores de los efectos de la intervencin utilizados para el clculo del efecto

    anticipado de una intervencin dada.

    Muchos ensayos producen sobreestimacin de los efectos de la intervencin

    investigada debido al informe selectivo de resultados y riesgos de sesgo (es decir, los

    errores sistemticos debido a la inadecuada generacin de la secuencia de

    asignacin, ocultamiento inadecuado de la asignacin, el enmascaramiento

    inadecuado, prdida durante el seguimiento, u otros mecanismos). 13,51-58 Tales

    ensayos se pueden clasificar en ensayos con alto riesgo de sesgo.13 Al contrario, los

    ensayos que generen estimaciones vlidas del efecto de la intervencin pueden ser

    clasificados como ensayos con bajo riesgo de sesgo.13 Si la evidencia sobre el efecto

    de la intervencin investigada est disponible a partir de ensayos con bajo riesgo de

    sesgo, sera apropiado establecer un efecto esperado a priori de la intervencin

    utilizando un metanlisis de estos ensayos.6,11,12 Sin embargo, las situaciones

    metanalticas que requieren clculos del tamao de la informacin a menudo se

    producen cuando la evidencia es escasa. Aunque una serie de ensayos con bajo

    riesgo de sesgo estn disponibles para la aproximacin de un efecto de verdadera la

    intervencin prevista, la estimacin combinada de estos ensayos todava puede estar

  • 33

    sujeto a considerable error aleatorio, el sesgo de desfase del tiempo, y el sesgo de

    publicacin. Por lo tanto, un efecto esperado a priori de la intervencin sobre la base

    de la estimacin del efecto combinado de metanlisis de los ensayos con bajo riesgo

    de sesgo solo es fiable en la medida en que este metanlisis puede considerarse libre

    de grandes errores aleatorios. Adems, solo es vlido en la medida en que puede

    considerarse libre de sesgo de desfase del tiempo y de publicacin.

    No es posible recomendar una tcnica para definir los efectos de intervencin para los

    clculos del tamao de la informacin. Ms bien, las consideraciones del tamao de

    la informacin deben basarse en las fluctuaciones de proporciones crebles de

    eventos del grupo control, efectos de la intervencin y errores de tipo I y II. Las

    consideraciones adecuadas para el clculo del tamao de la muestra para un ensayo

    clnico no solo se basan en un solo nmero. En su lugar un rango de tamaos de

    muestras aceptable se produce a partir de una gama de efectos posibles de

    tratamiento, la proporcin de eventos del grupo de control, y los errores tipo I y tipo II,

    lo que proporciona un razonable intervalo de tamaos de muestra en el cual se

    encuentre un nmero apropiado de pacientes para obtener un ensayo clnico

    concluyente. Del rango producido de tamaos de muestra, se seleccionara una

    primaria y dejar que el tamao de la muestra acte como clculo de sensibilidad

    (potencia). Se recomienda que las consideraciones de tamao de la informacin para

    metanlisis sigan la misma construccin. Las RRR y PC obtenidos de estudios con

    bajo riesgo de sesgo fcilmente podran combinarse a priori con un rango de efectos

    de intervencin utilizando la metodologa del mejor y peor escenario realistas, lo

    que proporciona una gama de informacin en la cual sustentarse el metanlisis para

    generar inferencias metanalticas concluyentes.

    Limitaciones

    El tamao de la informacin requerida para un metanlisis (sea determinada como el

    nmero requerido de pacientes, eventos o informacin estadstica) tiene limitaciones.

    En los ensayos clnicos aleatorizados, es razonable asumir que la distribucin de los

    factores de pronstico en los pacientes aleatorizados se asemeja a la de la poblacin

    de referencia. En las revisiones sistemticas con metanlisis, los ensayos se incluyen

    normalmente sobre la base de unos criterios de inclusin que se deciden a priori en el

    protocolo de la revisin sistemtica. Debido a que los criterios de inclusin (y

    exclusin) en los ensayos clnicos casi nunca son idnticos y debido a que los ensayos

    suelen variar en tamao de las muestras, es poco probable que los metanalistas y

    autores de las revisiones sistemticas tengan control sobre la distribucin de los

    factores pronsticos. Si en una actualizacin de la revisin sistemtica se modifican

  • 34

    los criterios de inclusin, los autores no podrn predecir con precisin la distribucin

    de los factores pronsticos entre los ensayos recientemente publicados. Los factores

    pronsticos basales pueden tener un considerable impacto sobre las tasas de

    incidencia en el grupo de control. En esta situacin, puede ser apropiado hacer un

    intento previo de cuantificar la diferencia entre la incidencia basal en la poblacin del

    metanlisis y, en la poblacin de referencia, y luego realizar una serie de anlisis de

    sensibilidad post hoc si es necesario.

    Los efectos comparativos de las intervenciones mnimamente importantes (tambin

    conocidos como diferencias mnimamente importantes) no siempre pueden ser

    similares en todos los ensayos incluidos. Por ejemplo, si la poblacin de pacientes

    investigados entre los ensayos experimenta diferentes riesgos de eventos adversos,

    la diferencia mnimamente importante tambin puede diferir entre los ensayos. Esta

    variacin es el resultado del propsito clnico. Para cualquier intervencin mdica, la

    posibilidad de beneficio debe ser superior a cualquier aumento en el riesgo de dao.

    Una poblacin con mayor riesgo de dao necesitar una mayor posibilidad de

    beneficio para hacer un tratamiento que valga la pena. Cuando las diferencias

    mnimamente importantes varan entre los ensayos, las consideraciones de tamao

    de la informacin todava pueden ser sensibles. Sin embargo, es importante recordar

    que la inferencia acerca de las conclusiones de un metanlisis solo se puede

    generalizar a la poblacin de pacientes para los que se aplican a priori la diferencia

    mnimamente importante.

    Cuando el tamao de la informacin requerida es definida por el nmero requerido de

    pacientes o eventos, el problema de la heterogeneidad impredecible puede ser tratado

    mediante la previsin de algn grado mximo apropiado de la heterogeneidad y en

    consecuencia ajustar el tamao de la informacin requerida.4 La aparente limitacin

    de este enfoque es que el grado de heterogeneidad esperada es a la vez difcil de

    adivinar y estimar cuando solo unos pocos ensayos clnicos estn disponibles. Aunque

    se recomienda el anlisis de sensibilidad sobre el grado de ajuste de la

    heterogeneidad, estos anlisis pueden todava ser inapropiados si el grado

    esperado(s) de la heterogeneidad no refleja el verdadero grado de heterogeneidad en

    el cual los metanlisis incurrirn a medida que se publiquen nuevos ensayos clnicos.

    Cuando el tamao de la informacin requerida se define por la informacin estadstica

    necesaria, la frmula para el tamao de la informacin requerida no requiere una

    estimacin del grado previsto de heterogeneidad. Por el contrario, la informacin real

    en el metanlisis (la informacin estadstica estimada) incorpora directamente la

    heterogeneidad a travs de la variacin estimada entre los ensayos.

  • 35

    Esto, sin embargo, presenta una limitacin en que la informacin estadstica

    acumulada solo es fiable en la medida en que la estimacin de la varianza entre

    ensayos sea fiable. Las posibles soluciones a este problema implican el uso de una

    metodologa ms compleja para ajustar la incertidumbre asociada a la estimacin de

    la variacin entre ensayos. Una opcin es utilizar el enfoque de efectos aleatorios por

    Biggerstaff-Tweedie, que incorpora la incertidumbre asociada a la estimacin de la

    varianza entre los ensayos cuando se utiliza el estimador convencional de

    DerSimonian-Laird (vase la seccin 2.1.3).41 Otra opcin es utilizar metanlisis

    Bayesiano, donde una distribucin a priori es delineada para la varianza entre

    ensayos.

    La prueba estadstica acumulada (curva Z)

    Como se mencion en la seccin 2.1.2., la prueba del metanlisis para significacin

    estadstica utiliza una prueba estadstica tipo Wald. Este estadstico est dado por el

    logaritmo del efecto combinado de la intervencin dividido por su error estndar13 y

    que comnmente se conoce como el estadstico Z o el valor Z. Bajo el supuesto de

    que las dos intervenciones investigadas no difieren (la hiptesis nula) el valor Z ser

    aproximadamente una distribucin estndar normal (una distribucin normal con

    media 0 y desviacin estndar 1). Cuanto mayor sea el valor absoluto de un valor Z

    observado, ms fuerte es la evidencia estadstica de que las dos intervenciones

    investigadas sean diferentes. Si el valor Z absoluto observado es sustancialmente

    mayor que 0, es habitual concluir que la diferencia observada entre el efecto de las

    dos intervenciones no solo se explica por la influencia del azar. En esta situacin, la

    diferencia entre las dos intervenciones se describe como estadsticamente

    significativa. Por definicin, un valor P es la probabilidad de encontrar diferencias

    observadas, o uno ms extremo, si la hiptesis nula fuera verdadera. En la prctica,

    el valor P es el valor que se utiliza para evaluar la significacin estadstica. El valor P

    se obtiene a partir del valor de Z (vase la seccin 2.1.2 para los detalles

    matemticos); estas dos medidas representan dos maneras diferentes de comunicar

    la misma informacin, y son intercambiables. Por ejemplo, un valor de p bilateral

    menor que el 5 % es lo mismo que un valor absoluto de Z mayor que 1,96 y viceversa.

    Cada vez que un metanlisis es actualizado, se calcula un nuevo valor Z. Por tanto,

    una serie de valores consecutivos Z, procede de una serie de actualizaciones del

    metanlisis. Para inspeccionar la evolucin de las pruebas de significacin, la serie de

    valores Z puede ser trazada con respecto a la informacin acumulada (pacientes

    acumulados, eventos o informacin estadstica), produciendo de este modo una curva

    que se conoce comnmente como la curva Z.1, 2, 4, 6, 11, 12

  • 36

    Los problemas con las pruebas de significacin en el

    metanlisis

    Como se mencion en el captulo 1, las pruebas de significacin convencional en el

    metanlisis fallan en relacionar las pruebas estadsticas observadas y los valores de

    p con la solidez de la evidencia disponible y el nmero de pruebas de significacin

    repetidas.1-4, 6, 11, 12 La consecuencia de esta omisin es un aumento en el riesgo de

    obtener un resultado metanaltico falso positivo. Esta seccin proporciona

    descripciones conceptuales y estadsticas, con un nivel bsico a intermedio, de las

    pruebas de significacin en el metanlisis y los problemas que resultan de no

    incorporar la solidez de la evidencia y el nmero de pruebas de significacin repetidas

    en el proceso.

    Criterios generales para las pruebas de significacin

    La pruebas de significacin convencional trabajan con un riesgo mximo de error tipo

    I, , que tambin funciona como el umbral para cuando los valores de p se consideran

    pruebas de significacin estadstica. Los valores p y valores de Z son intercambiables

    en la evaluacin de la significancia estadstica. Como se mencion, para cada umbral

    de valor p, , existe un valor umbral Z correspondiente, Z. Por ejemplo, si deseamos

    un riesgo de error tipo I bilateral de un mximo del 5 % solo deberamos considerar

    valores absolutos Z superiores a 1,96 como prueba de significacin estadstica. Pero

    si deseamos un error mximo de tipo I bilateral del 1 % solo debemos considerar

    valores absolutos de Z superiores a 2,58 como evidencia de significacin estadstica.

    Asuma que Pr (X|Y) indica la probabilidad de que el evento X se produce debido a que

    el evento Y es verdad (o se ha producido), y que |Z| representa el valor absoluto de Z.

    En general, nos enfrentamos al reto de determinar adecuadamente el umbral, c, que

    har que las siguientes ecuaciones sean verdaderas

    Pr(|Z|c | H0 is true) (2)

    Pr(|Z|=c | H0 is true) = (3)

    Para las secciones tericas restantes sobre pruebas de significacin repetidas

    (secciones 2.2.2 a 2.2.5), asumiremos que todas las pruebas estadsticas son

    bilaterales. Tambin asumiremos que todos los valores estadsticos de pruebas, Z,

    son valores absolutos. Asumimos esto ltimo debido a que el lgebra involucrada hace

    ms sencillo realizar ese proceso. Por ejemplo, en la definicin de los umbrales

  • 37

    bilaterales de una prueba estadstica no absoluta, habra que considerar la

    probabilidad de que Pr(Z-c or Zc | ... ) en vez de Pr(|Z|c | ... ).

    Los problemas con las pruebas de significacin repetida

    Las pruebas sencillas convencionales de significacin pueden considerarse fiables si

    suficientes datos se han acumulado. En el metanlisis, una sola prueba de

    significacin puede ser considerada confiable una vez que el tamao de la informacin

    requerida es superada.1-4,6,11,12,20,59 Si realizamos una sola prueba para la significacin

    estadstica en o despus de un metanlisis que ha superado su tamao de informacin

    requerida, las pruebas de significacin estadstica solo implican la determinacin de

    un umbral adecuado, c, que har que las ecuaciones (2) y (3) sean ciertas. Por

    ejemplo, para = 5 % consideraramos c = 1,96 apropiado si los datos del metanlisis

    anteriormente no haban sido sometidos a pruebas de significacin.

    Cuando un metanlisis acumulado es sometido a pruebas de significacin ms de una

    vez (antes superando su tamao de informacin requerido), la situacin se vuelve ms

    compleja. Considerando el ejemplo donde un metanlisis se actualiza una primera vez

    y donde se utiliza el error mximo, convencional, tipo I de 5 %. En esta situacin, el

    primer metanlisis producir un valor de Z, Z1, y la actualizacin del metanlisis

    producir otro, Z2. Si el primer metanlisis genera un valor Z mayor que 1,96, las dos

    intervenciones investigadas se declaran significativamente diferentes. Sin embargo, si

    el primera metanlisis no es significativo (es decir, Z1 < 1,96), las dos intervenciones

    pueden todava ser declaradas estadsticamente significativa si la actualizacin del

    metanlisis genera un valor Z mayor que 1,96 (es decir, si Z2 1,96). Por las leyes de

    la teora bsica de la probabilidad, la probabilidad de qu