lectura crítica de artículos mayo 2012

Lectura crítica de artículosEnrique GranadosGerente Médico Investigación Clínica@enrigranadoshttp://es.linkedin.com/in/enriquegranados

Mayo 2012

"Statistical thinking will one day be as necessary for efficient citizenshipas the ability to read and write"

- H.G. Wells

Buena noticia: No necesitas comerte la vaca entera!!

Puedes asimilar Puedes asimilar importantes importantes

conceptos de un conceptos de un artartíículo sin culo sin entender la entender la

totalidad del mismototalidad del mismo

“Vayamos por partes!”

Abstract: ¿Me sirve este artículo para algo?, ¿Me interesa?

Tablas: ¿Qué es lo que realmente han encontrado los autores?

Métodos: ¿Me creo la tabla anterior?

Discusión: ¿Y ahora qué? ¿Qué me implica?

Referencias de la literatura: ¿Qué se sabía de este tema antes?

Mala noticia: necesitas saber algo de estadística y de números!!

Asociación frente a causalidadCorrelación frente a regresión múltipleSignificación frente a magnitud

Emplea la intuición o la reflexión y contesta!!

Un bate y una pelota cuestan $1.10

El bate cuesta un dólar más que la pelota.

¿Cuánto cuesta la pelota?

Dos sistemas cognitivos, un sólo cerebroKahneman, Premio Nobel Economía 2002

Sistema 1: rápido, intuitivo, sin esfuerzo, esclavo de las emociones y … a menudo incorrecta

– Contesta 10c$

Sistema 2: lento, reflexivo, exige concentración

– Contesta 5c$

“El hombre anumérico”John Allen Paulos (1988)

Término equivalente a “analfabeto”

Menor reproche social

“Usted puede elegir entre tener unas ciertas nociones claras de matemáticas o no tenerlas, pero debe saber que si no las tiene, es usted una persona mucho más manipulable que en el caso contrario.”

La imparcialidad frente a los números una actitud que debe entrenarse

“The perception of risk”Paul Slovic, 2000

La gente responde únicamente ante los riesgos que percibe

Los ictus producen el doble de todas las muertes por accidente, pero el 80% cree que los accidentesson más probablesLos tornados se perciben como más peligrosos que el asma, aunque este produce 20 veces más muertes

Muerte por electrocución se considera menos probable que la muerte por botulismo, aunque en realidad es 52 veces más frecuente

La muerte por enfermedad es 18 veces más probable que por accidente, y la gente las considera igual de probable

La muerte por accidente es considerada por la gente como 300 veces más probable que la muerte por diabetes, pero la realidad es que la proporción es 1:4

www.riskliteracy.org“Berlin numeracy test”: test para comprobar tu grado de compresión sobre el concepto de probabilidad

Ejemplo: De 1,000 personas en un pueblo pequeño, 500 son miembros de un coro. De esos 500 miembros en el coro 100 son hombres. De los 500 habitantes que no están en el coro, 300 son hombres. ¿Cual es la probabilidad de que un hombre cogido al azar sea un miembro del coro?

– a) 10%– b) 25%– c) 40%– d) Ninguno de ellos

Cokely, Judgment and Decision Making, 2012

Sesgos cognitivos

Ver presentación: http://www.slideshare.net/efern211/cognitive-biases-a-visual-study-guide-by-the-royal-society-of-account-planning

Los 4 principios éticos aplicables a todo tipo de estudios

Autonomía Reconocimiento y respeto de la capacidad de cada persona a ser informado y a decidir si desea participar.

Beneficencia Velar por el bienestar del paciente y que siempre sea superior el beneficio al riesgo

Justicia Distribución equitativa de los riesgos y beneficios, sin discriminaciones

No maleficiencia

La investigación no debe causar daño (primum non nocere)

Asociación versus causalidad

Asociación: A y B tienden a ocurrir de manera conjunta más frecuentemente que lo uno esperaría por azar

A B

Explicando la asociación entre dos variables binarias1. Por pura chiripa2. A causa B3. B causa A4. Algo desconocido causa tanto A como B

A B

Dormir con zapatos se asocia a dolor de cabeza

Azar

Los zapatos apretados producen dolor de cabeza

Te dolía la cabeza y te acostaste con zapatos

Beber en exceso se asocia a acostarse con zapatos y a cefalea

La EstadLa Estadíística SOLO stica SOLO puede demostrar puede demostrar asociacionesasociacionesLa estadLa estadíística NUNCA stica NUNCA puede demostrar puede demostrar causalidadcausalidad

Asociación versus causalidad

InferimosInferimos la causalidad a partir del la causalidad a partir del disediseñño experimental o la teoro experimental o la teoríía a

combinada con la asociacicombinada con la asociacióón estadn estadíísticastica

Según el Nature la luz nocturna a los niños les produce miopía

“….los hallazgos sugieren que la ausencia de un período de oscuridad durante la infancia es un factor precipitante para desarrollar miopía.”

Quinn, Myopia and Ambient Lighting at Night, Nature, 1999

Debate: “quizás es la miopía de los padres la que causa tanto la miopía de los hijos como el usar más luz eléctrica nocturna”

“El estudio de Quinn y colsdebería haber controlado por la miopía parental

Gwiazda, Nature, 1999

Correlación versus regresión múltipleCorrelaciCorrelacióón:n: dos variables cuantitativas X e Y parecen comportarse de manera paralela más que si lo explicara el azar

– Cuando X aumenta, también lo hace Y (Correlación positiva)

– Cuando X aumenta, Y disminuye (Correlación negativa)

RegresiRegresióón mn múúltiple:ltiple: las dos variables siguen comportándose de manera igual incluso cuando se tienen en cuenta nuevas variables

Regresión a la media

““En muchas ocasiones he En muchas ocasiones he felicitado a los cadetes por su felicitado a los cadetes por su ejecuciejecucióón. La siguiente vez en n. La siguiente vez en

general lo han hecho peor. Por el general lo han hecho peor. Por el contrario, cuando les he gritado contrario, cuando les he gritado

por una mala ejecucipor una mala ejecucióón, en n, en general luego lo han hecho general luego lo han hecho

mejor. Asmejor. Asíí, que por favor no me , que por favor no me digas que la recompensa digas que la recompensa

funciona y el castigo no, porque funciona y el castigo no, porque es el caso contrario.es el caso contrario.””


Descubierta por Sir Francis Galton (1822-1911):– Al cruzar las plantas de mayor tamaño se obtienen en promedio

plantas de tamaño inferior, y al cruzar las plantas más pequeñas se obtienen de promedio plantas de tamaño mayor

Se manifiesta como una tendencia de los valores extremos de una variable a presentarse con resultados menos extremos por término medio en mediciones sucesivas.


Dos requisitos:

– Selección de los pacientes en función de los valores de una variable (p.e. colesterol > 600 mg/dl)

– Cierto grado de variabilidad intraindividual de los valores de esa variable (circunstancias ambientales, aleatorias…)

Cuanto más extremo es el punto de corte y cuanto mayor es la variabilidad de la medida, mayor es el efecto de la regresión a la media

Más fácil de ver en estudios no controlados con medición antes -después

Explicando la correlación1. Por pura chiripa

2. A causa B

3. B causa A

4. Algo desconocido causa tanto A como B

La regresiLa regresióón mn múúltiple ltiple permite ir excluyendo permite ir excluyendo itemsitems especespecííficos del ficos del

punto 4punto 4

Correlación y causalidadLas mujeres muy Las mujeres muy

inteligentes tienden inteligentes tienden a casarse con a casarse con

hombres que son hombres que son menos inteligentes menos inteligentes

que ellasque ellas




que ellasque ellas

La correlaciLa correlacióón entre n entre la inteligencia de las la inteligencia de las parejas es muy poco parejas es muy poco

perfectaperfecta




que ellasque ellas

La correlaciLa correlacióón entre n entre la inteligencia de las la inteligencia de las parejas es muy poco parejas es muy poco

perfectaperfecta

Ambas expresiones Ambas expresiones son son

algebraicamente algebraicamente equivalentes, pero equivalentes, pero la primera anima la la primera anima la cena y la segunda cena y la segunda

nono

Significación versus magnitud

Las investigaciones testan una pequeña muestra para predecir la totalidad

P<.05 significa que hay menos de un 5% (1 de 20) de probabilidades que el resultado sea causado por azar y no por una diferencia real

Significación versus magnitud

Medidas de la magnitud:– Variables binarias:

• Razón de tasas de incidencia• Riesgo relativo• Odds ratio • Diferencia absoluta de riesgo• Reducción absoluta de riesgo• Diferencia relativa de riesgo• Reducción relativa de riesgo• Número necesario a tratar

– Variables contínuas:• Diferencia entre medias

Significación clínica o estadística

Lo importante es siempre la clínica!!!

Estadísticamente significativo, clínicamente NO significativo– “La p depende de la N”, “La significación estadística se puede comprar

con una N grande”– Ejemplos:

• Aumento de una semana en la supervivencia del cáncer• Aumento de 2-3 ovocitos en ciclos de FIV

– Insuficiente para obtener autorizaciones de comercialización

Estadísticamente NO significativo, clínicamente significativo– Ejemplo: Aparición de eventos adversos muy graves que modifican el

perfil riesgo / beneficio– Pueden llevar a la no aprobación o incluso a una posterior retirada de la

autorización de comercialización

¿Es la pregunta del estudio relevante?¿Añade el estudio algo nuevo?¿Qué tipo de pregunta de investigación se está realizando?¿Era el diseño del estudio apropiado para la pregunta en investigación? ¿Minimizaban los métodos del estudio las principales fuentes de sesgos?

– Error aleatorio– Error sistemático (validez del estudio)

• Sesgo de selección• Sesgo de información

¿Se realizó el estudio de acuerdo al protocolo original?¿Testaba el estudio una hipótesis explícita?¿Se realizaron los análisis estadísticos correctamente? ¿Justifican los datos las conclusiones?¿Existen conflictos de interés?

Young, Nature Clin Prac Gastroenterology & Hepatology 2009

Young, Nature Clin Prac Gastroenterology & Hepatology 2009

¿Es la pregunta del estudio relevante?Incluso si un estudio tiene el máximo rigor metodológico es de escaso valor si no aborda un tema importante y añade algo a lo ya conocido.

Opinión subjetiva.

Premios Ig-Nobel (http://improbable.com/ig/ )

¿Es la pregunta del estudio relevante?

¿Añade el estudio algo nuevo?¿¿O al menos corrobora O al menos corrobora hallazgos previos?hallazgos previos?

““Si he logrado ver mSi he logrado ver máás s lejos, ha sido porque he lejos, ha sido porque he subido a hombros de subido a hombros de gigantesgigantes””

AtribuAtribuíídada a a Isaac NewtonIsaac Newton

¿Qué tipo de pregunta de investigación se está realizando?

En función de la pregunta será necesario un diseño u otro

del estudio.

– Preguntas sobre la frecuencia de algún evento

• Incidencia o prevalencia de una enfermedad, de un factor de

riesgo, de un diagnóstico

• Lo más apropiado es un diseño observacional

– Preguntas sobre la utilidad de un test diagnóstico

– Preguntas sobre la efectividad de un tratamiento

• Lo más apropiado es un diseño intervencional

¿Minimizaban los métodos del estudio las principales fuentes de sesgos?

No implica una preconcepción por parte del investigador, sino simplemente como los resultados pueden apartarse de la verdad.

Dos tipos de error o sesgo:– Error aleatorio o debido al azar

• No afecta a los resultados del estudio en ninguna dirección en particular, pero afecta a la precisión.

– Error sistemático o debido a los métodos del estudio• Sobreestima o infraestima “la verdad” (afecta a la validez del estudio)

• Sesgo de selección: ¿Cómo se cogían los pacientes? Ejemplo: comparar un tratamiento quirúrgico aplicado a pacientes "operables", con un tratamiento médico aplicado a los "no operables".

• Sesgo de información: ¿Cómo se procesaba la información?

Validez y precisión: símil de las dianas

Si aumentamos el tamaño muestral, aumentamos la precisión pero no la exactitud

Precisión: dispersión (desviación estándar) del conjunto de valores

obtenidos de mediciones repetidas.

– Cuanto menor es la dispersión mayor la precisión.

Exactitud o validez (accuracy): cuán cerca del valor real se encuentra

el valor medido. Cuanto menor es el sesgo más exacta es una

estimación.

– El problema de las variables de confusión de los estudios observacionales

NO se soluciona aumentando el tamaño muestral.

¿Era el diseño del estudio apropiado para la pregunta en investigación?

Cada diseño de estudio proporciona una jerarquía de evidencia en función de cómo protege de los sesgos

Resultados de ensayos controlados

Resultados de estudios de casos y controles

Resultados de series de casos

Documentos de consenso u opiniones de experto

Inferencia de la patofisiología

Dism

inución de la evidencia

¿Era el diseño del estudio apropiado para la pregunta en investigación?

Birmingham Critical Appraisal Skills Programme

http://medweb4.bham.ac.uk/websites/caspb/cribsheets/Checklists y documentos de consenso para

– Ensayo clínico (CONSORT)– Evaluación económica (DRUMMOND)– Revisión sistemática y meta- análisis (PRISMA, QUOROM y

MOOSE) – Estudios observacionales (STROBE)– Estudios diagnósticos (STARD)

Revisión sistemática: protocolo meticuloso y estandarizado para la lectura crítica de todos los estudios relevantes en un tema particular.

Meta-análisis: los resultados de estudios individuales se combinan estadísticamente para producir un resultado único conjunto

PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) (anteriormente conocido como QUOROM (Quality of Reporting of Meta-Analyses)

Moher, Lancet 1999

Urrutia, Medicina Clínica 2010

www.prisma-statement.org

MOOSE (Meta-Analysis Of Observational Studies in Epidemiology)

Stroup, JAMA 2000

¿Era el diseño del estudio apropiado para la pregunta en investigación? - Revisión sistemática y meta-análisis

El cuadrado negro y la línea horizontal corresponde al odds ratio y al 95% de intervalo de confianza de cada ensayo.

El tamaño del cuadrado negro refleja el peso de cada ensayo.

El diamante representa el odds ratio combinado y el 95% del intervalo de confianza

Una línea discontínua vertical atravésdel odds ratio combinado: cruza todas las líneas horizontales de los estudios individuales excepto una (N): estudio homogéneo

Análisis de la Heterogeneidad de los meta-análisis

Evaluación gráfica

Evaluación estadística (Valor I2)– 25% Heterogeneidad baja– 50% Heterogeneidad media– 100% Heterogeneidad alta

Higgins, BMJ 2003

¿Era el diseño del estudio apropiado para la pregunta en investigación? - Revisión sistemática y meta-análisis

QUOROM statement (Moher, Lancet 1999)

MOOSE statement (Stroup, JAMA 2000 )

Variable o factor de confusión: Existen cuando los grupos que se comparan en un estudio son diferentes respecto a factores distintos del que se están estudiando.

– Ejemplo, si un grupo de personas con sobrepeso y otro sin sobrepeso tienen diferentes edades, una diferencia en el riesgo de enfermedad cardiaca podría no ser debida al sobrepeso. La edad puede actuar como factor de confusión.

– Conocidos y no conocidos

Maneras de controlar el sesgo de selección (Variables de Confusión conocidas) en estudios observacionales:

– Estratificación, – Modelos de regresión – Indice de propensión

La randomización es la mejor herramienta para conseguir que las variables de confusión conocidas y no conocidas estén igualmente repartidas entre ambos grupos

¿Era el diseño del estudio apropiado para la pregunta en investigación? – Ensayos clínicos randomizados

Ensayo clínico randomizado:– Archie Cochrane, “Mi primer, peor y más exitoso ensayo clínico” (BMJ

1984)

– Prisionero de guerra en un campo de concentración de Salónica (1941-1945) observó ictericia edema en las piernas y planteó la hipótesis de que podía ser beri-beri (déficit de vitamina B)

– Compró levadura en el mercado negro y dividió la muestra entre dos barracones


Ensayo del MRC (1946): estreptomicina y reposo en cama vs. reposo en cama en enfermos con TBC pulmonar.

Asignación aleatoria. 107 pacientes: 52 grupo “reposo” y 55 grupo “estreptomicina”

1er ensayo clínico randomizado reglado en 1946

CONSORT (Consolidated Standards of Reporting Trials)– Publicada inicialmente en 1996 para mejorar la manera en que se reportaban los

estudios

– Revisada en 2001 y 2010

– Lista de comprobación de 25 ítems

– Diagrama para ilustrar el flujo de pacientes a lo largo del ensayo

– www.consort-statement.org/ y www.espanol.equator-network.org/


¿Era el diseño del estudio apropiado para la pregunta en investigación? – Estudios de cohortes

Prospectivas o retrospectivas

Alto riesgo de tener sesgos de selección y variables de confusión especialmente si se usan para valorar distintas terapias. Los tratamientos se han podido seleccionar por:

– Preferencias del médico o paciente

– De donde vienen referidos los pacientes

– Paradigmas actuales de tratamiento

– Políticas locales

STROBE (Strengthening the Reporting of Observational Studies in Epidemiology)

www.strobe-statement.org

Von Elm, Gac Sanitaria 2008

¿Era el diseño del estudio apropiado para la pregunta en investigación? – Estudios de cohortes

¿Era el diseño del estudio apropiado para la pregunta en investigación? – Estudios de casos-controles

Siempre retrospectivos. Se recogen factores de riesgo a los que se han expuesto:

– Los Casos (presentan un determinado estado de salud) – Los Controles (NO presentan ese determinado estado de salud)

Ideal para estudiar los factores de riesgo de eventos raros que llevaría mucho tiempo estudiar a través de una cohorte prospectiva

La mayor dificultad metodológica es la selección de los controles y el sesgo de memoria (los casos pueden recordar de manera distinta la exposición a determinados factores que los controles)

¿Era el diseño del estudio apropiado para la pregunta en investigación? – Estudios de casos-controles

¿Era el diseño del estudio apropiado para la pregunta en investigación? – Estudios transversales

Todos los factores de riesgo y resultados se evalúan a la vez en una sóla“fotografía”.

¿Era el diseño del estudio apropiado para la pregunta en investigación? – Estudios de series de casos

Muy bajo nivel de evidencia a pesar de que son muy frecuentes en la literatura

¿Era el diseño del estudio apropiado para la pregunta en investigación? – Estudios de tests diagnósticos

Usualmente son transversales

Una muestra de pacientes y dos tests diagnósticos (el nuevo y el gold-standard).

El nivel de acuerdo entre los dos tests se comunica mediante la sensibilidad, la especificidad y la razón de verosimilitud.


STARD (Standards for the Reporting of Diagnostic Accuracy Studies)

www.stard-statement.org/

STARD


¿Era el diseño del estudio apropiado para la pregunta en investigación? – Evaluaciones económicas

Estudios de coste – beneficio: ambos costos y beneficios se miden en unidades monetarias

Estudios de coste – utilidad: Los costos se miden en unidades monetarias y los efectos en unidades de utilidad (AVAC (años de vida ajustados por calidad de vida).

Estudios de coste – efectividad: Los costos se miden en unidades monetarias y los efectos en unidades sanitarias (años de vida ganados (AVG), % respuestas, PFS, OS, ingresos…).

Estudios de minimización de costes: asume iguales resultados y mide los costos.

DrummondDrummond, BMJ 1996, BMJ 1996

Drummond checklist1996

Años de Vida Ajustados por Calidad (AVACs)

¿Era el diseño del estudio apropiado para la pregunta en investigación? – Estudios de cribado de enfermedades

Fenómeno de Lead-time bias: ocurre cuando dos tests para una enfermedad se comparan y un test (el nuevo experimental) diagnostica la enfermedad antes, pero no cambia el curso de la enfermedad.

Ejemplo: – Sin cribado, diagnostico a 67 años y muerte a los 70 años. Supervivencia (5 a)= 0%

– Con cribado, diagnóstico a los 60 años y muerte a los 70 años. Supervivencia (5 a)=100%

¿Era el diseño del estudio apropiado para la pregunta en investigación? – Estudios de cribado de enfermedades

Fenómeno de Sobrediagnóstico: detección extra de casos que no progresarán

Ejemplo: – Sin cribado, se detectan 1000 pacientes con cáncer y sobreviven 400 a 5 años.

Supervivencia (5 a)= 400 / 1000– Con cribado, se detectan 2000 pacientes más. Supervivencia (5 a)= 2400 / 3000 = 80%

ConclusiConclusióón: n: – Se pueden observar cambios en la supervivencia sin ningún cambio en la

mortalidad. • En estudio aleatorizado de tratamiento, la supervivencia se basa sobre la población inicial

del estudio: si el 10% de los pacientes mueren en un año, el 90% sobrevivió. • En un estudio de cribado, el término “supervivencia” tiene otro significado porque el

cálculo de la supervivencia tiene puntos de comienzo distintos para las personas cribadas y las no cribadas.

– La disminución de la mortalidad en un estudio aleatorizado es la única estadística que demuestra fiablemente que una prueba de cribado puede salvar vidas.

0

10

20

30

40

50

60

Ningun

o 1 10 50 100

200

No sab

e

% m

ujer

es

Alemania

España

Encuesta al público en 9 países de la Unión Europea: la mayoría o sobreestima el beneficio o no lo sabe

Gigerenzer, Mata, & Frank JNCI 2009

evidencia

“De 1000 mujeres mayores de 50 años que siguen mamografías regulares, ¿cuantas menos morirán de cáncer de mama en comparación con las que no participan?”

A finales del 2009, la Asociación Contra el Cáncer alemana actualizósus folletos de información a pacientes sobre cribado de cáncer de mama para ser más trasparentes y completos

50 a 200-Falsos positivos con biopsias

BeneficiosNo diferenciaMortalidad total por cáncer

45Mortalidad por cáncer de mama

1 de cada 10-Un test positivo significa que:2 a 10-Sobretratamiento

Daños

1000 mujeres con cribados anuales durante 10 años

1000 mujeres no cribadas

¿Entienden los médicos las estadísticas sobre cribado de cáncer?

Encuesta on line de 412 médicos de atención primaria en USA

(76%) de los respondedores dijeron incorrectamente que el incremento en la supervivencia a 5 años y la detección precoz del cáncer prueban que un test de cribado salva vidas.

Wegwarth , Ann Int Med 2012

¿Se realizó el estudio de acuerdo al protocolo original?

Necesario que se describan:– Cambios en los criterios inclusión y exclusión

– Variaciones en los tratamientos o en los seguimientos

– Cambios en las analíticas realizadas

– Lista de violaciones mayores y / o menores

El lector interpretará los resultados a la luz de estas descripciones

Imposibilidad de reclutar los pacientes previstos → perdida de potencia estadística

– Hasta 1/3 de los ensayos reclutan menos del 75% de los pacientes previstos

Ross, J Clin epidemiol 1999

Importancia buen cálculo del tamaño muestral

¿¿EstEstáás s ““comprandocomprando””la p a base de una N la p a base de una N muy grande?muy grande?11

Riesgo para Riesgo para pacientes sin pacientes sin avance de avance de conocimiento conocimiento (*)(*)

EticaEtica

Gasto de mGasto de máás s recursos que los recursos que los necesariosnecesarios

Gasto de recursos Gasto de recursos sin obtener sin obtener conocimiento conocimiento (*)(*)

EconEconóómicamica

TamaTamañño excesivoo excesivoTamaTamañño o insuficienteinsuficiente

(*): posibilidad de metanálisis posteriores1: Bacchetti, Am J Epidemiol 2005

Dos tipos de errorError alfa o tipo I: probabilidad de producir un falso positivo.

– Se rechaza la hipótesis nula , aunque esta es cierta– Error del exceso de credulidad– También llamado “nivel de significación del test”– Por convención se suele poner en el 5%. Más raro en el 1% o 10%

Error beta o tipo II: probabilidad de producir un falso negativo.– No se rechaza la hipótesis nula, a pesar de ser falsa– La potencia (1 - beta), representa la probabilidad de rechazar la Ho cuando

en realidad es falsa (decisión correcta)– Error del exceso de escepticismo– Por convención se suele poner en 10-20%

Convención: α=5%, β=20%. Se considera que el error tipo II es menos serio que el error tipo I. Preferimos pasarnos de “escépticos”.

Un ruido en la noche en la sabana africana …

AcertasteError tipo I

Falsa alarma

Rama

Error tipo II

Eres devorado

AcertasteTigre

En realidad es…

RamaTigre

Yo creo que es …

Un ruido en la noche en la sabana africana …

Michael Shermer:

“Nuestro sistema cognitivo ha ido evolutivamente sesgándose para ser crédulos, para tolerar errores tipo I “

¿Testaba el estudio una hipótesis explícita?

Todo estudio debe tener una hipótesis: una afirmación clara de lo que los investigadores esperan encontrar en el estudio y debe ser identificada a priori.

¿Testaba el estudio una hipótesis explícita?

La hipótesis nula afirma que los hallazgos del estudio no son diferentes de los que se hubieran encontrado al azar.

Análisis posthoc: asociaciones que no estaban pre-especificadas en la hipótesis original → más probabilidad de encontrar falsos positivos.

¿Se han reportado todos los objetivos buscados?

Estudios de equivalencia o no inferioridad necesitan pre-especificar cual es el margen de no inferioridad.

– El análisis debe calcular los intervalos de confianza del efecto del tratamiento y determinar si esos límites están dentro del margen de no inferioridad.

– Necesitan un mayor tamaño muestral que los estudios de superioridad

Análisis post hoc: “testamos 100 items y encontramos que 5 eran significativos a p<0,05”

¿Se realizaron los análisis estadísticos correctamente?

¿Cómo se trataron los datos perdidos?. Descripción en la sección de “Métodos” y de “Resultados”

Análisis por “intención de tratar” o “por protocolo”– IDT: todos los pacientes – PP: los que siguieron fielmente el protocolo

Análisis “por intención de tratar”

Analizar los datos con los participantes en el grupo en que fueron asignados en la aleatorización, aunque no cumplieran con el tratamiento o cambiaran de grupo

Es conservador, infraestima la eficacia del tratamientoAcerca la evaluación a las condiciones habitualesPreserva los beneficios de la aleatorización (ambos grupos

comparables)Resultados difíciles de interpretar si la adherencia es baja o hay mucho cruce entre gruposInadecuado para los estudios de “no-inferioridad”

Análisis “por protocolo”

Analizar los datos con los participantes cumplidores y en el grupo en que han acabado el ensayo

Mayor riesgo de sesgo de selección Sólo válido para complementar el análisis por ITT

IDTIDT IDTIDT

PPPP PPPP

GreenhalghGreenhalgh , BMJ 1997, BMJ 1997

Reducción en la anchura del intervalo de confianza al aumentar el tamaño de la muestra

Jones, EMJ online 2009

Efecto de la reducción del intervalo de confidencia para demostrar una diferencia en las medias

Jones, EMJ online 2009

Estimación del efecto de una variable binaria


Los beneficios de tomar un fármaco pueden expresarse de tres maneras:

– Lipitor ® reduce las posibilidades de sufrir un ictus aproximadamente un 48% (RRR)

– Lipitor ® reduce las posibilidades de sufrir un ictus desde aproximadamente un 28 de cada 1000 a alrededor de un 15 de cada 1000 (13 de 1000 o 1,3%) (RAR)

– Para prevenir un ictus, 77 personas necesitan tomar Lipitor®(NNT)

Gingerenzer 2007, Psycol Science Pub Interest

ReducciReduccióónn absoluta del absoluta del riesgoriesgo ((RAR) o riesgo atribuible:RAR) o riesgo atribuible: la diferencia entre el riesgo del grupo control y el riesgo del grupo tratado

– Se expresa con un número pequeño → ¿Influye en la percepción de que el efecto es menor?

– Según como hagamos la resta da un número positivo o negativo

ReducciReduccióónn relativa del relativa del riesgoriesgo ((RRR) o fracciRRR) o fraccióón atribuible:n atribuible: cociente entre la RAR y el riesgo del grupo control

– Expresa el beneficio en términos relativos

– Si el riesgo basal es bajo → sobrestima el efecto del tratamiento

– Si el riesgo basal es alto → infraestima el efecto del tratamiento

NNºº personaspersonas a a tratartratar para curar para curar unun caso o evitar un perjuicio caso o evitar un perjuicio adicionaladicional

– (Number Needed to Treat) = NNT= 1 / RAR

– Cuanto mayor sea el efecto del tratamiento, menor será el NNT

– Intuitivo para la toma de decisiones clínicas


Riesgo relativo (RR):Riesgo relativo (RR): cociente entre el riesgo del grupo tratado y el riesgo del grupo control

– Da la misma información que el RRR. RR = 1 - RRR

Odss ratio (OR) : Odss ratio (OR) : – Odds (término que proviene mundo de las apuestas):

cociente entre la probabilidad de que el episodio de interés ocurra y la probabilidad de que no ocurra

– Odds ratio: cociente entre odds grupo tratado y odds grupo control

– Muy usado, pero poco intuitivo, y de difícil traducción– Cuanto mayor es el efecto del tratamiento, más se aleja el

OR de 1.– Principal ventaja: permite la regresión logística ajustar la

relación en estudio por el efecto de otras variables y permite usarse en estudios de casos y controles


Entonces, ¿presentamos los riesgos relativos o absolutos?

Lo mejor: ambos o los absolutos

Lo peor: uno de cada tres estudios usa diferentes riesgos:– Relativos para los beneficios ….. Grandes números

– Absolutos para los daños ……. Pequeños números

SedrakyanSedrakyan A, Medical A, Medical CareCare 20072007

Disponibilidad a prescribir un fármaco hipotético en función de cómo se presenten los datos

Bobbio, Lancet 1994

Estimación del efecto de una variable binaria: ejemplos

Abraira, Notas estadísticas SEMERGEN 2001

Análisis del tiempo hasta un evento o análisis de la supervivencia

Eventos adversos (muerte, progresión enfermedad…) o positivo (curación, normalización de un parámetro…)

Cada observación tiene un par de variables: – el tiempo y

– el estado (evento (E) o censura (C))

C3A

E2B

C12C

E8D

C4E

C6F

EstadoTiempoPac

Función de supervivenciaEjemplo Curvas de Kaplan-Meier (CRYSTAL)

Cruces negras, censura

Medianas

Pacientes por

timepoint

Datos curvas

Gráfico de Forest de Hazard ratios por subgrupos

Poblacion global beneficia a Pani.Reduccion riesgo 20%. IC

no llega a 1

Pacientes con ECOG 2 aumenta mucho el riesgo de progresar con Pani (IC casi

llega a 1)

¿Justifican los datos las conclusiones?

¿Tiene validez externa? ¿Se están generalizando los hallazgos a otros grupos de pacientes que no se han testado?

¿Son los hallazgos clínicamente relevantes?

¿Se puede deber la falta de hallazgos a un pequeño tamaño muestral?

¿Se está implícitamente confundiendo una asociación con una relación causa-efecto?

¿Puede haber fenómenos de regresión a la media?

¿Justifican los datos las conclusiones?

RenRenéé MagritteMagritte““La clarividenciaLa clarividencia””, 1936, 1936

¿Existen conflictos de interés (CDI)?

Cuando algún factor personal puede interferir con el profesional.

Al serle revelado al lector, este puede cambiar la credibilidad

Un potencial CDI ≠ mala práctica investigadora

Ubicuos en medicina: gran multiplicidad de actores (pacientes, médicos, compañías farmacéuticas, pagadores, compañías de seguro, universidades, editoriales, revisores, escritores…).

De carácter financiero (grants por reclutamiento de pacientes, por coordinación o advisory boards, tenencia acciones, propiedad patentes,…) o no (prestigio, posición social futura…)

La mejor, imperfecta, y casi única manera de tratar el CDI es la transparencia (revelación).

Fuentes:Fuentes:--RussellRussell James James www.slideshare.netwww.slideshare.net--Unidad investigaciUnidad investigacióón Ramn Ramóón y n y CajalCajal http://www.hrc.es/investigacion/inves_unidadbio.htmhttp://www.hrc.es/investigacion/inves_unidadbio.htm--Young, Nature Young, Nature ClinClin PracPrac Gastroenterology & Gastroenterology & HepatologyHepatology 20092009--BetterBetter DoctorsDoctors, , BetterBetter PatientsPatients, , BetterBetter DecisionsDecisions: : EnvisioningEnvisioning HealthHealth CareCare 20202020

lectura crítica de artículos mayo 2012

Health & Medicine