Comentário sobre ‘Por que
a maioria dos resultados de pesquisa publicados são falsos’ de John.P.A.
Ioannidis
Em seu provocante artigo “Por que a maioria dos resultados de pesquisa publicados são falsos”, John P. A. Ioannidis começa com a suposição que a maioria das conclusões de pesquisa são falsas. Ele então cria um modelo para explicar esta situação. (1) Ele define um resultado de pesquisa como “qualquer relacionamento que alcance importância estatística formal, p.ex., intervenções eficientes, prognosticadores informativos, fatores de risco, ou associações”. Como os editores da PLoS Medicine observam, a definição de Ioannidis não consegue distinguir resultados de dados, conclusões, e hipóteses. (2)
Apesar deste e de outros sofismas sobre o artigo de Ioannidis, seu modelo fornece uma estrutura útil para examinar alegações de pesquisa em vários territórios de inquérito. Achei instrutivo, por exemplo, aplicar seu modelo ao campo de pesquisa parapsicológico. Ioannidis observa que os escritores anteriores argumentaram “que o alto índice de não replicação (falta de confirmação) de descobertas de pesquisa é uma conseqüência da estratégia conveniente, porém mal fundada de alegar resultados conclusivos de pesquisa unicamente por um único estudo avaliado por significância estatística formal, tipicamente para um valor de p menor que 0,05”.
A parapsicologia é um campo que depende exclusivamente para suas conclusões dos testes de significância. J.B. Rhine advogou usando o nível de significância de 0,01 por causa da natureza incomum da alegação de psi. Mais recentemente, no entanto, os parapsicólogos tem comumente usado o nível de 0,05. Esta mudança no padrão para rejeitar a hipótese nula aumenta o número de resultados falsos de pesquisa por um fator de cinco. O modelo de Ioannidis sugere outros fatores que inflariam o índice de resultados falsos na pesquisa de psi.
O nível de significância escolhido para o teste da hipótese nula, por si mesmo, não nos diz a probabilidade de que o resultado de pesquisa seja falso. Como escrevi em outra parte, (3) o teste da hipótese nula implica problemas lógicos sérios. O que o investigador quer saber é a probabilidade que a hipótese nula seja verdadeira dado o resultado observado. Infelizmente, o teste não fornece esta informação. Em vez disso, a prova estatística declara a probabilidade do resultado observado dado que a hipótese nula seja verdadeira. Esta distinção aparentemente sutil tem conseqüências importantes que os pesquisadores rotineiramente ignoram. A conseqüência mais importante é que necessitamos considerar a probabilidade prévia ou pré-estudo que um resultado será verdadeiro para achar a probabilidade posterior ou pós-estudo que o resultado seja verdadeiro [that we need to consider the prior or pre-study probability that a finding will be true to find the posterior or post-study probability that the finding is true].
Este princípio sustenta o famoso e controverso Teorema de Bayes. Este teorema fornece um meio de revisar a probabilidade original que um resultado seja verdadeiro dado os novos dados fornecidos por uma experiência. A controvérsia surge porque a probabilidade prévia ou original é freqüentemente difícil de determinar. O relacionamento entre a probabilidade de pré-estudo e a probabilidade de pós-estudo é central ao modelo de Ioannidis. Isto é porque para um dado nível de significância, a probabilidade que um resultado de pesquisa seja falso aumenta para probabilidades mais baixas de pré-estudo.
Considere os resultados de pesquisa parapsicológicos. A maioria dos cientistas considerariam a priori que a probabilidade de que psi seja verdadeiro como bastante baixa. No modelo de Ioannidis, a probabilidade de pós-estudo que um resultado de pesquisa seja falso aumenta tanto quanto a plausibilidade de pré-estudo desse resultado diminua, já que o nível de significância sobe, e o poder do teste diminui. As alegações parapsicológicas nascem com baixa plausibilidade. Os parapsicólogos tipicamente queixam-se sobre o poder baixo que caracteriza seus estudos. (4) A probabilidade baixa de pré-estudo de que psi seja real, aumentando o nível de significância de 0,01 a 0,05, e o poder baixo da pesquisa de psi, garante que a maioria dos resultados de pesquisa em parapsicologia serão falsos. Isto é apenas uma parte da história.
Ioannidis inclui muito mais em seu modelo. O modelo considera viés e também os efeitos de testar a mesma associação por várias equipes independentes. Ioannidis define viés como “a combinação de vários projetos, dados, análises, e fatores de apresentação que tendem a produzir resultados de pesquisa quando eles não devem ser produzidos”. O viés aumenta a probabilidade que os resultados de pesquisa sejam falsos. Os leitores que conhecem minhas críticas da pesquisa parapsicológica (5) estão cientes que focalizei em vários defeitos que criam viés. Os vieses são somente os tipos que, de acordo com o modelo, grandemente aumentam a probabilidade que os resultados de pesquisa sejam falsos.
Neste comentário breve, eu considerarei somente um corolário que segue o modelo de Ioannidis. Este corolário declara que, “Quanto menores os estudos conduzidos num campo científico, menos provável que os resultados de pesquisa sejam verdadeiros”. Em outras palavras, um campo que conduz muitos estudos com poder baixo gerará muitos resultados falsos. Ironicamente, este corolário diretamente discorda com as posições de parapsicólogos tais como Utts e Radin. Estes comentaristas argumentam que a razão dos resultados de pesquisa parapsicológicos poderem ser não replicáveis é que têm poder baixo. Por juntar estudos, a meta-análise torna-se uma ferramenta poderosa, em sua opinião, ao mostrar que os efeitos de psi, contudo pequenos, são reais.
Ioannidis usa seu modelo para fazer o ponto contrário. De acordo com ele, em campos onde a maioria dos estudos têm poder baixo e onde os supostos efeitos são pequenos, “o campo é provável de estar contaminado por alegações falsas quase omnipresentes. ...” Suas simulações mostram que “um resultado meta-analítico de estudos inconclusivos onde uma combinação é usada para ‘corrigir’ o poder baixo de estudos isolados, é provavelmente falsa se R [a chance do pré-estudo ser verdadeiro] é menor ou igual a 1:3”. Isto significa que se a probabilidade de pré-estudo de um resultado de pesquisa ser verdadeira é menor que .25, então um resultado significativo de uma meta-análise é provavelmente falso. Embora nós não saibamos a probabilidade real de pré-estudo que um resultado significativo em favor de psi seja verdadeiro, é razoável supor que seria muito, muito menor que .25.
Durante meus cinqüenta anos como um crítico de alegações paranormais, eu documentei uma variedade de defeitos que contaminam a pesquisa parapsicológica. Na maioria das vezes, os parapsicólogos não negaram a existência de tais defeitos. A defesa mais comum é argumentar que um defeito dado, por si mesmo, seria insuficiente para explicar todos os resultados.
Os parapsicólogos podem estar corretos; qualquer defeito dado, por si mesmo, pode muito bem ser insuficiente para explicar todos os resultados parapsicológicos significativos. No entanto, este não é meu ponto. Deixe-nos supor que cada defeito contribui somente com uma quantidade muito pequena de viés. A pergunta é, qual é o viés total produzido pela combinação de todos estes vieses menores operando juntos? Tentei responder esta pergunta para alguns dos defeitos que eu identifiquei com respeito aos testes de significância na original base de dados psi de ganzfeld. (6) Corri uma simulação usando alguns dos defeitos. Os estudos nesta base de dados testaram seus resultados usando o nível de significância de 0,05. A simulação mostrou que, em efeito, os experimentadores operavam com um nível de significância de 0,30 ou mais alto. O índice de alarme falso era mais do que seis vezes o que foi noticiada! Esta simulação usou só alguns dos defeitos e fraquezas que eu descobri nessa base de dados.
Ioannidis deu-nos uma ferramenta valiosa para quantificar as probabilidades que os resultados de uma série de investigações num campo dado sejam falsas. Esperançosamente, isto levará a mais e melhores meios para estimar quantos resultados de um dado programa de pesquisa sejam espúrios.
De fato, Ioannidis indica que os resultados significativos e os tamanhos dos efeitos que vão com eles em certos campos simplesmente podem não refletir nada mais que um viés.
Notas
(1.) Ioannidis, J.P.A. 2005. Why most published
research findings are false. PLoS Medicine, 2(8): e124.
(2.) PloS Medicine Editors. 2005. Minimizing
mistakes and embracing uncertainty. PLoS Medicine, 2(8), e272.
(3.) Hyman, R. 2005. Statistics and the test of
Natasha. Available at www.csicop.org/special articles/natasha2.html. A shorter
version was published as Statistics of the Natasha Test: Response to Concerns and
Questions, SKEPTICAL INQUIRER, 29(5): 58-60, 2005 (September/October).
(4.) For example: Utts, J. 1991. Replication
and meta-analysis in parapsychology. Statistical Science, 6, 363-403 and Radin,
D. 1997. The Conscious Universe: The scientific Truth of Psychic Phenomena. NY:
HarperEdge.
(5.) For example: Hyman, R. 1989. The Elusive
Quarry: A Scientific Appraisal of Psychical Research. Buffalo, NY: Prometheus
Books; and Hyman, R. 2003. How Not to Test Mediums: Critiquing the Afterlife
Experiments. SKEPTICAL INQUIRER, 27(1): 20-30 (January/February).
(6.) Hyman, R. 1985. The ganzfeld psi
experiment: a critical appraisal. Journal of Parapsychology, 49, 3-50.
Ray Hyman is professor emeritus of psychology at the University of Oregon. E-mail: rayhyman@comcast.net.
COPYRIGHT 2006 Committee for the Scientific
Investigation of Claims of the Paranormal
Artigo disponível aqui
Artigo
publicado na Skeptical Inquirer THE MAGAZINE FOR SCIENCE AND REASON Volume 30,
No. 2 * March/April 2006