Eu quero o valor p!

Eu consegui uma amostra grande, coletei todos os dados e está tudo limpo no banco de dados. É hora de analisar e descobrir se tenho diferenças significantes, correto?

Nem sempre.

Com a popularização dos testes estatísticos, é cada vez mais comum buscar o tal do “p < 0.05”. Talvez, um dos conceitos mais famosos e menos compreendidos em estatística.

Acontece que não é possível realizar testes e obter valores de p para todos os tipos de amostra. E não estamos falando em tamanho. Executar um Qui² simples num banco de dados com 50.000 pacientes pode ser muito errado. Tudo depende da forma como os dados foram coletados.

Probabilidades

Quando fazemos estatística inferencial, como testes e valores de p, o que queremos é saber quais conclusões tiradas de nossa amostra podem ser extrapoladas para uma população.

Vamos supor que queremos saber se alunos que estudam de forma planejada possuem notas melhores que alunos que estudam na véspera da prova em uma universidade. O procedimento é simples: vamos tomar uma amostra suficiente de alunos, saber quais estudam na véspera e comparar as notas com os que estudam de forma planejada. Um teste possivelmente adequado1 seria o Teste t de Student.

Após os cálculos necessários*, descobrimos que precisamos de 128 alunos.

Nossa população é a universidade. É para onde queremos extrapolar nossos dados. Nossa conclusão seria algo como “Os estudantes da universidade H1 que estudam de forma planejada possuem médias de notas maiores”.

Nossa amostra será composta de pelo menos 128 indivíduos, sendo 64 de cada grupo. Com base nos dados obtidos em nossa amostra (128 alunos), vamos fazer inferências sobre a população (universidade).

Entretanto, a forma como recrutamos esses indivíduos interfere em nossas possibilidades.

Entre os pressupostos dos testes inferenciais (como o nosso Teste t) está o de que a amostra deve ser probabilística (probabilistic sample). Ou seja, todos os alunos da universidade devem ter alguma chance de serem sorteados para a amostra e essa chance deve ser conhecida. (probabilidade não nula e determinada).

Uma maneira fácil de fazer isso seria atribuir um número a cada aluno e sortear, de forma aleatória, 128 deles. Assim, todos os alunos da universidade podem cair entre os sorteados e nós sabemos a probabilidade de isso acontecer.

Sob essas condições perfeitas, podemos conduzir nosso Teste t e inferir, levando em consideração nossa amostra, se há uma diferença na população total com um certo grau de certeza.

Mas e se eu sortear 128 estudantes apenas entre estudantes de medicina? Agora, nossa população deixa de ser a universidade e passa a ser a faculdade de medicina. As conclusões obtidas não podem ser extrapoladas para os outros alunos.

Amostras de conveniência

E o que ocorre quando não sorteamos aleatoriamente quem compõe nossa amostra? No exemplo acima, podemos pegar os primeiros 128 estudantes que aparecerem no campus pela manhã.

É o que chamamos de amostra de conveniência. O principal empecilho é que nós não sabemos quais alunos tinham probabilidade de aparecer pela manhã no campus. Isto é, não sabemos qual é a nossa população.

Assim, podemos usar os números (notas) e obter uma diferença, com valor de p e tudo, mas não sabemos para quem podemos extrapolar nossos resultados. Os resultados de nossos alunos não valem para a universidade e o teste deixa de fazer sentido.

Ao incorrer nesse erro e retratar valores de p, estamos trazendo dados que confundem podem gerar conclusões erradas. Nesse caso, menos é mais. O ideal é tratar os dados de forma descritiva, para captar uma ideia e buscar resultados sugestivos, que inspirem novos trabalhos.

“Simplicidade é a sofisticação máxima” Da Vinci.

Ao analisar trabalhos que reportam testes estatísticos e valores p, preste atenção aos métodos de amostragem usados. Os resultados valem para que população? Nas palavras de Berk & Freedman (2003), “statistical inference with convenience samples is a risky business”/ “estatística inferencial com amostras de conveniência é um negócio arriscado” .

1. O teste escolhido depende da distribuição obtida e do tamanho amostral.
Para saber mais:

Berk & Freedman (2003). Statistical assumptions as empirical commitments”

Por Felipe Coelho Argolo

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s