6.3 Estatísticas básicas

6.3.1 Correlação

Correlação é uma medida estatística que indica o grau de relação entre duas variáveis. Quando duas variáveis estão correlacionadas, significa que mudanças em uma tendem a estar associadas a mudanças na outra. Por exemplo, se ao aumentar o tempo de estudo as notas de um aluno também aumentam, dizemos que há uma correlação positiva. Já se o aumento de uma variável estiver relacionado à diminuição da outra, como o número de horas de sono e o nível de cansaço, temos uma correlação negativa.

É importante lembrar que correlação não implica causalidade — ou seja, só porque duas coisas estão relacionadas, não significa que uma causa a outra.

Vamos criar uma nova tabela selecionando algumas variáveis quantitativas do banco dados.

dadosquant=dados%>%select(idade,tempo_emprestimo,tempo_empresa)

A função cor.test() no R é usada para testar se há uma correlação estatisticamente significativa entre duas variáveis numéricas. Ela realiza um teste de correlação de Pearson, Spearman ou Kendall, dependendo do método especificado. (Caso o método não seja especificado o padrão utilizado é o método de Pearson)

cor.test(dadosquant$idade, dadosquant$tempo_emprestimo, method="pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  dadosquant$idade and dadosquant$tempo_emprestimo
## t = -3.4573, df = 4451, p-value = 0.0005506
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.08100211 -0.02241401
## sample estimates:
##         cor 
## -0.05175259

Você verá:

t: estatística do teste t df: graus de liberdade p-value: valor-p para testar se a correlação é significativamente diferente de zero 95% CI: intervalo de confiança da correlação cor: o valor da correlação (coeficiente de Pearson)

Podemos também criar uma matriz de correlação com todas a variáveis através da função cor()

cor(dadosquant)
##                        idade tempo_emprestimo tempo_empresa
## idade             1.00000000      -0.05175259    0.50604515
## tempo_emprestimo -0.05175259       1.00000000   -0.02168664
## tempo_empresa     0.50604515      -0.02168664    1.00000000

Podemos também criar uma matriz de correlação visual com o pacote corrplot. Para isso instalamos e carregamos o pacote:

library(corrplot)

Em seguida precisamos salvar a matriz de correlação um novo objeto

matriz=cor(dadosquant)

Por fim, utilizamos a função corrplot()

corrplot(matriz, method="circle")

6.3.2 Teste T

O teste t-independente é uma ferramenta estatística utilizada para testar hipóteses. Nesse contexto, ele avalia duas hipóteses mutuamente excludentes: a hipótese nula (H0) e a hipótese alternativa (H1).

A decisão sobre qual hipótese é mais plausível baseia-se no valor de p obtido pelo teste, comparado ao nível de significância (α), que é previamente estabelecido. O nível de significância mais comumente adotado é de 5% (0,05).

Se o valor de p for maior que 0,05, não rejeitamos a hipótese nula (H0). Por outro lado, se o valor de p for menor ou igual a 0,05, rejeitamos a H0 e aceitamos a hipótese alternativa (H1).

Considere dois grupos independentes, denominados A e B. As hipóteses testadas no contexto de um teste t-independente são formuladas da seguinte forma:

H0: A média do grupo A é igual à média do grupo B H1: A média do grupo A é diferente da média do grupo B

Esse procedimento permite avaliar se há evidências suficientes para concluir que as médias dos dois grupos diferem de forma significativa, considerando os dados observados.

Vamos utilizar um banco de dados proveniente do tutorial: https://fernandafperes.com.br/blog/teste-t-independente/

aula= read.csv("sala.csv")

Essa tabela traz informações sobre notas de diversos alunos segundo gênero, tipo de escola e posição na sala de aula. Vamos utilizar um teste T para compreender a relação entre notas de História e Biologia e a posição dos alunos na sala.

Realizamos primeiramente um teste T para as notas de Biologia segundo posição dos alunos na sala. Especificamos var.equal=TRUE para indicar que as variâncias são homogêneas nesse caso.

t.test(Nota_Biol ~ Posicao_Sala, aula, var.equal=TRUE)
## 
##  Two Sample t-test
## 
## data:  Nota_Biol by Posicao_Sala
## t = 4.6027, df = 30, p-value = 7.136e-05
## alternative hypothesis: true difference in means between group Frente and group Fundos is not equal to 0
## 95 percent confidence interval:
##  1.411664 3.663630
## sample estimates:
## mean in group Frente mean in group Fundos 
##             6.520000             3.982353

Encontramos um p<0.05, logo vamos rejeitar a H0.

Adaptando para essa situação, teremos:

H0: média das notas de biologia do grupo Frente =média das notas de biologia do grupo Fundos

H1: média das notas de biologia do grupo Frente ≠média das notas de biologia do grupo Fundos

Assim, vamos considerar que os dois grupos apresentam notas de biologia que são, em média, estatisticamente diferentes.

Agora, realizaremos um teste T para as notas de História. Vamos especificar var.equal=FALSE, pois as variâncias não são homogêneas. Isso nos ajuda a aplicar o teste de Welch.

t.test(Nota_Hist ~ Posicao_Sala, aula, var.equal=FALSE)
## 
##  Welch Two Sample t-test
## 
## data:  Nota_Hist by Posicao_Sala
## t = 1.5737, df = 19.909, p-value = 0.1313
## alternative hypothesis: true difference in means between group Frente and group Fundos is not equal to 0
## 95 percent confidence interval:
##  -0.3860238  2.7546513
## sample estimates:
## mean in group Frente mean in group Fundos 
##             5.466667             4.282353

Encontramos um valor de p de 0,1313, ou seja, devemos aceitar H0. No caso da nota de História, não temos evidências para afirmar que as médias dos grupos Frente e Fundos são estatisticamente diferentes.

6.3.3 Representação

Por fim, podemos utilizar um gráfico para representar o teste T.

aula%>%ggplot(aes(x = Posicao_Sala, y = Nota_Biol)) +
  geom_dotplot(binaxis = "y", stackdir = "center",
               fill="#D8D8D8", color="#D8D8D8", dotsize = 0.8)+
  geom_point(stat = "summary", fun = "mean", size = 2) +
  geom_errorbar(stat = "summary", fun.data = "mean_se", width = 0.1)+
  ylab("Notas de biologia") +
  xlab("Posição na sala") +
  scale_y_continuous(limits=c(0,10), expand = c(0,0)) +
  theme_classic(base_size=12)
## Bin width defaults to 1/30 of the range of the data. Pick better value with `binwidth`.