12.1 Correlação
Correlação é uma medida estatística que indica o grau de relação entre duas variáveis. Quando duas variáveis estão correlacionadas, significa que mudanças em uma tendem a estar associadas a mudanças na outra. Por exemplo, se ao aumentar o tempo de estudo as notas de um aluno também aumentam, dizemos que há uma correlação positiva. Já se o aumento de uma variável estiver relacionado à diminuição da outra, como o número de horas de sono e o nível de cansaço, temos uma correlação negativa.
É importante lembrar que correlação não implica causalidade — ou seja, só porque duas coisas estão relacionadas, não significa que uma causa a outra.
Vamos criar uma nova tabela selecionando algumas variáveis quantitativas do banco dados.
A função cor.test() no R é usada para testar se há uma correlação estatisticamente significativa entre duas variáveis numéricas. Ela realiza um teste de correlação de Pearson, Spearman ou Kendall, dependendo do método especificado. (Caso o método não seja especificado o padrão utilizado é o método de Pearson)
##
## Pearson's product-moment correlation
##
## data: dadosquant$idade and dadosquant$tempo_emprestimo
## t = -3.4573, df = 4451, p-value = 0.0005506
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.08100211 -0.02241401
## sample estimates:
## cor
## -0.05175259
Você verá:
t: estatística do teste t df: graus de liberdade p-value: valor-p para testar se a correlação é significativamente diferente de zero 95% CI: intervalo de confiança da correlação cor: o valor da correlação (coeficiente de Pearson)
Podemos também criar uma matriz de correlação com todas a variáveis através da função cor()
## idade tempo_emprestimo tempo_empresa
## idade 1.00000000 -0.05175259 0.50604515
## tempo_emprestimo -0.05175259 1.00000000 -0.02168664
## tempo_empresa 0.50604515 -0.02168664 1.00000000
Podemos também criar uma matriz de correlação visual com o pacote corrplot. Para isso instalamos e carregamos o pacote:
## corrplot 0.92 loaded
Em seguida precisamos salvar a matriz de correlação um novo objeto
Por fim, utilizamos a função corrplot()