Uma breve visão sobre Boxplot

4 de novembro de 2011 – 20:20

Boa noite leitores!
O post de hoje está ligado ao campo da estatística, o gráfico Boxplot, muito usado em diversas áreas por pesquisadores, estudantes (principalmente em fase de conclusão de curso), etc, para tabular dados. O objetivo deste post é mostrar um pouco sobre o gráfico, dar uma visão geral.
Gráfico BoxplotTambém conhecido como gráfico de caixas (ou box and whisker plot), o Boxplot assim como outros gráficos, tem como premissa básica resolver um problema da estatística: olhar para os dados sob dois pontos de vista simultaneamente. É comum olhar para os dados do ponto de vista de uma medida de posição ou de tendência central; geralmente a média (média de idade, média de peso, média salarial, etc.). Entretanto a média sozinha é apenas parte da história já que existem valores diferentes utilizados para computar a média. Para ter uma ideia do quão diferentes são os dados é necessário observar alguma medida de dispersão, alguma estatística que represente a variação dos dados.
O Boxplot é usado para avaliar a existência de outliers (valores extremamente altos ou baixos). A existência de outliers pode tanto indicar dados incorretos como dados válidos que necessitam de uma atenção especial, dependendo da análise é possível que justamente os outliers sejam os pontos de interesse. Para construir um Boxplot são necessários alguns poucos dados: Primeiro Quartil, Mediana (ou Segundo Quartil), o Terceiro Quartil e o Intervalo Interquartil. Os quartis são estatísticas que dividem os seus dados ordenados em quatro conjuntos com a mesma quantidade de dados.

O gráfico de Boxplot interpreta-se da seguinte forma:

  • A caixa (box) propriamente contém a metade 50% dos data. O limite superior da caixa indica o percentil de 75% dos dados e o limite inferior da caixa indica o percentil de 25%. A distancia entre esses dois quartis é conhecida como interquartil.
  • A linha na caixa indica o valor de mediana dos dados.
  • Se a linha mediana dentro da caixa não é equidistante dos extremos, diz-se então que os dados são assimétricos.
  • Os extremos do gráfico indicam os valores mínimo e máximo, a menos que valores outliers estejam presentes, nesse caso o gráfico de estende ao máximo de 1.5 vezes da distância interquartil.
  • Os pontos fora do gráfico são então outliers ou suspeitos de serem outliers.

O Boxplot possui as seguintes vantagens:

  • Mostra graficamente a posição central dos dados (mediana) e a tendência.
  • Promove algum indicativo de simetria ou assimetria dos dados.
  • Ao contrário de muitas outras formas de mostrar os dados, o Boxplot mostra os outliers.
  • Utilizando o Boxplot para cada variável categórica de lado-alado no mesmo gráfico, pode-se facilmente comparar os dados.

Um ponto a se observar do Boxplot é a tendência em enfatizar as pontas da distribuição, os extremos dos dados.

Vou ficando por aqui. Até a próxima! ;)

Tags: , , , , , ,

Postar um comentário

* - Itens obrigatórios.