Uma pergunta com barbas

A pergunta "qual o gráfico mais adequado para representar x?" é a pergunta que mais me fazem nos cursos de visualização de dados, e aquela de mais fácil e de mais difícil resposta.
Uma pergunta com barbas

"Qual é o gráfico mais adequado para representar x?”

Na minha primeira conversa com clientes dos meus cursos de formação esta é a dúvida clássica. Totalmente compreensível.

Mas se queremos ter uma perspetiva atual da visualização de dados, a primeira coisa a fazer é reformular essa dúvida. Deve ser algo mais próximo de:

“Que pergunta estou eu realmente a fazer aos dados, e como desenho o gráfico para lhe responder da forma mais [____]?”

O espaço é preenchido com a nossa intenção: “eficaz”, “eficiente”, “artística / esteticamente apelativa”, por exemplo.

Ou seja, não se trata apenas de escolher o tipo de gráfico, mas também como o alinhamos, através do design, com as perguntas que fazemos.

Para ilustrar isto vejamos este diagrama Sankey publicado neste relatório:

Não é meu hábito fazer diagramas Sankey, por isso não tenho formada mentalmente a minha própria "receita" para os fazer. Mas sei que facilmente caem no efeito esparguete, de onde é difícil extrair conclusões relevantes. Infelizmente, penso que é este o caso. Tirando o fluxo África - França, tudo o resto tem de ser extraído com algum esforço.

O título do gráfico Sankey tira duas conclusões: as origens principais são África e Ásia, e os destinos na Europa são muito desequilibrados. Então, o desafio era fazer um gráfico que evidenciasse de forma mais eficaz essas conclusões. A primeira versão que criei, exatamente com o mesmo nível de detalhe, foi esta (os dados são essencialmente os mesmos, mas os agrupamentos dos países diferem um pouco, sem comprometer a comparabilidade):

Este gráfico tem todo o detalhe do anterior mas facilmente nos apercebemos de coisas quase invisíveis, como o facto de a mobilidade para Portugal ser sobretudo da América Exceto Norte (no nosso caso, o Brasil). Os valores residuais na maioria das barras reflete o desequilíbrio que no destino a que o título do gráfico original se refere.

Mas eu gosto de desenhar gráficos circulares com muitos segmentos, porque isso é um pecado capital em visualização de dados. Por isso criei uma alternativa à alternativa:

Parece-me claro que aqui funciona: vemos de imediato que França e Alemanha são o destino principal, mas com diferentes origens. O resto da mobilidade está muito fragmentada (uma das conclusões indicadas no título) mas tiramos a conclusão adicional que segue aproximadamente o perfil da Alemanha.

O Sankey é mais vistoso, mas, na minha opinião, esta humilde tarte comunica o essencial de forma mais eficiente. Isto ilustra bem o ponto acima sobre a escolha do gráfico: entre um gráfico sofisticado, desalinhado com a mensagem, e um gráfico simples que a clarifica, o segundo é sempre o mais adequado.

Member discussion