Visualização de dados

O que é e porque usamos

Então, o que é visualização de dados?

A visualização de dados (ou, do inglês, data visualization) refere-se às técnicas usadas para comunicar insights de dados pela representação visual. O objetivo principal é extrair grandes conjunto de dados em gráficos visuais para permitir a compreensão fácil de relações complexas nos dados. Muitas vezes, é usado de forma intercambiável com termos como infográficos, gráficos estatísticos e visualização da informação.

É uma das etapas do processo de ciência de dados desenvolvido por Joe Blitzstein, que é uma estrutura para abordar tarefas de ciência de dados. Após os dados serem coletados, processados e modelados, as relações precisam ser visualizadas, de modo que uma conclusão possa ser encontrada.

Também é um componente da disciplina mais ampla de arquitetura de apresentação de dados (data presentation architecture, DPA), que busca identificar, localizar, manipular, formatar e apresentar dados da forma mais eficiente.

Por que é importante?

De acordo com o Fórum Econômico Mundial, o mundo produz 2,5 quintilhões de bytes de dados todos os dias e 90% de todos os dados foram criados nos últimos dois anos. Com tantos dados, tornou-se cada vez mais difícil gerenciar e fazer com que tudo isso tenha sentido. Seria impossível para qualquer pessoa percorrer os dados linha a linha, ver padrões distintos e fazer observações. A proliferação de dados pode ser gerenciada como parte do processo de ciência de dados, que inclui a visualização de dados.


Insight melhorado

A visualização de dados pode fornecer insights que as estatísticas descritivas tradicionais não podem. Um exemplo perfeito disso é o Quarteto de Anscombe, criado por Francis Anscombe em 1973. A ilustração inclui quatro conjuntos de dados diferentes com variância, média e correlação quase idênticas entre as coordenadas X e Y e as linhas de regressão linear. Entretanto, os padrões são claramente diferentes quando representados em um gráfico. Abaixo, é possível ver que um modelo de regressão linear se aplicaria aos gráficos um e três, mas um modelo de regressão polinomial seria ideal para o gráfico dois. Esta ilustração destaca porque é importante visualizar os dados e não apenas contar com estatísticas descritivas.

anscombe’s quartet

Tomada de decisões mais rápida

Empresas que podem reunir e agir rapidamente sobre seus dados serão mais competitivas no mercado porque podem tomar decisões informadas mais rápido que a concorrência. A velocidade é importante e a visualização de dados ajuda na compreensão de grandes quantidades de dados por meio da utilização de representações visuais dos dados. Esta camada de visualização normalmente fica no topo de um armazém de dados ou data lake e permite que os usuários descubram e explorem dados de maneira independente. Isso não apenas estimula a criatividade, mas reduz a necessidade do setor de TI alocar recursos para desenvolver novos modelos continuamente.

Por exemplo, digamos que um analista de marketing que trabalhe em 20 plataformas de publicidade e sistemas internos diferentes precisa compreender rapidamente a eficácia das campanhas de marketing. Uma forma manual de fazer isso seria acessar cada sistema, extrair um relatório, combinar os dados e então analisar no Excel. Em seguida, o analista precisará olhar um monte de métricas e atributos e terá dificuldade para tirar conclusões. Entretanto, plataformas modernas de business intelligence (BI) vão conectar as fontes de dados e sobrepor visualizações de dados automaticamente, de modo que o analista possa decompor e analisar os dados com facilidade e rapidamente chegar a conclusões sobre o desempenho de marketing.


Exemplo básico

Vamos dizer que você é um revendedor e quer comparar as vendas de jaquetas com as vendas de meias ao longo do ano anterior. Há mais de uma maneira de apresentar os dados, e tabelas são uma das maneiras mais comuns. Veja como seria isso:

A tabela acima faz um excelente trabalho mostrando com precisão se esta informação é necessária. Entretanto, é difícil perceber instantaneamente as tendências e a história que os dados mostram.

Agora veja os dados em uma visualização de gráfico de linhas:

2 line graphs

A partir da visualização, torna-se imediatamente óbvio que as vendas de meias permaneceram constantes, com pequenos picos em dezembro e junho. Por outro lado, as vendas de jaquetas são mais sazonais e alcançaram seu ponto baixo em julho. Então, aumentaram e chegaram ao pico em dezembro, antes de diminuírem mensalmente até pouco antes do outono. Você poderia obter a mesma história olhando para o gráfico, mas levaria muito mais tempo. Imagine tentar entender uma tabela com milhares de pontos de dados.

A ciência por trás da visualização de dados

Processamento de informações

Para compreender a ciência por trás da visualização de dados, primeiro devemos discutir como os seres humanos reúnem e processam informações. Em colaboração com Amos Tversky, Daniel Kahn realizou uma pesquisa abrangente sobre como formamos pensamentos e concluiu que usamos um dos dois métodos:


Sistema I

Descreve o processamento de pensamentos que é rápido, automático e inconsciente. Usamos esse método com bastante frequência em nossas vidas diárias e podemos realizar o seguinte:

  • Ler o texto em um cartaz
  • Determinar onde é a fonte de um som
  • Resolver 1+1
  • Reconhecer a diferença entre as cores
  • Andar de bicicleta

Sistema II

Descreve um pensamento lento, lógico, não frequente e calculista e inclui:

  • Distinguir a diferença de significado por trás de vários cartazes lado a lado
  • Recitar seu número de telefone
  • Compreender sinais sociais complexos
  • Resolver 23x21

Com esses dois sistemas de pensamento definidos, Kahn explica por que os humanos se esforçam para pensar em termos de estatística. Ele afirma que o pensamento do Sistema I é baseado em heurísticas e vieses para lidar com o volume de estímulos que encontramos diariamente. Um exemplo de heurística no trabalho é um juiz que vê um caso apenas em termos de casos históricos, apesar de nuances e diferenças exclusivas do novo caso. Além disso, ele definiu os seguintes vieses:

  • Ancoragem

  • Uma tendência de se influenciar por números irrelevantes. Por exemplo, este viés é manipulado por negociadores qualificados que oferecem um preço mais baixo (a âncora) do que esperam obter e, em seguida, chegam um pouco acima da âncora.

  • Disponibilidade

  • A frequência com que os eventos ocorrem em nossa mente não são reflexos precisos das probabilidades reais. É um atalho mental – assumir que os eventos que podem ser lembrados são mais prováveis de ocorrer.

  • Substituição

  • Refere-se à nossa tendência de substituir perguntas difíceis por perguntas mais simples. Esse viés também é conhecido como a falácia da conjunção ou “Problema de Linda”. Este exemplo faz a pergunta:

    Linda tem 31 anos de idade, é solteira, extrovertida e muito inteligente. Ela é formada em filosofia. Como estudante, preocupava-se bastante com questões de discriminação e justiça social e também participou de manifestações antinucleares.

    O que é mais provável?

    1) Linda é caixa de banco.

    2) Linda é caixa de banco e ativista do movimento feminista.

    A maioria dos participantes do estudo escolheram a opção número dois, embora isso viole a lei da probabilidade. Na cabeça dos participantes, a opção número dois era mais representativa de Linda, então eles usaram o princípio da substituição para responder à pergunta.

  • Otimismo e aversão à perda

  • Kahn acreditada que este pode ser o viés mais significativo que temos. O otimismo e a aversão à perda nos dão a ilusão de controle, porque temos a tendência de lidar apenas com a possibilidade de resultados conhecidos que foram observados. Com frequência, não consideramos resultados desconhecidos ou completamente inesperados. Nossa negligência dessa complexidade explica por que usamos uma pequena amostra para fazer fortes suposições sobre os resultados futuros.

  • Enquadramento

  • O enquadramento refere-se ao contexto em que as escolhas são apresentadas. Por exemplo, mais participantes estavam inclinados a optar por uma cirurgia se ela fosse enquadrada por uma taxa de sobrevivência de 90% em oposição a uma taxa de mortalidade de 10%.

  • Custo afundado

  • Este viés muitas vezes é visto no mundo do investimento quando as pessoas continuam a investir em um ativo ineficiente com perspectivas ruins em vez deixar tal investimento e investir em um ativo com uma perspectiva mais favorável.

Com os Sistemas I e II, juntamente com vieses e heurísticas em mente, devemos procurar garantir que os dados sejam apresentados de uma forma que se comuniquem corretamente com o nosso processo de pensamento do Sistema I. Isso permite que nosso processo de pensamento do Sistema II analise os dados com precisão. Nosso Sistema I inconsciente tem a capacidade de processar cerca de 11 milhões de informações/ segundo, versus a nossa consciência, que pode processar apenas 40 informações/segundo..

Também devemos considerar como cada sistema utiliza nossos sentidos para registrar as informações. De acordo com o livro The User Illusion, de Tor Norretanders, o sentido da visão processa a maioria das informações nos dois sistemas:

visual processing bandwidth

Visto que nosso sistema subconsciente processa mais informações por meio da visão, a visualização de dados é uma solução perfeita para comunicar padrões e insights dos conjuntos de dados. Quando alguém vê uma visualização de dados, levará menos de 500 milissegundos para o olho e o cérebro processarem o que é chamado de propriedades visuais pré-atentivas de uma imagem. No livro Information Visualization: Perception for Design, Colin Ware define quatro propriedades visuais pré-atentivas:

  1. Cor
  2. Forma
  3. Movimento
  4. Posicionamento espacial

Estes quatro componentes compõem a composição de cada visualização de dados e devem ser considerados com atenção para apresentação.

Breve história

Tipos comuns de visualização de dados


Série temporal

  • Gráficos de linhas
  • São uma das visualizações mais básicas e normalmente usadas. Mostram uma alteração em uma ou mais variáveis ao longo do tempo.

    line graph example

    Quando usar:você precisa mostrar como uma variável muda ao longo do tempo.

  • Gráficos de área
  • Uma variação dos gráficos de linhas, os gráficos de área exibem vários valores em uma série temporal.

    area chart example

    Quando usar: você precisa mostrar mudanças cumulativas em várias variáveis ao longo do tempo.


Ranking

  • Gráficos de barras
  • Estes gráficos são como os gráficos de linhas, mas usam barras para representar cada ponto de dados.

    bar chart example

    Quando usar: os gráficos de barras são melhor usados quando você precisa comparar várias variáveis em um único período ou uma variável única em uma sequência temporal.

  • Pirâmides demográficas
  • As pirâmides demográficas são gráficos de barras empilhados que descrevem a complexa narrativa social de uma população.

    population pyramid example

    Quando usar: você precisa mostrar a distribuição de uma população.


Parte de um todo

  • Gráficos de pizza
  • Mostram as partes de um todo no formato de uma pizza.

    pie chart example

    Quando usar: você quer ver partes de um todo em termos percentuais. Entretanto, muitos especialistas recomendam usar outros formatos em vez desse, porque é mais difícil para o olho humano entender os dados neste formato por causa do maior tempo de processamento. Muitos argumentam que um gráfico de barras ou de linhas faz mais sentido.

  • Treemaps
  • Treemaps são uma forma de mostrar dados hierárquicos em um formato aninhado. O tamanho dos retângulos é proporcional à porcentagem de cada categoria do todo.

    tree map example

    Quando usar: são mais úteis quando você quer comparar partes de um todo e tem várias categorias.


Desvio

  • Gráfico de barras (Real versus Esperado)
  • Comparam o valor esperado com o valor real para uma dada variável.

    bar chart expected vs unexpected  example

    Quando usar: você precisa comparar valores esperados e reais para uma variável única. O exemplo acima mostra o número de itens vendidos por categoria em comparação ao número esperado. Você pode ver facilmente que os suéteres tiveram um desempenho abaixo das expectativas em comparação com todas as outras categorias, mas vestidos e bermudas tiveram um desempenho acima do esperado.

Correlação

  • Gráficos de dispersão
  • Os gráficos de dispersão mostram a correlação entre duas variáveis na forma de um eixo X e um Y e pontos que representam pontos de dados.

    scatter plot example

    Quando usar: você quer ver a correlação entre duas variáveis.


Distribuição de frequência

  • Histograms
  • O histograma mostra o número de vezes que um evento ocorre em um dado conjunto de dados no formato de representação gráfica de barras.

    histogram example

    Quando usar: você quer descobrir a distribuição de frequência de um dado conjunto de dados. Por exemplo, você deseja ver a probabilidade relativa de vender 300 itens em um dia dado o desempenho histórico.

  • Box plots
  • São visualizações não paramétricas que mostram uma medida de dispersão. A caixa representa o segundo e terceiro quartil (50%) dos pontos de dados e a linha dentro da caixa representa a mediana. As duas linhas que se estendem para fora da caixa são chamadas de bigode e representam o primeiro e o quarto quartil, em conjunto com o valor mínimo e máximo.

    box plot example

    Quando usar: você quer ver a distribuição de um ou mais conjuntos de dados. São usados no lugar de histogramas quando o espaço precisa ser minimizado.


Comparação nominal

  • Gráficos de bolhas
  • Os gráficos de bolhas são como os gráficos de dispersão, mas adicionam maior funcionalidade porque o tamanho e/ou cor de cada bolha representa dados adicionais.

    bubble chart example

    Quando usar: quando você tem três variáveis a comparar.

  • Mapas de calor
  • Um mapa de calor é uma representação gráfica de dados em que cada valor individual está contido em uma matriz. Os tons representam uma quantidade conforme definido pela legenda.

    heatmap example

    Quando usar: são úteis quando você quer analisar uma variável em uma matriz de dados, como um período de dias e horas. Os tons diferentes permitem que você rapidamente identifique os extremos. O exemplo acima mostra os usuários de um site por hora e período do dia durante uma semana.


Comparação geográfica

  • Mapa coroplético
  • Visualizações de mapa coroplético são uma variação dos mapas de calor em que um sombreado é aplicado em um mapa geográfico.

    chloropleth example

    Quando usar: você precisa comparar um conjunto de dados por região geográfica.

Fluxo

  • Diagrama de Sankey
  • O diagrama de Sankey é um tipo de fluxograma em que a largura das setas é exibida proporcionalmente à quantidade do fluxo.

    sankey diagram  example

    Quando usar: você precisa visualizar o fluxo de uma quantidade. A passagem acima é um exemplo famoso do exército de Napoleão ao invadir a Rússia durante um frio inverno. O exército começa como uma grande massa, mas diminui à medida que se move em direção a Moscou e recua.


Relacionamentos

  • Diagrama de rede
  • Exibe relacionamentos complexos entre entidades. Mostra como cada entidade está conectada às outras para formar uma rede.

    network diagram  example

    Quando usar: você precisa comparar os relacionamentos em uma rede. É útil especialmente para grandes redes. O exemplo acima mostra a rede de rotas de voo da Southwest Airlines.

Casos de uso

A visualização de dados é usada em muitas disciplinas e afeta como vemos o mundo diariamente. É cada vez mais importante ser capaz de reagir e tomar decisões com rapidez nos negócios e nos serviços públicos. Compilamos alguns exemplos de como a visualização de dados é usada normalmente abaixo.

Vendas e marketing

De acordo com uma pesquisa da agência de mídia Magna, metade de todo o investimento mundial em publicidade será gasto on-line até 2020. Por causa disso, os profissionais de marketing precisam ficar por dentro de como suas propriedades da Web estão gerando receita junto com suas fontes de tráfego na web. As visualizações podem ser usadas para ver com facilidade qual foi a tendência do tráfego ao longo do tempo como resultado dos esforços de marketing.

marketing data visualization

Finanças

Profissionais de finanças precisam acompanhar o desempenho de suas escolhas de investimento para tomar decisões de compra ou venda de um determinado ativo. Gráficos de visualização de candlestick (candelabro) mostram como o preço mudou ao longo do tempo e o profissional de finanças pode usá-los para identificar tendências. A parte superior de cada candelabro representa o preço mais alto em um período e a parte inferior representa o preço mais baixo. Neste exemplo, os candelabros verdes mostram quando o preço subiu e os vermelhos mostram quando baixou. A visualização pode comunicar a mudança no preço com mais facilidade que uma grade de pontos de dados.

candlestick chart

Política

A visualização mais reconhecida na política é um mapa geográfico que mostra em que partido cada distrito ou estado votou.

data visualization in politics

Logística

Empresas de remessas usam software de visualização para compreender as rotas globais de remessas.

logistics data visualiztion

Área de saúde

Profissionais da área da saúde usam visualizações de mapa coroplético para ver dados de saúde importantes. O mapa abaixo mostra a taxa de mortalidade por doença cardíaca por condado nos EUA.

heart disease mortality rate

Ferramentas de visualização de dados

D3.js

D3.js significa Data-Driven-Documents (documentos com base nos dados) e é uma biblioteca JavaScript para visualizações de dados dinâmicas e interativas em navegadores da Web. Foi criada em 2011 e é usada em muitos sites. Faz um excelente trabalho ao fornecer aos desenvolvedores da Web um conjunto de ferramentas para utilização de APIs e gráficos SVG para criar visualizações na Web.

Excel

Uma das ferramentas mais amplamente usadas, o Microsoft Excel vem com a maioria dos computadores de escritório e é um método padrão para a visualização de dados. É muito fácil para os usuários criarem visualizações rápidas, mas muitas vezes não é considerado para a agregação de dados, governança e relatórios avançados.

Microstrategy

A MicroStrategy é líder em soluções de análises empresariais e oferece dados governados e personalizados para cada membro de uma organização. Pode lidar com big data de forma rápida e automatizada e oferece a capacidade de criar visualizações de dados personalizadas prontas para usar.

Perguntas frequentes

Por que usamos a visualização de dados?
Quais são os benefícios da visualização de dados?
O que é análise e visualização de dados?
Qual é o objetivo do uso de um dashboard para a visualização de dados?
Por que a visualização de dados é tão importante?
O que é apresentação de dados?