데이터 시각화의 주요 기능

데이터 시각화는 데이터를 수집 및 처리하여 시각적으로 도식화하는 기법입니다.

데이터 시각화란 무엇입니까?

데이터 시각화는 시각적 표현을 통해 데이터에서 얻은 통찰력을 전달하는 데 사용되는 기술을 말합니다. 그것의 주요 목표는 큰 데이터 세트를 비주얼 그래픽으로 추출하여 데이터 내의 복잡한 관계를 쉽게 이해할 수 있게 하는 것입니다. 이는 데이터 시각화 도구를 사용하며 인포그래픽, 통계적 그래픽 및 정보 시각화와 같은 용어와 종종 교차적으로 사용됩니다.

이는Joe Blitzstein에 의해 개발된, 데이터 과학 작업에 접근하기 위한 프레임워크인 데이터 과학 프로세스 과정 중 하나입니다. 데이터를 수집, 처리 및 모델링한 후에 데이터 시각화 개념에 대한 결론을 내릴 수 있어야 합니다.

또한, 가장 효율적인 방법으로 데이터를 식별, 위치 파악, 조작, 형식 지정 및 제시하는 DPA(Data Presentation Architecture, 데이터 프레젠테이션 아키텍처)의 광범위한 분야의 구성 요소입니다.

이는 왜 중요합니까?

세계 경제 포럼에 따르면, 전 세계에서 매일 250경 바이트의 데이터가 생성되며, 전체 데이터의 90%가 지난 2년 동안 생성되었다고 합니다. 지나치게 많은 데이터로 인해 이를 관리하고 이해하는 어려움이 계속해서 증가하고 있습니다. 누구도 데이터를 한줄 씩 훑어보고, 뚜렷한 패턴을 발견하고, 관측하는 것은 불가능합니다. 데이터 급증은 데이터 시각화 개념을 포함하는 데이터 과학 프로세스의 일부로 관리될 수 있습니다.


향상된 통찰력

데이터 시각화는 전통적인 기술적 통계가 줄 수 없는 통찰력을 제공합니다. 이것의 완벽한 예시는 1973년 Francis Anscombe에 의해 고안된 Anscombe의 4종류의 데이터입니다. 이 그림에는 거의 동일한 분산, 평균, X 및 Y 좌표 간의 상관관계 및 선형회귀선을 가진 4가지 다른 데이터 세트가 포함되어 있습니다. 하지만 그래프에 그릴 때 패턴은 명확히 다릅니다. 아래에서 선형회귀 모델은 그래프 1, 3에 적용할 수 있음을 볼 수 있지만, 다항회귀 모델은 그래프 2에 이상적입니다. 이 그림은 설명형 통계에 의존하기보다 데이터를 시각화하는 것이 중요한 이유를 조명합니다.

anscombe’s quartet

신속한 의사 결정

데이터를 수집하고 신속하게 조치를 취할 수 있는 기업은 경쟁자보다 정보에 입각한 의사 결정을 빠르게 내릴 수 있어 시장에서 데이터 시각화 활용을 위한 경쟁력을 갖추게 됩니다. 속도가 그 핵심입니다. 데이터 시각화 개념은 시각적 표시를 데이터에 적용하여 방대한 양의 데이터를 이해하는 데 도움이 됩니다. 이 시각화 계층은 일반적으로 데이터 웨어하우스 또는 데이터 호수 위에 위치하고 있으며 사용자가 셀프 서비스 방식으로 데이터를 발견 및 탐색할 수 있도록 합니다. 이는 창의력을 자극할 뿐만 아니라, IT가 새로운 모델을 지속적으로 구축하기 위해 자원을 할당할 필요성을 줄여줍니다.

예를 들어, 서로 다른 20개의 광고 플랫폼과 내부 시스템에 걸쳐서 일하는 마케팅 분석가가 마케팅 캠페인의 효과를 신속하게 이해해야 한다고 가정해보겠습니다. 이를 수동으로 수행하는 방법은 각 시스템으로 이동해, 보고서를 가져온 뒤, 데이터를 결합해, Excel로 분석하는 것입니다. 그 다음 분석가는 많은 메트릭스와 속성들을 조사해야 하며, 결론을 도출하는 데 어려움을 겪게 될 것입니다. 그러나 현대 BI(Business Inteligence) 플랫폼은 데이터 출처들과 계층을 데이터 시각화에 자동으로 연결해 분석가가 데이터를 원하는 대로 편집하고, 마케팅 성과에 대한 결론을 신속하게 내릴 수 있습니다.


기본 예제

귀하가 소매업자이며 지난 한해 동안의 재킷 매출을 양말 판매량과 비교하기를 원한다고 가정해보겠습니다. 데이터를 표시하는 방법은 여러가지가 있으며, 표가 가장 일반적인 방법입니다. 이렇게 보일 것입니다.

위의 표는, 이 숫자 정보가 필요한 경우, 정확한 값을 보여주는 탁월한 방법입니다. 하지만 데이터가 나타내는 추세와 이야기를 즉각적으로 보기는 어렵습니다.

다음은 선 그래프로 표시한 데이터 시각화의 예입니다.

2 line graphs

시각화 결과, 양말 판매는 일정하게 유지되고, 12월과 6월에 조금 증가하는 것을 명확히 볼 수 있습니다. 반면, 재킷 판매량은 계절에 달려 있으며, 7월에 최저치에 도달합니다. 그런 뒤 상승해서 12월에 최고치에 도달했다가 가을 직전까지 매달 감소합니다. 같은 이야기를 차트를 보며 파악할 수는 있지만, 시간이 오래 걸릴 것입니다. 수천 개의 데이터 포인트를 가진 표를 이해하려 한다 상상해 보십시오.

데이터 시각화 개념의 과학적인 의미

정보 처리

데이터 시각화 개념의 과학적인 의미를 이해하기 위해선 우선 인간이 어떻게 정보를 수집, 처리하는지 논의해야 합니다. Daniel Kahn은, Amos Tversky와의 협력을 통해, 우리가 생각하는 방식에 대한 광범위한 연구를 수행했으며, 다음 두 가지 방법 중 하나를 사용한다고 결론지었습니다.


시스템 I

빠르고, 자동적이며, 무의식적인 사고 처리가 이에 해당합니다. 우리는 일상생활에서 이 방법을 매우 자주 사용하며, 다음과 같은 것을 해냅니다.

  • 간판의 텍스트 읽기
  • 소리의 출처가 어디인지 확인하기
  • 1+1 풀기
  • 색상의 차이 인식하기
  • 자전거 타기

시스템 II

느리고 논리적이며, 빈번하지 않은, 계산적인 생각으로, 다음이 이에 속합니다.

  • 나란히 있는 여러 간판의 면면에 숨은 의미의 차이점을 구분하기
  • 전화번호 암기하기
  • 복잡한 사회적 단서 이해하기
  • 23x21 풀기

이 두 가지 사고체계를 정의한 후, Kahn은 인간이 왜 통계적인 면으로 생각하는데 힘들어하는지 설명합니다. 그는 시스템 I의 사고가 일상적으로 겪게 되는 자극의 양을 처리하기 위한 휴리스틱과 편향에 근거한다고 주장합니다. 업무에서의 휴리스틱의 한 가지 예시는, 새로운 사례에 고유한 뉘앙스와 차이점이 있음에도 불구하고, 역사적 사례의 관점에서만 사례를 보는 판사입니다. 더욱이 그는 다음과 같은 편향을 정의했습니다.

  • 앵커링

  • 부적절한 숫자에 좌우되는 경향. 예를 들어, 이 편향은 그들이 기대하는 것보다 낮은 가격(앵커)을 제시한 다음 앵커보다 다소 높은 가격을 제시하는 숙련된 협상가들에 의해 조작됩니다.

  • 유효성

  • 우리 마음 속에서 사건이 일어나는 빈도는 실제 확률을 정확하게 반영하지 못합니다. 이는 정신적 지름길로서 기억할 수 있는 사건이 발생의 가능성이 더 높다 가정합니다.

  • 치환

  • 이는 어려운 질문을 간단한 질문으로 대체하려는 경향을 의미합니다. 이 편향은 집합 오류 또는 “린다 문제”(Linda Problem)로 널리 불립니다. 이 예제는 질문을 합니다.

    린다는 31세이며, 독신이고, 솔직하고, 매우 머리가 좋은 사람입니다. 그녀는 철학을 전공했습니다. 학생으로서 그녀는 차별과 사회 정의 문제에 깊이 관여하고, 반핵 시위에도 참여했습니다.

    다음 중 어느 것이 확률이 더 높습니까?

    1) 린다는 은행 출납원이다.

    2) 린다는 은행 출납원이며 페미니스트 운동에서 활동한다.

    이 연구의 대다수 참가자들은 2번을 정답으로 선택했는데, 이는 확률의 법칙을 위반합니다. 이들의 마음 속에는 선택사항 2번이 린다를 대표한다 여겨, 질문에 답하기 위해 치환의 원리를 사용했습니다.

  • 낙관주의 및 손실 회피성

  • Kahn은 이것이 우리가 가진 가장 중요한 편향일 수 있다고 생각했습니다. 낙관주의와 손실 회피성은 우리가 관찰된 알려진 결과의 가능성만 다루는 경향이 있어 통제의 환상을 줍니다. 우리는 종종 알려진 알려지지 않은 결과나 전혀 예상하지 못한 결과를 고려하지 않습니다. 이처럼 복잡한 것을 무시하는 성향이 우리가 왜 작은 표본 크기를 사용해 미래의 결과에 대한 강력한 가정을 만드는지에 대해 설명합니다.

  • 프레이밍

  • 프레이밍이란 선택 사항이 제시되는 맥락을 의미합니다. 예를 들어, 수술에 10%의 사망률에 비해 90%의 생존율에 프레임을 맞추면 더 많은 피험자가 수술을 받는 경향이 있습니다.

  • 고정 비용

  • 이러한 편향은 종종 투자 세계에서 볼 수 있습니다. 사람들은 전망이 낮은 부실자산에서 빠져나와 전망이 더 좋은 자산에 투자하기보다는 이를 계속 유지합니다.

편향 및 휴리스틱과 함께, 시스템 I 및 II을 기억하면서, 우리는 시스템 I 사고 프로세스에 정확하게 통신하는 방식으로 데이터를 제시하도록 노력해야 합니다. 이는 시스템 II 사고 프로세스가 데이터를 정확하게 분석할 수 있게 합니다. 무의식적인 시스템 I은 초당 1천 1백만 개의 정보를 처리할 능력이 있는 한편, 우리의 의식은 초당 40 개의 정보를 처리할 수 있습니다.

우리는 또한 각 시스템이 정보를 받아들이기 위해 우리의 감각을 어떻게 활용하는지 보아야 합니다. Tor Norrendanders의 사용자 착각(The User Illusion)에 의하면, 시각적 감각은 두 시스템 모두에서 가장 많은 정보를 처리합니다.

visual processing bandwidth

우리의 잠재의식 시스템은 눈을 통해 더 많은 정보를 처리하므로, 데이터 시각화는 데이터 세트에서 얻은 패턴과 통찰력을 전달하는 완벽한 해결책입니다. 누군가 시각화된 데이터를 볼 때, 눈과 뇌는 이미지의 전주의적인 시각적 속성을 처리하는 데 500밀리초도 걸리지 않습니다. Colin Ware의 정보 시각화: 디자인에 의한 인식에 따르면, 그는 4가지 전주의적 시각적 속성을 정의합니다.

  1. 색상
  2. 형태
  3. 움직임
  4. 공간적 포지셔닝

이 4가지 구성요소는 각 데이터 시각화의 구성요소를 구성하며, 프레젠테이션을 위해 신중하게 고려해야 합니다.

간단한 역사

일반적인 데이터 시각화 유형


시계열

  • 선 차트
  • 이들은 가장 기본적이고 일반적으로 사용되는 시각화 중 하나입니다. 시간에 따른 하나 이상의 변수의 변화를 보입니다.

    line graph example

    사용 시기: 변수가 시간에 따라 어떻게 변하는지를 보여줄 필요가 있을 때.

  • 영역 차트
  • 선 차트의 변형인 영역 차트는 시계열에 여러 값을 표시합니다.

    area chart example

    사용 시기: 여러 변수의 시간에 따른 누적 변경 사항을 표시해야 할 때.


순위

  • 막대형 차트
  • 이 차트는 선 차트와 비슷하지만 막대를 사용하여 각 데이터 요소를 표시합니다.

    bar chart example

    사용 시기: 막대형 차트는 단일 시간 프레임에서 여러 변수를 비교해야 하거나 시계열에서 단일 변수를 비교해야 할 때 가장 적합합니다.

  • 인구 피라미드
  • 인구 피라미드는 인구의 복잡한 사회적 이야기를 묘사하는 누적 가로 막대형 그래프입니다.

    population pyramid example

    사용 시기: 인구 분포를 보여주어야 할 때.


구성비

  • 원형 차트
  • 이들은 원의 형태로 구성비를 보여줍니다.

    pie chart example

    사용 시기: 백분율 기준으로 구성비를 보여줄 때. 그러나, 많은 전문가들은 사람의 눈이 이 형식의 데이터를 이해하기가 더 어려워 처리 시간이 늘어나기 때문에 다른 형식을 사용할 것을 추천합니다. 많은 이들이 막대형 차트 또는 선 그래프가 더 합리적이라 주장합니다.

  • 트리 맵
  • 트리 맵은 집합계열 형식으로 계층적 데이터를 표시하는 방법입니다. 직사각형의 크기는 각 범주의 전체에 대한 100분율과 비례합니다.

    tree map example

    사용 시기: 이는 구성비를 비교하고 많은 범주를 가졌을 때 가장 유용합니다.


편차

  • 막대형 차트 (실제 대 예상)
  • 이는 주어진 변수에 대한 기대값과 실제값을 비교합니다.

    bar chart expected vs unexpected  example

    사용 시기: 단일 변수에 대한 예상값과 실제값을 비교하고자 할 때. 위의 예시는 범주당 판매된 품목의 수와 예상 수를 보여줍니다. 스웨터는 다른 모든 범주보다 실적이 저조하나, 드레스와 반바지는 초과 달성했음을 쉽게 볼 수 있습니다.

상관 관계

  • 산점도
  • 산점도는 두 변수 사이의 상관 관계를 X 축과 Y 축의 형태로 나타내고 점은 데이터 포인트를 나타냅니다.

    scatter plot example

    사용 시기: 두 변수 사이의 상관관계를 보고자 할 때.


빈도 분포

  • 히스토그램
  • 히스토그램은 지정된 데이터 세트 내에서 사건이 발생한 횟수를 표시하며 막대 그래프 형식으로 표시합니다.

    histogram example

    사용 시기: 주어진 데이터 세트의 도수분포를 찾고자 할 때. 예를 들어, 과거 실적을 바탕으로 하루에 300개의 품목을 판매할 가능성을 확인하고자 합니다.

  • 상자 그림
  • 이는 분산도를 표시하는 비모수 시각화입니다. 상자는 데이터 포인트의 제 2, 3 사분위(50%)를 나타내며, 상자 안의 선은 중앙값을 나타냅니다. 상자 밖으로 확장되는 두 선은 수염이라고 불리며, 최소값, 최대값과 함께 제 1, 4분위를 나타냅니다.

    box plot example

    사용 시기: 하나 또는 그 이상의 데이터 세트 분포를 보고자 할 때. 이는 공간을 최소화해야 하는 경우 히스토그램 대신 사용합니다.


명목 비교

  • 거품형 차트
  • 거품형 차트는 산점도와 유사하지만, 각 거품의 크기 및/또는 색상이 추가 데이터를 나타내기 때문에 더 많은 기능이 더해집니다.

    bubble chart example

    사용 시기: 비교해야 할 세 가지 변수가 있을 때.

  • 열 지도
  • 열 지도는 각각의 개별 값이 매트릭스에 포함된 데이터의 그래픽 표현입니다. 음영은 범례에 정의된 양을 나타냅니다.

    heatmap example

    사용 시기: 날짜와 시간의 시간 프레임과 같은, 데이터 매트릭스에서 변수를 분석하고자 할 때 유용합니다. 음영이 달라 빠르게 극한을 식별할 수 있도록 합니다. 위의 예시는 한 주 동안 하루의 시간과 시각별로 웹사이트 이용자를 보여줍니다.


지리적 비교

  • 등치 지역도
  • 등치 지역도 시각화는 열 지도의 변형으로서 음영이 지세도에 적용됩니다.

    chloropleth example

    사용 시기: 지리적 지역별로 데이터 세트를 비교하고자 합니다.

흐름

  • 생키 다이어그램(Sankey Diagram)
  • 생키 다이어그램은 흐름 다이어그램의 한 유형으로, 흐름의 양에 비례하여 화살표의 너비가 표시됩니다.

    sankey diagram  example

    사용 시기: 흐름의 양을 시각화해야 할 때. 위의 예시는 추운 겨울 러시아를 침공한 나폴레옹 군대의 유명한 예입니다. 군대는 대규모로 시작되었으나 모스크바로 향하고 퇴각하며 점차 감소합니다.


관계

  • 네트워크 다이어그램
  • 이는 독립체 간의 복잡한 관계를 표시합니다. 각 독립체가 네트워크를 형성하기 위해 다른 독립체와 어떻게 연결되는지 보여줍니다.

    network diagram  example

    사용 시기: 네트워크 내의 관계를 비교할 때. 이는 특히 대형 네트워크에 유용합니다. 위 그림은 사우스웨스트 항공의 비행경로 네트워크를 보여줍니다.

사용 사례

데이터 시각화는 여러 분야에서 사용되고 있으며 매일 세계를 보는 우리의 방식에 영향을 줍니다. 비즈니스 및 공공 서비스에서 신속하게 대응하고 결정을 내리는 것이 점점 더 중요해지고 있습니다. 아래에 데이터 시각화가 일반적으로 사용되는 방법에 대한 예시 몇 가지를 엮었습니다.

영업 및 마케팅

미디어 대행사 Magna의 연구에 따르면, 2020년까지 전세계 광고비의 절반이 온라인으로 지출될 예정입니다. 이 때문에 마케팅 담당자들은 웹이 웹 트래픽 출처에 따라 어떻게 수익을 창출하고 있는지를 잘 파악해야 합니다. 시각화는 마케팅 노력의 결과로 트래픽이 시간에 따라 어떻게 변했는지 쉽게 파악하는 데 사용될 수 있습니다.

marketing data visualization

금융

금융 전문가는 주어진 자산을 사고파는 결정을 하기 위해 투자 대상의 성과를 추적해야 합니다. 원통형 시각화 차트는 시간이 지남에 따라 가격이 어떻게 변했는지를 보여주며, 금융 전문가는 이를 사용하여 추세를 파악할 수 있습니다. 각 원통의 상단은 일정 기간 내의 최고가를 나타내고, 하단은 최저가를 나타냅니다. 이 예시에서, 녹색 원통은 가격이 올라갔을 때를, 빨간색은 내려갔을 때를 보여줍니다. 시각화는 데이터 포인트 그리드보다 가격 변경을 더욱 쉽게 전달할 수 있습니다.

candlestick chart

정치

정치계에서 가장 잘 알려진 시각화는 각 구역 또는 주에서 표를 받은 정당을 보여주는 지세도입니다.

data visualization in politics

물류

택배 회사는 시각화 소프트웨어를 사용하여 전세계 운송 경로를 파악합니다.

logistics data visualiztion

헬스케어

헬스케어 전문가는 중요한 건강 데이터를 보기 위해 등치 지역도 시각화를 사용합니다. 아래는 미국의 카운티 별 심장병 사망률을 보여줍니다.

heart disease mortality rate

데이터 시각화 도구

D3.js

D3.js는 데이터 중심 문서(Data-Driven-Documents)의 약자이며 웹 브라우저에서 동적 및 대화형 데이터 시각화를 위한 JavaScript 라이브러리입니다. 2011년 만들어져 많은 웹사이트에서 사용되었습니다. 웹 전반에 걸쳐 API 및 SVG 그래픽을 활용하여 시각화를 생성하는 툴셋을 웹 개발자들에게 제공하는 탁월한 기능을 합니다.

Excel

가장 널리 사용되는 도구 중 하나인 Microsoft Excel은 대부분의 사무용 컴퓨터와 함께 제공되며, 데이터를 시각화하는 표준 방법입니다. 사용자가 빠르고 쉽게 시각화를 만들 수 있지만, 종종 데이터 집계, 관리 및 고급 보고를 위해서는 고려되지 않습니다.

Microstrategy

MicroStrategy는 엔터프라이즈 분석 솔루션의 선두주자이자, 조직의 각 구성원에게 통제되며 개인화된 데이터를 제공합니다. 빅데이터를 빠르고 자동화된 방식으로 처리할 수 있으며, 맞춤형 추가 작업 없이 데이터 시각화를 생성할 수 있는 기능을 제공합니다.

FAQ

데이터 시각화를 사용하는 이유는 무엇입니까?
데이터 시각화의 이점은 무엇입니까?
데이터 분석 및 시각화란 무엇입니까?
데이터 시각화를 위해 대시보드를 사용하는 목적은 무엇입니까?
데이터 시각화가 그렇게 중요한 이유는 무엇입니까?
데이터 프레젠테이션이란 무엇입니까?