データビジュアライゼーション とは

どのようなものか。なぜ用いるのか。

では、データビジュアライゼーションとは何でしょうか?

データビジュアライゼーションとは、データからの洞察を、視覚的表現を通じて伝達するために用いられる技術のことです。主な目的は、データ内の複雑な関係性を容易に理解できるように、大きなデータセットをビジュアルグラフィックに抽出することです。多くの場合、インフォグラフィック、統計グラフィック、情報の視覚化などの用語と同じ意味で用いられます。

これは Joe Blitzstein が開発したデータサイエンスプロセスのステップの1つで、データサイエンスタスクに取り組むためのフレームワークです。データが収集、処理、およびモデル化された後には、結論を出すことができるように関係性を視覚化する必要があります。

これはまた、データ表示アーキテクチャ(DPA)の広範な分野の構成要素でもあり、データを最も効率的な方法で識別、検索、操作、フォーマット、および表示することを目的とするものです。

なぜそれが重要なのでしょうか?

世界経済フォーラムによれば、世界では毎日250京バイトのデータが生成され、世界に存在する全データの90%が過去2年間で生成されているとのことです。これほどの大量のデータを、管理・把握することはますます困難になっています。一人ひとりがデータを1行ずつかき分けるように調べて、明確なパターンを見極め、観察することは不可能です。データの急増は、データビジュアライゼーションを含むデータサイエンスプロセスの一部として管理することができます。


洞察の向上

データビジュアライゼーションは、従来の記述統計では不可能な洞察をもたらすことができます。このことの完璧な例は、1973年に Francis Anscombe が作成した アンスコムの数値例(Anscombe's quartet)です。図には、ほぼ同一の分散、平均、X座標とY座標間の相関、直線回帰線などの4つの異なるデータセットが含まれます。ただし、グラフに描くと、パターンは明らかに異なります。以下を見ていただくと、直線回帰モデルがグラフ1と3に適用されることがわかりますが、多項式回帰モデルはグラフ2にうってつけです。この図は、記述統計だけに依拠するのではなく、データを可視化することが重要である理由を強調しています。

anscombe’s quartet

より迅速な意思決定

データを収集して、それに基づきすばやく行動できる企業は、市場での競争力が高まります。競争に先駆けて十分な情報を得た上で意思決定を下せるからです。スピードが重要なのです。データビジュアライゼーションはデータに視覚的表現を適用することによって、膨大な量のデータの把握を支援します。このビジュアリゼーションレイヤーは通常、データウェアハウスまたはデータレイクの先頭部分に配置され、ユーザーがセルフサービスのかたちでデータを抽出し調査できるようにします。これにより創造性が促進されるだけでなく、新たなモデルを継続的に構築するためにITがリソース配分を行う必要性が低下します。

たとえば、20の異なる広告プラットフォームと内部システムで作業しているマーケティングアナリストが、マーケティングキャンペーンの効果をすばやく把握する必要があるとします。これを手動で行うには、各システムに移動してレポートを取得し、データを組み合わせてから、Excelで分析しなければなりません。。その場合、アナリストは一連のメトリクスと属性を調べる必要があり、結論を導き出すのが困難になります。しかし、最新のビジネスインテリジェンス(BI)プラットフォームは、データソースとデータビジュアライゼーションのレイヤーを自動的に接続するため、アナリストはデータを簡単に細分化し、マーケティングの成果について結論をすばやく得ることができます。


基本的な例

あなたが小売業者で、ジャケットの売り上げを靴下の売り上げに対して前年比で比較したいとしましょう。データを表示する方法は複数あり、表は最も一般的なものの1つです。これは次のようになります。

上の表は、この情報が必要な場合には、正確な値を示す優れた仕事をしています。しかし、データが物語る傾向やストーリーを瞬時に把握することは困難です。

では、折れ線グラフによるビジュアリゼーションのデータは次のとおりです。

2 line graphs

ビジュアリゼーションにより、靴下の売り上げが、12月と6月にわずかに増加しているものの、一定であることが直ちに判明します。一方、ジャケットの販売はもっと季節性があり、7月には最低値になっています。その後は上昇して12月にピークに達するのですが、その前に秋の直前までは毎月減少が見られます。チャートを見ても同じことがわかりますが、はるかに時間がかかります。何千ものデータポイントを持つテーブルの把握を試みているところを想像してください。

データビジュアライゼーションの背後にあるサイエンス

情報処理

データビジュアライゼーションの背後にあるサイエンスを理解するには、まずは人がどのように情報を収集し処理するかを考察する必要があります。Daniel Kahn はAmos Tverskyと共同で、人がどのように思考を形成するかについて大規模な調査をし、人は2つの方法のうちの1つを使うものと結論づけました。


システム I

迅速、自動的で、無意識の思考処理について表現するものです。私たちは日常生活の中でこの方法を極めて頻繁に用いており、次のことを行うことができます。

  • 看板の文字を読む
  • 音の発生源がどこにあるかを判別する
  • Solve 1+1
  • 色の違いを認識する
  • 自転車に乗る

システム II

思考について時間をかけて、論理的に、低頻度で表現し、計算するもので、次のようなものがあります。

  • 並んでいる複数の看板に込めら
  • れた意味の違いを区別する
  • 自分の電話番号を暗唱する
  • 複雑なソーシャル・キュー(社会の行動様式)を理解する
  • Solve 23x21

これら2つの定義付けされた思考システムにより、Kahnは人が統計学の観点から考えることに苦労する理由を説明します。彼は、自分が考えているシステムは、人が日々遭遇する刺激の量を処理するための経験則とバイアスに基づいていると主張します。仕事をする上での経験則の例に、裁判官を挙げることができます。彼らは、新しい事例にはそれ固有の意味合いや差異があるにもかかわらず、先例に照らしてのみ事例を判断します。さらに、彼は次のバイアスを定義しました。

  • アンカリング

  • 無関係な数に左右される傾向のことです。たとえば、このバイアスは熟練した交渉担当者が用いるもので、彼らは見込み額よりも低い価格(アンカー)を提示してからアンカーの少し上まで価格を引き上げます。

  • アベイラビリティ

  • 私たちの心の中で思うイベントが発生する頻度は、実際の確率を正確に反映したものではありません。これは精神的近道と呼ばれるもので、記憶しているイベントについて起こる可能性がより高いと仮定するものです。

  • 代替

  • これは、難しい質問を単純な質問に置き換える傾向のことを言います。このバイアスは合接の誤謬または「リンダ問題」と呼ばれることでも有名です。この例は次のような問いかけをします。

    リンダは31歳、独身、率直で、とても明るい性格です。彼女は哲学を専攻しました。学生時代、彼女は差別や社会正義の問題に深く関わっており、また反核デモにも参加していました。

    次のどちらの可能性が高いですか?

    1) リンダは銀行の出納係です。

    2) リンダは銀行の出納係であり、フェミニスト運動に積極的です。

    この研究の参加者のほとんどが、2つ目の選択肢を選びましたが、これは確率の法則に反しています。彼らの頭の中では、2つ目の選択肢のほうががリンダのことをよりよく言い表していたため、彼らは代替原理を用いて質問に答えたというわけです。

  • 楽観主義と損失回避

  • Kahnは、これが人の持つ最も重要なバイアスではないかと考えていました。人は観察された既知の結果の可能性のみを扱う傾向があるので、楽観主義と損失回避によってコントロールされている錯覚に陥ります。多くの場合、人は、既知のものや未知のもの、あるいは完全に予見できない結果のことを考慮しません。このように複雑性を放置することが、将来の結果について強固な仮定を立てるのになぜ小さなサンプルサイズを使用するのかが説明できます。

  • フレーミング

  • フレーミングとは、選択肢が提示される文脈のことです。例えば、10%の死亡率ではなく90%の生存率ということでフレーミングされている場合、より多くの被験者が手術を選択する傾向がありました。

  • 埋没費用

  • このバイアスは投資の世界でよく見られるもので、元を取ろうとせず、また良好な見通しの資産に投資するのではなく、見込みの薄い低パフォーマンスの資産に投資し続けるような場合です。

システムIとII、およびバイアスと経験則を念頭に置いて、データがシステムIの思考プロセスへと正しく伝達されるような表示を確保する必要があります。そうすると、システムIIの思考プロセスでデータを正確に分析できるようになります。人は意識下では毎秒40個の情報しか処理できないのに対して、無意識下では約1,100万個の情報を処理する能力を持っています。

私たちはまた、各システムがどのように私たちの感覚を利用して情報を取り込むかに目を向けなければなりません。Tor Norretandersの The User Illusionによると、視覚は両方のシステム中にあるほとんどの情報を処理するとのことです。

visual processing bandwidth

私たちの潜在意識システムは視覚を通してより多くの情報を処理するので、データビジュアライゼーションはデータセットからパターンと洞察を伝達するための完璧なソリューションです。誰かがデータビジュアライゼーションを目にしたとき、目と脳が画像の、いわゆる前注意の視覚特性を処理するのに 500ミリ秒に満たない程度の時間しかかかりません。Colin Wareの Information Visualization: Perception for Designによると、彼は次の4つの前注意の視覚特性を定義します。

  1. 動き
  2. 空間的位置決め

これらの4つの構成要素は、各データビジュアライゼーションを組成しているため、表示の際には慎重に検討する必要があります。

略史

データビジュアライゼーションの一般的な類型


時系列

  • 折れ線グラフ
  • これらは最も基本的で一般的に使用されるビジュアリゼーションの1つです。これらは1つ以上の変数の経時的な変化を示します。

    line graph example

    使用場面:変数が時間とともにどのように変化するかを表したいとき。

  • 面グラフ
  • 折れ線グラフ、面グラフのバリエーションは、時系列で複数の値を表示します。

    area chart example

    使用場面: 複数の変数の経時的な累積変化を表したいとき。


順位

  • 棒グラフ
  • このグラフは折れ線グラフに似ていますが、棒を使って各データポイントを表します。

    bar chart example

    使用場面:棒グラフは、単一時間枠内の複数の変数または時系列内の単一の変数を比較する必要がある場合に最も適しています。

  • 人口ピラミッド
  • 人口ピラミッドは、人口の複雑なソーシャルナラティブを描いた積み上げ型の棒グラフです。

    population pyramid example

    使用場面:人口分布を表したいとき。


全体に対して占める割合

  • 円グラフ
  • これは円の形をしており、全体に対して占める割合を表すものです。

    pie chart example

    使用場面:全体に対して占める割合をパーセンテージで見たいとき。ただし、処理時間が長くなるため、人間の目ではこの形式のデータを判別するのは比較的困難であるため、多くの専門家は代わりに他の形式を使用することを勧めています。多くの人が、棒グラフまたは折れ線グラフの方が理にかなっていると主張しています。

  • ツリーマップ
  • ツリーマップは、階層データをネスト形式で表示する方法です。四角形のサイズは、各カテゴリーの全体に対する割合に比例します。

    tree map example

    使用場面:これは、全体に対して占める割合を比較したいときで、多くのカテゴリーがある場合に最も有用です。


偏差

  • 棒グラフ(実数値対期待値)
  • これは、特定の変数の期待値と実際の値を比較するものです。

    bar chart expected vs unexpected  example

    使用場面:単一の変数の期待値と実数値を比較したいとき。上記の例は、カテゴリーあたりの販売済み商品数とこれに対する期待値を示すものです。セーターが他のすべてのカテゴリーより期待を下回ったのに対し、ドレスとショートパンツは上回ったことが簡単にわかります。

相関関係

  • 散布図
  • 散布図は、X軸とY軸の形式で2つの変数と、データポイントを表す点との間の相関関係を示すものです。

    scatter plot example

    使用場面:2つの変数間の相関関係を見たいとき。


頻度分布

  • ヒストグラム
  • ヒストグラムは、特定のデータセット内でイベントが発生した回数をプロットし、棒グラフ形式で表示します。

    histogram example

    使用場面:特定のデータセットの頻度分布を見たいとき。たとえば、過去の実績から、1日に300個の商品が売れる可能性が比較的高いといったことを見出したいときなどです。

  • 箱ひげ図
  • これは分布の尺度を表示するノンパラメトリックなビジュアリゼーションです。ボックスはデータポイントの2番目と3番目の四分位数(50%)を表し、ボックス内の線は中位数を表します。ボックスの外側に伸びる2本の線はひげと呼ばれ、最小値と最大値とともに、1番目と4番目の四分位数を表します。

    box plot example

    使用場面:1つ以上のデータセットの分布を見たいとき。スペースを最小限におさめる必要がある場合、ヒストグラムの代わりに用いられます。


公称値比較

  • バブルグラフ
  • バブルグラフは散布図に似ていますが、各バブルのサイズや色が追加のデータを表すため、機能性が増します。

    bubble chart example

    使用場面:比較する変数が3つあるとき。

  • ヒート マップ
  • ヒートマップは、各個別の値がマトリックス内に含まれているデータのグラフ表示方法です。色合い(色調)は、凡例で定義される数量を表します。

    heatmap example

    使用場面 :れらは、日数や時間数に関する時間枠といった、データのマトリックス全体で変数を分析したい場合に有用です。色合いが異なると、極端な状態をすばやく識別することができます。上記の例では、ウェブサイトのユーザー数を1週間の時間と時刻で示しています。


地理的比較

  • コロプレス
  • コロプレスビジュアリゼーションはヒートマップの変形で、地勢図にシェーディングを適用したものです。

    chloropleth example

    使用場面:データセットを地域ごとに比較したいとき。

フロー

  • サンキーダイアグラム
  • サンキーダイアグラムは、流れの量に比例して矢印の幅が表示される一種のフローチャートです。

    sankey diagram  example

    使用場面:数量の流れを視覚化したいとき。これには、寒い冬の間にロシアに侵攻したナポレオン軍の有名な例があります。軍隊は大規模集団で進軍を始めますが、モスクワに向かって移動し、その後後退するにつれて規模が次第に小さくなっていきます。


関係

  • ネットワークダイアグラム
  • これは主体間の複雑な関係を表示するものです。ネットワークを形成するために、各主体が他の主体とどのようにつながっているかを示します。

    network diagram  example

    使用場面:ネットワーク内の関係を比較したいとき。とりわけ大規模なネットワークの場合に有用です。上記はサウスウエスト航空のフライトパスのネットワークを示しています。

使用事例

データビジュアライゼーションは多くの分野で使用されており、私たちが日々世界をどのように見るのかに影響を与えます。ビジネスでも公共サービスでも、迅速な対応能力と意思決定能力がますます重要になっています。データビジュアライゼーションが一般的にどのように利用されているかについて、次のようにいくつかの例をまとめました。

販売とマーケティング

メディア戦略企業のMagnaの調査によると、全世界の広告宣伝費の半分が2020年までにオンラインで使われるようになるだろうとのことです。このため、マーケティング担当者は、自社のウェブ資産がウェブトラフィックの発信元と連動してどのように収益を上げているかを常に完全に把握している必要があります。ビジュアリゼーションを使えば、マーケティング活動の結果、トラフィックが時間の経過とともにどのように推移しているかを簡単に確認することができます。

marketing data visualization

財務

財務の専門家は、特定の資産の売買の決定をするために、投資の選択のパフォーマンスを追跡する必要があります。ローソク足のビジュアリゼーションチャートは、価格が時間の経過とともにどのように変化したかを示すもので、財務専門家はそれを使用して傾向を見定めることができます。各ローソク足の上部は一定期間内の最高価格を表し、下部は最低価格を表します。この例では、価格が上がったときに緑色のローソク足が表示され、価格が下がったときに赤色が表示されています。ビジュアリゼーションは、データポイントのグリッドよりも簡単に価格の変化を伝えることができます。

candlestick chart

政治

政治で最も広く認知されているビジュアリゼーションは、各地区または州で投票された党を示す地勢図です。

data visualization in politics

物流

海運会社は、ビジュアリゼーションソフトウェアを使用して世界の海運ルートを把握しています。

logistics data visualiztion

ヘルスケア

医療従事者は、重要な健康データを見るためにコロプレスビジュアリゼーションを使用します。以下は、米国の郡別の心臓病死亡率を示すものです。

heart disease mortality rate

データビジュアライゼーションツール

D3.js

D3.jsとはData-Driven-Documentsを意味し、ウェブブラウザでの動的かつインタラクティブなデータビジュアライゼーションのためのJavaScriptライブラリです。2011年に作成され、多くのウェブサイトで使用されています。APIやSVGグラフィックを利用して、ウェブ上でビジュアリゼーションを作成するためのツールセットをウェブ開発者に提供するという優れた役割を果たします。

Excel

最も広く使用されているツールの1つであるMicrosoft Excelは、ほとんどのオフィスコンピューターに搭載されており、データを視覚化する標準的な方法です。ユーザーがすばやくビジュアリゼーションを作成することは非常に簡単ですが、データ集約、管理、高度なレポート作成についてはあまり考慮されていません。

Microstrategy

MicroStrategyは、企業分析ソリューションのリーダーであり、管理され、パーソナライズされたデータを組織の各メンバーに提供します。ビッグデータを迅速かつ自動化された方法で処理することができ、カスタマイズされた即戦力のデータビジュアライゼーションを作成する機能を提供します。

よくある質問

なぜデータビジュアライゼーションを使用するのですか?
データビジュアライゼーションの利点は何ですか?
データ分析とビジュアリゼーションとは何ですか?
データビジュアライゼーションにダッシュボードを用いる目的は何ですか?
データビジュアライゼーションはなぜそれほど重要なのですか?
データ・プレゼンテーションとは何ですか?