Data visualization is part art and part science. The challenge is to get the art right without getting the science wrong, and vice versa. (Claus O. Wilke, 2019)

情報可視化の6ステップ

今日の内容は、データ可視化のプロセスにおいては、「探索的可視化」と「説明的可視化」に関する部分にあたります。

ここはより具体的には、以下の2つに分けられますが、それぞれに「記号的枠組み」「知覚的枠組み」「慣習的枠組み」に関する部分があります。

  1. データを視覚表現に変換するエンコード
  2. 視覚表現を整えるデザイン

第5回の講義では、「記号的枠組み」を扱いましたが、今回と次回の講義では「知覚的枠組み」と「慣習的枠組み」を扱います。

まず、今回はよく使われる可視化表現を通して、3つの枠組みを統合的に見ていきます。「知覚的枠組み」と「慣習的枠組み」の詳細については、次回の講義で確認します。

よく使われる可視化表現

データ変数の何を見るか?

  • 量を見る
  • 分布を見る
  • 比率を見る
  • 変数の関係を見る
  • 地理空間、不確かさ、ネットワークを見る

量を見る

量を見るといった時には、さまざまなブランドの商品の販売数、さまざまな都市の人口、さまざまなスポーツ選手の年齢など、なんらかの集合の大きさを見たいということが考えられます。このような場合、標準的な可視化手法は棒グラフ(単純な棒グラフだけではなく、棒グラフのグループ化や積み重ね棒グラフなども含む)ですが、ドットプロットやヒートマップも有効です。

  • 棒グラフ
  • ドットプロット
  • ヒートマップ

分布を見る

データセットに含まれる特定の変数の全体像を知りたい時には、分布を見ることができます。演習でも扱ったタイタニック号の乗客のデータセットでは、例えばタイタニック号にはどのくらいの年齢の乗客が何人いたのかを確認することができます。一つの変数の分布にはヒストグラムや密度プロットを使うことができます。複数の変数の分布を同時に確認する時には、箱ひげ図、バイオリンプロット、リッジラインプロットが有効な場合もあります。

  • ヒストグラム
  • 密度プロット
  • 箱ひげ図
  • バイオリンプロット
  • リッジラインプロット

比率を見る

何らかの集団や量を個々の構成要素に分解すると、各要素の内訳がどのようになるのかを知りたいことがしばしばあると思います。例えば、実験参加者の年齢層別の人数や企業の市場シェアなどです。円グラフ、積み上げ棒グラフ、積み上げ密度プロット、モザイクプロット、ツリーマップ、パラレルセットプロット(サンキーチャート)を使うことができます。いつもながら、何らかの理想的な可視化手法がすべてのケースで有効だということはありません。実際のデータセットに合わせて伝えたい重要な特徴をしっかり示せる手法を選択することが重要です。

  • 円グラフ
  • 積み上げ棒グラフ
  • 積み上げ密度プロット
  • モザイクプロット
  • ツリーマップ
  • パラレルセットプロット(サンキーチャート)

変数の関係を見る

データセットには往々にして複数の変数が含まれており、それらがどのように関係しあっているかが関心の対象となっていることも多いです。たとえば、さまざまな動物の体重、体長、1日に必要なエネルギー量、冬眠期間などが含まれたデータセットがあるとします。変数のうち、2つの変数の関係をプロットする場合は、散布図を使うのが一般的です。一度に示したい変数が3つ以上ある場合は、バブルチャート、二次元ヒストグラム、並行座標プロット、コレログラムが選択肢として挙がります。データセットが非常に高次元の場合は、主成分分析などの方法で次元を削減するのも良いかもしれません(本講義では扱いません)。また、一方の変数が時間やその他の順序を持つ変数であった場合は、折れ線グラフも有効です。

  • 散布図・バブルチャート
  • 二次元ヒストグラム
  • 並行座標プロット
  • コレログラム
  • 折れ線グラフ
  • スロープグラフ