The grammar of graphics takes us beyond a limited set of charts (words) to an almost unlimited world of graphical forms (statements). (Leland Wilkinson, 2005)

はじめに

イントロダクションでこのようなことを言いました。

  • データ可視化には唯一の正解はない
  • しかし、一定の方法はある

この「一定の方法」の軸となるのが、今回の講義で学ぶ視覚記号と視覚変数です。 視覚記号と視覚変数は自分でデータ可視化を行う際に役に立つだけではなく、他の人のデータ可視化を読み解く際にも有用です。

情報可視化の6ステップ

データ可視化のプロセスにおいては、「探索的可視化」と「説明的可視化」に関する部分にあたります。

この2つの部分では、具体的には、

  1. データを視覚表現に変換するエンコード
  2. 視覚表現を整えるデザイン

をしていますが、今日は特に「エンコード」に着目します。

エンコード:データを視覚表現に変換する

データ側の要素

データは、前回の講義で学んだ整然データを想定します。

用語説明
データセット今、手元にあるデータそのもの。Webサーバのログ、顧客のリスト、ソーシャルゲームのアクションログ、サーバのシステムログ、ソーシャルネットワークのフレンドリスト、センサログなど
データデータセットの1つの観察。ある時刻のサーバの各種の値、ソーシャルネットワークのユーザおよびユーザ間の関係、状態遷移図のある状態およびその遷移行列の1つなど
データ変数データの中の1つの値。サーバの名称、サーバのCPUの負荷の値、Webサーバのレスポンス、その集計値、ユーザ名、ユーザ間の関係が生成されたタイムスタンプ、その関係性(フォローなど)
データ変数の性質データ変数の尺度。定性的な値か、定量的な値か、値が文字列なのか、数値なのか、値の間の差に意味があるのか、ゼロに意味があるのかなどによって異なる性質を持つ

視覚表現側の要素

用語説明
可視化データ可視化の生成物を指し、いわゆるグラフやチャートおよびそれらを複数組み合わせたもの
視覚記号可視化の中の1つのシンボル・記号。線や円、棒、矢印、円柱、円弧など
視覚変数視覚記号の1つの値。座標の中の位置や高さ・幅といった大きさ、角度、色相、色の明暗、透明度、破線や実線、塗や模様などのテクスチャなど
視覚変数の性質人が理解・認知しやすい視覚変数の性質。連続的な値の差異を識別できるか、順序性を理解できるか、同種・異種のグループをすぐに把握できるかなど

2セットの要素の対応関係

データ視覚表現
1つ以上のデータセット複合的な可視化-
データセット可視化生徒40名の学籍番号・身長・体重 > 散布図
データ視覚記号生徒1人の学籍番号・身長・体重 > 直交座標のある点に位置する色を持った円
データ変数視覚変数学籍番号 > 色、身長 > x座標、体重 > y座標
データ変数の性質視覚変数の性質名義(順序)尺度 > 識別しやすい表現、比例尺度 > 量の大小がわかりやすい表現

データセットから可視化への変換プロセス

Wilkinson (2005) は、データセットへの可視化への変換について、以下のプロセスを提案しています。

講義では詳細に紹介しませんが、データ可視化の数学的な基礎にも興味があれば、ぜひThe Grammar of Graphicsを読んでみてください。

  1. 仕様(Specification):データのうちどの変数を可視化する対象とするか、どのような表現で可視化をするかを決める
    1. DATA: データセットの中から可視化対象となる変数を決定する
    2. TRANS: 変数の変形操作(例:ランキング)
    3. SCALE: 変数のスケール操作(例:対数比)
    4. COORD: 座標系変換操作(例:極座標)
    5. ELEMENT: 視覚的な表現の要素の決定(例:線、棒)とその装飾操作(例:色、太さ)
    6. GUIDE: ガイド生成操作(例:凡例、軸、目盛)
  2. 組み上げ(Assembly):軸やラベル、凡例とを合わせて可視化表現をどのように組み上げるかを決める
  3. 表示(Display):紙やプロジェクタ、動画など、どのデバイス・どのメディアで見せるかを決める

このプロセスは、より数学的に次の手続きとして説明できます。

  1. データセット:アクセスログ、アクションログ、フィールドワーク、質問紙などのリソースからデータセットを収集する
  2. 変数化:データセットから変数を定義する
  3. 代数処理:複数のフィールドを含むレコードの集合に対して、直交(Cross)・結合(Blend)・入れ子(Nest)を作用させ変換する
  4. 尺度化処理:特定の範囲にスケーリングを行ったり、質問紙の段階評価(非常にあてはまる・あてはまる・あてはまらない・全くあてはまらない)、属性(男性・女性・その他)などを数値化する
  5. 統計処理:集計や平均、中央値などの統計的な処理
  6. 幾何処理:高さ・幅、面積や位置などを持つ幾何的な要素への変換処理
  7. 座標系処理:直交座標(x軸やy軸)や極座標(半径と偏角)などにプロットする
  8. 装飾処理:色やテクスチャなどの装飾処理

すべての過程で複数の処理を行うことが必要な場合もありますし、特に何も処理せず元データをそのまま使う場合もあります。

データ・データ変数・データ変数の性質

エンコーディングの変換元であるデータの値のことをデータ変数といいます。データ変数の性質を次のように区分することができます。

  1. テキスト
  2. 名義尺度
  3. 順序尺度
  4. 間隔尺度
  5. 比例尺度

テキスト

一般的な尺度水準ではありませんが、ここではデータ変数の性質として言及しておきます。その名の通り、テキストからなるデータ変数の性質です。文学作品、論文、質問表の自由記述などで扱います。日本語の場合は形態素解析をして文を語に分けるという前処理をすることが多いです。また、一般的に語の変化型を原型に揃えるという前処理が必要となる場合も多くあります。内容分析など文の意味をまるごと分析するような場合は別ですが、そのまま処理するには情報量が多くて大変なので、対象語を限定して名義尺度として扱ったり、語数を数えて比例尺度として扱ったりします。

名義尺度

この尺度では、数字は単なる名前として対応付けられ、等しいかそうでないか、という比較しかできず、優劣や大小を比較することはできません。同じ数字・同じ名前の変数は同じカテゴリに属するもの、としか解釈されません。具体的には、Webサーバのレスポンスステータスや性別、血液型、県、単語などを指します。一般的には定性的な性質を指します。例えば、所属を問われた場合の回答として「1=教職員、2=学部生、3=院生、4=それ以外」が用意されている場合などが名義尺度に当たります。その数字自体は比較できません。

順序尺度

この尺度では、数字は等不等、大小といった比較が可能です。しかし、あくまで順序関係のみで、その間の差の大小は意味を持ちません。例えば、徒競走やマラソンの順位などがこの尺度に当たります。1位は2位よりも上位であることは間違いありませんが、1位と2位、2位と3位の間の差には意味がありません。あくまで順序関係だけが付いているような場合です。

間隔尺度

この尺度では等不等、大小比較だけではなく、値の差自体が意味を持ちます。しかし、ゼロ点が絶対的なものではないため、比率に意味を持ちません。具体的には、得点や温度、日付などが当たります。例えば、15度と30度を比較して、2倍暑いということにはならないことを考えると、間隔だけが意味を持ち、比を意味しないということが理解しやすいのではないでしょうか。

比例尺度

先の間隔尺度のゼロ点が絶対的な意味を持つ尺度です。例えば、売上やユーザ数、レイテンシ、メモリの使用量、ある日付を基準とした場合の経過日数などがそれに当たります。順序尺度(引用注:定量とみなすことができる)、間隔尺度と合わせて、定量的な性質を指し、定性的な性質を指す名義尺度と区別されます。

視覚記号・視覚変数・視覚変数の性質

エンコーディングの変換先である視覚表現を視覚記号(点、線、面、立体など)といいます。これらの視覚記号は、色、大きさ、形といった視覚的な特徴で表現されます。この特徴を視覚変数といいます。

視覚記号と視覚変数

Bertin (1966) によってまとめられた視覚変数は次の通りです。

視覚記号大きさ
0点、半径が意味を持たない円、三角や十字といった記号
1線、半径が意味を持つ円、面積がデータ変数と対応した正方形、三角形など
面、領域2高さ・幅を持つ矩形や半径・角度で定義される円弧など
立体3高さ・幅・奥行きなど3つの要素で決まる直方体など
(藤森・あんちべ, 2014)

これらの視覚記号は、次のような視覚変数によって表現されます(Bertin, 1966; Halik, 2012)。

  1. 大きさ
  2. 形状
  3. 明るさ
  4. 角度・方向
  5. テクスチャ(パターン)
  6. 位置
  7. 色相
  8. 彩度
  9. 配置
  10. 焦点
  11. 解像度
  12. 透明度
  13. テクスチャの空間密度
  14. 俯瞰の高さ

(Halik, 2012)

このように多くの視覚変数がありますが、すべて盛り込むと情報過多となってしまい人の理解を妨げるため、可視化を行う際には調べたいデータや伝えたい情報に応じて適切な視覚記号と視覚変数を選ぶことが重要です。

視覚変数の性質

データ変数が尺度という性質を持つのと同様に、視覚変数は比較のしやすさ、同一か否かの把握のしやすさといった性質を持ちます。以下に、Bertin (1966) がまとめた視覚変数の性質を列挙します。

  1. 選択性(Selective):視覚変数が異なる場合、他の視覚記号との分離が容易で際立つとすると、その視覚変数は選択性を持つ
  2. 関連性(Associative):視覚変数が異なる場合、他の視覚変数と同じグループ・同一であることがわかるとするとき、その視覚変数は関連性を持つ
  3. 定量性(Quantitative):視覚変数に数値的な違い(明るさなど)がある場合、2つの視覚記号が異なっていると識別できるときに、その視覚変数は定量性を持つ
  4. 順序性(Order):視覚変数による差の大小が認知できる場合、その視覚変数は順序性を持つ
  5. 変種の数(Length):視覚変数に関連付けられているタスクが求めている性質を維持できる変種の数(例:位置であれば1ピクセルごとの違い、色であれば#FF6600や「赤」、「青」のような色表現の数)

次に示すのは、Halik (2012) がまとめたそれぞれの視覚変数の性質です。

(Halik, 2012)

上の図では変種の数(Length)についての記載がありませんが、大きさと位置を除けば、視覚変数が実用的な選択性・関連性を維持できるのは5–7個と言われています。

データ変数と視覚変数の対応

もちろん絶対的な規則は作れませんが、おおまかには、

  • 質的なデータは「同じ・異なる値であること」がわかればよいため、「異なることが用意に識別できる」選択性および「同種および異種のグループであることが用意に識別できる」関連性の性質を示す「色」や「テクスチャ(パターン)」といった視覚変数が推奨される
  • 量的なデータは「順序や間隔、比率を識別できること」が求められるため、「濃淡」や「透明度」といった「直感的に値の関係が理解できる」順女性を持つ視覚変数や「位置」「角度」「大きさ」などのように「視覚的に値の大小を比較できる」定量性を持つ視覚変数が推奨される

データセットと可視化の対応関係

可視化が持つ視覚記号および記号を表現する視覚変数によって、可視化はどのような水準のデータをいくつ表現できるかが決まります。視覚変数が増えれば増えるほど視覚変数の持つ性質はうまく利用できなくなるため、ケースバイケースで適切な数の変数を表現することが重要です。

例:折線グラフの視覚変数と適切な尺度

視覚変数適切な尺度必須/任意
位置X順序尺度以上必須
位置Y順序尺度以上必須
名義尺度任意
明るさ間隔尺度以上任意
テクスチャ名義尺度任意

実例から考えてみる

いくつかの例を見て、データセットと可視化の関係を整理してみましょう。

歩行数

データ:利用者

データ変数データ変数の性質視覚変数視覚変数の性質
日付間隔尺度位置X定量性・順序性
歩数比例尺度位置Y定量性・順序性

論文の発表状況

(志村・朱, 2021)

データ:論文

データ変数データ変数の性質視覚変数視覚変数の性質
刊行年間隔尺度位置X定量性・順序性
著者名義尺度位置Y定量性・順序性・選択性
著者種別名義尺度選択性・関連性
資料種別名義尺度形状選択性・関連性

世界の人口と所得の関係

(Rosling, 2012)

データ:国

データ変数データ変数の性質視覚変数視覚変数の性質
収入比例尺度位置X定量性・順序性
平均寿命比例尺度位置Y定量性・順序性
地域名義尺度選択性・関連性
人口比例尺度大きさ定量性・順序性
間隔尺度時間定量性・順序性

日本の気温変化

データ:日本

データ変数データ変数の性質視覚変数視覚変数の性質
気温変化比例尺度位置Y定量性・順序性
気温変化比例尺度明度定量性
気温変化の方向名義尺度色相選択性・関連性
間隔尺度位置X定量性・順序性