The greatest value of a picture is when it forces us to notice what we never expected to see. (Tukey, 1977)
はじめに
- これまでに印象に残っている情報可視化作品はありますか?
- それはどのようなものですか?
データ可視化の定義と目的
データ可視化の様々な定義
(データ)可視化とは・・・
- “Data visualization is part art and part science…A data visualization first and foremost has to accurately convey the data…At the same time, a data visualization should be aesthetically pleasing” (Wilke, 2019)
- 芸術であり、科学である
- データを正確に伝達すると同時に、美しい
- “a graphical representation of data or concepts” (Ware, 2004)
- データや概念のグラフィカルな表現
- “…transforms the symbolic into the geometric” (McCormick et al., 1987)
- 象徴的なものから幾何学的なものへの変換
- “…the artificial memory that best supports our natural means of perception” (Bertin, 1983)
- 人間の自然な知覚を最もよく補助する人口記憶装置
データ可視化の操作的定義
データ可視化とは、データにもとづいて明瞭かつ効果的に問題を探索し、発見を伝達するための視覚記号の技術である。
- データ:物事の性質や特徴を何らかの方法を用いて数値や文字にしたもの
- 問題を探索する:探索的可視化(後述)
- 発見を伝達する:説明的可視化(後述)
- 視覚記号:物事の状態などと結びついた図形
- 技術:物事を取り扱ったり処理したりする際の方法や手段
データ可視化の分類
科学的可視化と情報可視化
- 科学的可視化 (scientific visualization)
- 形や空間的な位置などがあらかじめ備わっているような物理的なデータの可視化
- 物理シミュレーション、気象、医療、化学、生物学などの分野でよく使われる
- 計算機科学の中では、コンピュータグラフィックス分野に近い
- 情報可視化 (information visualization)
- 物理的な形や空間的な位置があらかじめ備わっていないような抽象的なデータの可視化
- 同じデータに対してさまざまな表現を用いることが可能
- 計算機科学の中では、ユーザーインタフェース分野に近い
インフォグラフィックスと情報可視化
(Illinsky and Steele. Designing Data Visualizations. 2011.)
-
インフォグラフィックス
- 手作業が多い(情報を独自に処理する)。
- 手元にあるデータに特有である(別のデータを使用して再作成するのが容易ではない)。
- 美的な要素が多い(目を引くために作成される強力なビジュアルコンテンツである)。
- 比較的データの量が少ない(情報のひとつひとつをそれぞれ手作業で表現しなければならない)。
-
情報可視化
- アルゴリズムにより描かれる(少なくとも大部分はプログラムの力を借りて行われる)。
- 異なるデータを使用して再生成することが容易である(似た次元や特徴を持つ異なるデータセットを表示するために再利用できる)。
- 美的な要素が少ない(装飾が少ない)。
- 比較的データの量が多い(大量のデータを処理することが可能)。
探索的可視化と説明的可視化
-
探索的可視化
- 内容がよくわからないデータが大量にある場合に適している。
- データを視覚的な記号に変換することで、興味深い傾向や異常な値などといった特徴を見つけることができる。
- 大量のデータを用いることで、情報を単純化しすぎたり取り除きすぎたりすることを防ぐ。
- データから語ることができるストーリーを見つけるために行う。
-
説明的可視化
- ストーリーがすでにわかっていて、そのストーリーを誰かに伝えようとするために行う。
- 受け手や伝えようとすることに合わせて、載せるべき情報と(複雑すぎたり不適切であったりするため)外すべき情報を選択する。
- 完成図のスケッチを描いてそれをコードにするようなイメージ。
-
探索説明的可視化
- 探索と説明のハイブリッド。
- 整理されたデータセットを示しつつ、受け手がデータを探索することもできるようにする。
- インタラクティブな可視化が多い。
データ可視化の目的
- データに埋没している事実や示唆を発見しやすいようにする(探索的可視化)
- データ分析の手法
- データ分析には検証型と探索型がある
- 探索型分析では、事前に仮説などが与えられていないため、統計的な分析手法だけでは効率的な分析が行えない
- データを観察し、試行錯誤しながら仮説や知識を探すため、可視化を利用することが有効である
- データから発見した事実や示唆を一目で理解できるようにする(説明的可視化)
- コミュニケーションの手法
- 作り手は伝えたいことを事前に知っており、そのデータや情報を伝えるための効率的で効果的なメディアとして可視化を利用する
説明的可視化の目的
(Illinsky and Steele. Designing Data Visualizations. 2011.)
- 情報を伝える
- 主にデータ可視化の受け手とデータに関係する
- 事実を中立的に、正しく、理解しやすく示す
- 受け手を説得する
- 主にデータ可視化の作り手と受け手に関係する
- データに基づいて明確な観点を示し、受け手の意見や行動を変えようとする
- アート作品を作る
- 主にデータ可視化の作りてとデータに関係する
- データをもとに視覚的な作品を作ろうとする
- 受け手は、作品の背後にあるデータを理解できないことが多い
データ可視化の強み
- 膨大なデータを理解しやすくすることができる
- データから想定していなかった事実を見つけることができる
- データそのものやデータの収集方法に関する問題が分かる
- データのマクロな特徴とミクロな特徴の両方を同時に見ることができる
- 仮説形成がしやすくなる
Graphs in Statistical Analysis (Anscombe, 1973)
- 要約統計量などが同じでも、実際には特徴が著しく異なるデータが存在する
- 可視化するとすぐに違いが分かる
データ
Dataset 1 | Dataset 2 | Dataset 3 | Dataset 4 | ||||
---|---|---|---|---|---|---|---|
X | Y | X | Y | X | Y | X | Y |
10 | 8.04 | 10 | 9.14 | 10 | 7.46 | 8 | 6.58 |
8 | 6.95 | 8 | 8.14 | 8 | 6.77 | 8 | 5.76 |
13 | 7.58 | 13 | 8.74 | 13 | 12.74 | 8 | 7.71 |
9 | 8.81 | 9 | 8.77 | 9 | 7.11 | 8 | 8.84 |
11 | 8.33 | 11 | 9.26 | 11 | 7.81 | 8 | 8.47 |
14 | 9.96 | 14 | 8.1 | 14 | 8.84 | 8 | 7.04 |
6 | 7.24 | 6 | 6.13 | 6 | 6.08 | 8 | 5.25 |
4 | 4.26 | 4 | 3.1 | 4 | 5.39 | 19 | 12.5 |
12 | 10.84 | 12 | 9.11 | 12 | 8.15 | 8 | 5.56 |
7 | 4.82 | 7 | 7.26 | 7 | 6.42 | 8 | 7.91 |
5 | 5.68 | 5 | 4.74 | 5 | 5.73 | 8 | 6.89 |
要約統計量
Dataset 1 | Dataset 2 | ||||||
---|---|---|---|---|---|---|---|
X | Y | X | Y | ||||
mean | std | mean | std | mean | std | mean | std |
9.00 | 3.32 | 7.50 | 2.03 | 9.00 | 3.32 | 7.50 | 2.03 |
Dataset 3 | Dataset 4 | ||||||
X | Y | X | Y | ||||
mean | std | mean | std | mean | std | mean | std |
9.00 | 3.32 | 7.50 | 2.03 | 9.00 | 3.32 | 7.50 | 2.03 |
可視化
ロンドンのコレラ発生 (Tufte, 1997)
- Snow. On the Mode of Communication of Cholera. 1855.
- 1854年8月31日夜にロンドン中心部のBroad Streat地区でコレラが発生
- 症例を地図にプロットし可視化し、正しく解釈したことで感染源の特定に成功
(Tufte. Visual and Statistical Thinking. 1997.)
チャレンジャー号の発射失敗 (Tufte, 1997)
- 1986年1月28日、アメリカ合衆国のスペースシャトルチャレンジャー号が打ち上げから73秒後に分解した
- 調査の結果、事故の原因は低温環境下におけるOリングの固着であることが分かった
- 発射前日、事故の原因となったOリングと発射日の気温についてNASA上層部およびエンジニアが議論を交わしていたことが明らかになったが、正しい判断は下されなかった
- もちろん、最終的な結果は様々な原因により複合的にもたらされたものであるが、そのうちの一つが前日の会議で示された13枚の図が正しい推論の根拠とならなかったことである
(Tufte. Visual and Statistical Thinking, 1997.)
- これまでの24回の発射時のOリングの温度とダメージ状況を示した図
- 温度とダメージの関係が直ちには読み取れない
(Tufte. Visual and Statistical Thinking, 1997.)
- 上の図を散布図にしたもの
- エンジニアが発射中止を訴える際の有力な根拠となったはず
- ただ、Tufteが後者の図を作った時には事故の原因がすでに分かっていたので、Tufteは相当な優位に立っていた
- どの変数が重要なのかが分かっていた
- 外れ値を無視するべきか、それとも重視するべきかが分かっていた
- 適切な説明的可視化がなされなかった例というよりは、探索を尽くさなかった例と言えるかもしれない
ナイチンゲールの鶏頭図(coxcomb)
- 円グラフとレーダーチャートを組み合わせたような図
- クリミア戦争の「東部での軍隊における死亡原因」
- 月ごとの死亡数を原因ごとにまとめたもの
- 青:緩和可能な疾病
- 赤:外傷
- 黒:その他の原因
- ナイチンゲールはこの図を根拠に野営病院の状況改善を政府に訴えた
Minardの地図
- 「ナポレオンのロシア侵攻」の各地点での軍隊の規模を可視化
- 一つの図で多くの情報を表現することに成功している
- どこが難所であったか、どこで軍隊規模の縮小を抑えることができたか、気温との関係はどうか、などが読み取れる
データ
long lat survivors direction group
24.0 54.9 340000 A 1
24.5 55.0 340000 A 1
25.5 54.5 340000 A 1
26.0 54.7 320000 A 1
27.0 54.8 300000 A 1
28.0 54.9 280000 A 1
28.5 55.0 240000 A 1
29.0 55.1 210000 A 1
30.0 55.2 180000 A 1
30.3 55.3 175000 A 1
32.0 54.8 145000 A 1
33.2 54.9 140000 A 1
34.4 55.5 127100 A 1
35.5 55.4 100000 A 1
36.0 55.5 100000 A 1
37.6 55.8 100000 A 1
37.7 55.7 100000 R 1
37.5 55.7 98000 R 1
37.0 55.0 97000 R 1
36.8 55.0 96000 R 1
35.4 55.3 87000 R 1
34.3 55.2 55000 R 1
33.3 54.8 37000 R 1
32.0 54.6 24000 R 1
30.4 54.4 20000 R 1
29.2 54.3 20000 R 1
28.5 54.2 20000 R 1
28.3 54.3 20000 R 1
27.5 54.5 20000 R 1
26.8 54.3 12000 R 1
26.4 54.4 14000 R 1
25.0 54.4 8000 R 1
24.4 54.4 4000 R 1
24.2 54.4 4000 R 1
24.1 54.4 4000 R 1
24.0 55.1 60000 A 2
24.5 55.2 60000 A 2
25.5 54.7 60000 A 2
26.6 55.7 40000 A 2
27.4 55.6 33000 A 2
28.7 55.5 33000 A 2
28.7 55.5 33000 R 2
29.2 54.2 30000 R 2
28.5 54.1 30000 R 2
28.3 54.2 28000 R 2
24.0 55.2 22000 A 3
24.5 55.3 22000 A 3
24.6 55.8 6000 A 3
24.6 55.8 6000 R 3
24.2 54.4 6000 R 3
24.1 54.4 6000 R 3
long lat city
24.0 55.0 Kowno
25.3 54.7 Wilna
26.4 54.4 Smorgoni
26.8 54.3 Moiodexno
27.7 55.2 Gloubokoe
27.6 53.9 Minsk
28.5 54.3 Studienska
28.7 55.5 Polotzk
29.2 54.4 Bobr
30.2 55.3 Witebsk
30.4 54.5 Orscha
30.4 53.9 Mohilow
32.0 54.8 Smolensk
33.2 54.9 Dorogobouge
34.3 55.2 Wixma
34.4 55.5 Chjat
36.0 55.5 Mojaisk
37.6 55.8 Moscou
36.6 55.3 Tarantino
36.5 55.0 Malo-Jarosewii
(Hadley. Introduction to data analysis.)
可視化
(Tufte. Beautiful Evidence, 2006.)
データ可視化の歴史と現状
データ可視化の歴史
- 古くは、旧石器時代(約3万年前)のタリースティック(骨にV字型の刻み目を入れて家畜を記録するなどしていた)もデータ可視化の一種
- 今もよく使われているデータ可視化方法(ドットプロット、棒グラフ、折れ線グラフ、円グラフなど)は1600–1850年の間に現れた(意外と新しい)
- Friendly, Michael and Denis, Daniel J. Milestones in the history of thematic cartography, statistical graphics, and data visualization. Web document, 2001. http://www.datavis.ca/milestones/
初の棒グラフ(Playfair, 1786)
(森藤・あんちべ『エンジニアのためのデータ可視化実践入門』2014.)
初の折れ線グラフ(Playfair, 1786)
(森藤・あんちべ『エンジニアのためのデータ可視化実践入門』2014.)
初の円グラフ(Playfair, 1801)
(森藤・あんちべ『エンジニアのためのデータ可視化実践入門』2014.)
データ可視化の現状
- さまざまな可視化が出現している
- Information is Beautiful Awardsなどのような賞もある
データ可視化の例
世界の人口と所得の関係を可視化してみる
(Rosling, 2012)
デバイスデータから人々を知る
哺乳瓶の利用状況の可視化
歩行数の可視化
階段の手すりの利用状況の可視化
研究者の論文執筆状況の可視化
(志村・朱「『図書館情報学会誌』における著者の出現分布」2021.)
個人的なデータの可視化
(Lupi and Posavec. Dear Data. 2016.)
Picasso’s paintings
(Scarr. Picasso's paintings. 2012.)
作家の執筆歴
(Mantegari. From first published to masterpieces. 2013.)
作家の執筆歴(リデザイン)
(Cairo. Redesign of "From first published to masterpieces". 2014.)
小説の登場人物の関係
(Bostock. Les Misérables Co-occurrence. 2012.)
『種の起源』の編集履歴
(Fry. The Preservation of Favoured Traces. 2009.)
映画の評価と収益
(Szucs. Spotlight on Profitability. 2011.)
環境ごとの木材の寸法
(Carli. Wood Dimensional Changes. 2012.)
アメリカの風
(Viegas and Wattenberg. wind map. 2012.)
パーソナルデータ
(LigoranoReese. I•AM•I. 2019.)
タイタニック
(Piccolomini. The Titanic: facts and numbers. 2017.)
悪いデータ可視化
- 間違っている可視化
- 明確ではない可視化
- 効率的ではない可視化
- (そもそもデータが正しくない可視化)
- (ウソをつこうとしている可視化)
(Wilke. Fundamentals of Data Visualization. 2019.)
間違っている可視化の例。カーネル密度推定で年齢が負の値になっているのをそのまま表示している。
(Healy. Data Visualization. 2018.)
明確ではない可視化の例。3次元の棒が1、2、3、4を表しているが、とてもそうは見えない。
(Healy. Data Visualization. 2018.)
明確だが、効率的ではない可視化の例。積み上げ棒グラフはカテゴリごとの傾向を読み取ることが難しい(データの傾向にもよるので、積み上げグラフは場合によっては有効)。
もっと見たかったらこちら:WTF Visualizations
まとめ
- データの可視化はとても身近なことです
- データ可視化をすることは、データに関する次のことに役立ちます
- データの探索と分析
- 疑問を見つける
- 仮説を立てる
- 仮説を検証する
- データの提示と説明
- 複雑な事象を一目で理解できるようにする
- 目的や文脈、読者に合わせてデータを示す
- データの探索と分析
- 一方で悪意のある可視化に騙されない様にする必要もありますし、自分が無意識に悪意のある可視化をしないようにもしたいですね
- 幸い、データ可視化には一定の方法があります
- この講義では、データを可視化する方法を学び、いろいろなデータを可視化してみましょう
- この講義の方針
- データ可視化には唯一の正解はない
- しかし、一定の方法はある
- 常に可視化の目的を考える
- 誰に何を伝えたいのか?
- 誰がなぜそれを見るのか?
- データを知る(ドメイン知識を得る)
- 例をたくさん見る
- 手を動かす
最後に、「はじめに」で説明したデータ可視化作品について、この講義で学んだ概念と言葉を使ってもう一度説明してみましょう。