井山弘幸

井山弘幸

Jan Collaert I, after Jan van der Straet, called Stradanus|New Inventions of Modern Times [Nova Reperta], The Invention of the Compass, plate 2, ca. 1600

(写真:メトロポリタン美術館 / The Metropolitan Museum

データは何も語らない。意思決定に寄与するのは、仮説ばかりである

データは語るのだろうか。もちろんデータを擬人化した表現だから、文字通りの意味での数値や記録が声を出すわけではない。データが隠された事実や有用な知識を自ずと教えてくれるようにも感じられる。おそらく、そのような意味で「データは語る」が書名や記事のタイトルに使われるのだろう。だが膨大なデータの蓄積がある一方で、そこから何らの情報も得られないケースもある。データから有意な知見を引き出すメカニズムに焦点を当てて、とくに先のところでは死人に関するデータが何かを語ってくれるのか、それとも「死人に口なし」で何も語らないのか、考えてみよう。

Updated by Hiroyuki Iyama on July, 11, 2023, 5:00 am JST

巧妙な仮説があった、野村克也監督のID野球

まずは野球の話題。Thinking Baseball 「考える野球」をブレイザー監督から受け継いだプロ野球の名監督故野村克也はID野球を提唱した。Import Data、データ重視野球、チーム編成や選手のプレイ上の判断は、経験や勘に頼るのでなく「客観的データを取り込んで科学的に進める」べきだ、と考えた。「勘ピュータ」と揶揄された直感や勘に頼る、野村の生涯のライヴァルである長嶋茂雄巨人軍終身名誉監督の野球と好対照をなす、とされる。野球のデータにも種々あるが、実際の試合の記録であるスコアブックのデータならば、どのように生かすのか。例を示そう。

1)初球から強振する傾向のある外国人打者に、投手はボール球から入れと指示する。
2)内角に死球すれすれのボールで打者に意識づけをすると、外角低めの変化球で打ち取りやすい。
3)打球方向に偏りのある打者には、それに応じた大胆な守備シフトを敷く。他にも投手・打者の相性や風向きなどのデータが利用される。(左打者は左投げ投手を打ちあぐねるとか、甲子園球場は浜風が吹くためライト方向のホームランが出にくいとか)。

ここには落とし穴がある。以上挙げた事例はどれも頻度分析に基礎を置くものだ。ものごとは頻度の高い方向に動く、すなわち統計的に生起確率の高い事象が予測される。だから、それに応じた行為を選択すれば成功すると考えるのだが、相手もまた同じデータを共有していることを忘れてはならない。1)初球のボールも、2)内角の意識づけの後の外角変化球も、そして3)守備シフトも読まれて逆用されカウンターを蒙る恐れがある。そうでなくとも、作戦に成功することも確率事象なのだから、失敗する可能性を常に残している。

データを活かしてゲームを勝利に導くことはそう簡単ではないとしても、意思決定の材料であることは確かだ。利用する者を選ばないという意味で、不偏で中立であることもデータの特徴である。意思決定に至らない場合でも、データは現象に潜む規則性や自然の法則性を知るうえで重要である。例えば、新型コロナウイルス感染症(COVID‑19)の流行初期の感染者数に対する死亡者の比率は約5%であったが、2023年までに0.2%程度まで下がった。ここまでが現象に関する客観的データの一部だが、各自が感染を心配することなく自由に活動できるかどうか、その意思決定や判断にはこのデータ以外の要件、仮説が必要となる。例えば「0.2%の死亡率ならば用心するほどの感染症ではない」と言った仮説が。ID野球の特質は、実はその仮説の立て方の巧妙にあったのである。仮説は暗黙のうちに前提とされていることが多いので注意を要する。

長嶋監督の勘ピュータもまた「データ」を活用していたのかもしれない

実を言うと、データにはもう一つ別の用例がある。知識の根源をもとめる論考で、哲学者ラッセルが用いたもとの意味は sense data すなわち感覚所与であった。感覚として個々人に与えられたもの。知識の構成にとって基本的な情報単位である「与えられた感覚体験」のことをデータと呼んだのである。感覚与件とも訳す。自らに与えられたという意味であって、他人からは知りようのないものである。これはID野球のデータとは根本的に異なる。スコアラーや公式記録員が作成するデータは全てが客観的な数値データであり、誰もが利用できるのに対して、感覚所与で言うところのデータは、時にはきわめて個人的で私秘的な感覚体験で得られる情報となる。

例えば、発熱や寒気を感じるときのいつもとは異なる不快な感覚は、本人にとって第二の意味の「所与で私秘的なデータ」であるのに対して、体温計で測定した体温37.0℃は、第一の意味の「客観的なデータ」となる。だから長嶋監督の勘ピュータは第二の哲学的な意味での、感覚所与のデータを活かしていたのかもしれない。監督時代に一点差で負けているゲーム、最終回二死一塁で走者に盗塁を命じたことがあったけれども、投手のモーションやランナーの走力から「盗塁できる」という状況感覚を得ていた可能性がある。それが長嶋監督以外の誰も知り得ないものであることは、言うまでもない。スピードメーターで測定した球速160km/hは第一の、打者が感じる球の「重さ」は第二のデータである。

宮澤賢治にとってのデータとは。「青空に無色な孔雀が居た」という仮説もデータに基づいていた

データがそれ自体では何も語らず、推論の材料として使われるときには仮説が必要となることを、科学者でもあり詩人でもあった宮澤賢治が書いているので、少々寄り道となるけれど触れておこう。処女詩集「春と修羅」の序詞で賢治はこんな風に語る。

…けだしわれわれがわれわれの感官や/風景や人物をかんずるやうに/そしてたゞ共通に感ずるだけであるやうに/記録や歴史 あるいは地史といふものも/それのいろいろの論料(データ)といっしょに/(因果の時空的制約のもとに)/われわれがかんじてゐるのに過ぎません/おそらくこれから二千年もたつたころは/それ相当のちがつた地質学が流用され/相当した証拠もまた次次過去から現出し/みんなは二千年ぐらゐ前には/青ぞらいつぱいの無色な孔雀が居たとおもひ/新進の大学士たちは気圏のいちばんの上層/きらびやかな氷窒素のあたりから/すてきな化石を発掘したり/あるいは白堊紀砂岩の層面に/透明な人類の巨大な足跡を/発見するかもしれません…

賢治にとってデータは共通に感じる「論料」、つまり議論の材料ということだ。論理学のトゥールミンモデルではデータを「根拠」あるいは「事実」と訳すことに対応している。歴史や地質学史も一つのデータであって、それを材料あるいは拠りどころとして、仮説が推論されてゆく。だがその仮説は二千年後には「相当違った」ものになるだろう、と賢治は断ずる。捨てられてしまうこともあると言う。「青空に無色な孔雀が居た」という仮説はデータに基づいたものであっても、いずれ誤りとされる日がくる。トゥールミンモデルではデータだけでは何も分からず、それを活用するには論拠(warrant)が必要とされる。論拠は大概仮説のことである。

死亡率がわかるから、生命保険の掛け金が設定できる。データが意思決定につながるとき

ビッグデータに恐れをなす必要はない。第一の意味での客観的な数値データが膨大に蓄積されたとしても、そこから有益な結論を引き出す仮説がなければ、説得力のある論拠が見つからなければ、宝の持ち腐れで何も使われずに眠ったままでいるだろう。生命保険の成立を例にとって考えてみよう。

どの社会にも記録され眠っているデータの一つに死亡記録がある。欧米の墓標には故人の誕生年と死亡年が刻まれているが、長らくそのデータは何も語らないでいた。1603年12月7日。ロンドンで『死亡表』Bills of mortalityなる冊子が発行されるようになった。前の一週間にロンドン市内で何人死んだのか。死因別にその年齢と人数が書かれていた。早産、老衰、咳病、黒死病、歯熱、梅毒、自殺、驚愕、などの原因があがっていた。驚愕というのが面白い。特に疫病やFumifugium即ち大気汚染との関連を知るために調査員を派遣して作成された。職業や家柄と寿命の関係に興味をもつ者もいただろう。だがこの段階でもデータから意思決定までの道のりは遠い。データはなかなか語ってくれないのだ。

この英国教会の過去帳をもとに作成された死亡表というデータ素材をもとに、人口統計上の仮説を設け、自然法則として整理したのが商人のジョン・グラント(John Graunt)だ。1662年に『「死亡表」にもとづく自然および政治的考察』Natural and Political Observations Made Upon the Bills of Mortality を発表した。この書物は学会で高く評価された。その成果の一つがロンドンの人口の推計である。出生と死亡、移民や逃亡があって今とは違いなかなか掌握しかねていたものに、統計分析から光明が得られる結果となった。当時人口は200万人と過大に見積もられていたが、グラントは死亡表から38万4千人と推算した。出生率から死亡率を引いた増加関数の歴年の積分値を人口とする仮説を用いたことになる。

死亡数と出生数のデータから更に有益な結論を引き出したのが、ハレー彗星の予測で名を残したエドマンド・ハレー(Edmund Halley)である。王立協会の会員として南半球の恒星の観測や貿易風の研究を仕上げた後、当時ドイツ領のブレスラウ(現ポーランド領ヴロツワフ)の死亡表の統計データを元に、1693年に初めて生命表を作成した。生命表とは誕生日から、翌年の誕生日までに死ぬ確率(死亡率)と平均余命を年齢ごとに表わしたもののことである。もっと正確に言えば、x歳で存命中の人間の総数Lx人のうち、x+1歳になる前に死んだ人をndx人とした場合、ndx÷Lxで表される数値nqxのことだ。この中でハレーは生命保険料の算定について提案を行う。支払うときの年齢での死亡率にもとづいて決めるべきだと。生命保険や年金の起源は職人ギルドや聖職者などの互助的制度で、死亡時に家族が受け取る、あるいは退職後に本人が受けとる仕組みになっていたが、保険料は入会時の年齢とは関係なく一律に決められていた。これでは若い人は入会を渋り、老齢に達してから入ろうとする。原資が不足し赤字になることもあった。

ハレーの考案した生命表では年齢ごとに死亡率が異なる。その点は今も同じである。参考までに、現在使われている令和4年のわが国厚生労働省公表の生命表における死亡率を掲げる。60歳男性で0.627%、65歳1.0%、70歳1.68%、75歳2.67%、80歳4.5%、85歳8.08%、90歳14.4%、95歳24.1%、100歳37.0%。高齢になっても半数以上翌年まで生き続けることになるから、われわれの直感に反するようで不思議に感じるかもしれないが、80歳を過ぎても加入できる保険があるのは、これに従い掛け金を決められるからである。ブレスラウの住民のデータから作られた生命表は異国のロンドン市民に対して成り立つ、という推論には無理があるように思われるが、「それぞれの年齢において固有の死亡率の実績値は未来も同じである」という仮説が汎用性の高い優れたものであったことに注目すべきだ。それでも仮説は仮説である。上述の厚生労働省の生命表は当然ながら、日本の過去の人口統計データから引き出されたものとなるが、これも同一の仮説を用いている。過去の統計法則は未来予測に用いることができる。この重要な発見によって、購入者の年齢に応じた適切な価格で、即ち保険業者が破綻せず制度が持続できる年金サービスを供給することができるようになったのである。

確率という物理量が存在する、という仮説

ブレスラウの住民データからの死亡表を経て生命表の導出まで、この一連の思考の流れは自然なもののように考えられがちだが、グラントやハレーが暗黙の前提とした仮説がなければ、実際思うようにならなかった。死者のデータは永遠に眠ったままだったろう。そもそも一定の年齢xのときに来年の誕生日までに死ぬ確率nqxは存在するのだろうか。もし定められた寿命が10年先ならば、それまではnqx=0でなければおかしい。つまり運命論者にとって死ぬ年だけがnqx=100%で、それ以前はnqx=0%なのだ。運命論を含む決定論の考え方が優勢であった時代には、確率という概念は誤謬や迷妄として思考の埒外に追いやられていたのである。もちろん「人間には神または悪魔によって定められた死期が存在する」という運命論も、あるいは「すべての現象はラプラスの方程式にしたがって必然的に起きる」という決定論も、「人間は年齢xのとき翌年までにnqxの確率で死ぬ」という確率論も、いずれも仮説であることに変わりはない。

長らく数学教育のなかで自明とされてきた確率。思い出して欲しい。ものごとや出来事に対して一定の確率が存在することを、先生は証明してくれただろうか?答えはノーだ。「確率という未来にある出来事が起きる可能性を表わす《量》が存在すると仮定しているだけですよ」とは生徒に教えるわけにはいかないだろう。信じなければ試験のとき困るだろう、と言うくらいだ。それに先生自身その信念の虜になっているかもしれない。

それに数学の授業で教わる確率は、死亡率のような統計的な確率ではない。骰子の目やコインの裏表の順列組合せの比率から得られる、論理的な可能性であって異なる性質のものである。

確率論と運命論。どちらが真実なのかは確かめようがない

保険制度の場合、未来にまで拡張した死亡率の存在を受け入れたのは、掛け金が適切で説得的だと感じられ、利用者を維持し拡大できたからだ。だが商業的成功は科学的な証明と無関係である。死亡率は貴方がいつ死ぬのか正確に予言するものではない。冒頭の野球の話でも同じようなことが言える。3割打者とは過去のヒット率3割の実績をもつ者のことを言い、次の打席でヒットを打つ可能性が3割という意味ではない。ただプロ選手の成績評価に役立つという意味では保険と似ている。

もちろん貴方が死ぬ年齢やXデーが存在するという運命論も、そう信じる人がいる一方で、その存在は証明できない。三遊亭圓朝がグリム童話を翻案した落語「死神」ではあらゆる人間の寿命は残されたロウソクの長さで表される。Xデーは人生のロウソクが燃え尽きたときである。植物の命名法の基礎を築いた18世紀の博物学者リンネは『神罰』という本を書いていて、天網恢恢疎にして漏らさず、人間の犯した罪を神は見逃すはずはなく、必ず定められたときに神罰を下していると説いた。これもまた別の形の運命論である。最大の欠点はロウソクが尽きる日も、神罰の下る日も誰もあらかじめ知ることができない、というところにある。

確率論と運命論(あるいは決定論)。どちらが真実なのかは確かめようがない。言えることは、産業革命以降に第二次科学革命が起き、国家運営の強力な手段として統計調査が世界中で行われるようになって以来、われわれは確率論の世界を信じ、そのなかで生きている、ということだ。

データは語らない。自ずと知識が読めてしまう(read off)ことはない。データは仮説をもって読み込み(read in)語らせなければならない。

参考文献
『データは語る』米山高範(日科技連出版社 2000年)
データが語る日本財政の未来』明石順平(集英社 2019年)
野村克也 野球論集成』野村克也 (徳間書店 2017年)
「春と修羅」『宮澤賢治詩集』宮澤賢治(岩波書店 1950年)
『偶然を飼いならす―統計学と第二次科』イアン・ハッキング 石原英樹、重田園江訳(木鐸社 1999年)
神罰』C.v.リンネ W.レペニース編 小川さくえ訳(法政大学出版局 1995年)
『確率論史』アイザック・トドハンター 安藤洋美訳(講談社 2002年)