好奇心の横断歩道を創る!

自分の思考をラバーダック・デバッグするためのブログ

なぜその分布なのか?分布の裏にあるのかもしれない構造の例について、メモ

少しづつ書き足していきたい。

 

正規分布

二項分布の、ベルヌーイ試行の回数nをn→∞とした時に現れる分布として知られる。

現実世界で正規分布に近い分布を示す実例

・日本の17歳男子の身長の分布

・株やその他の金融商品の、比較的小さい価格変化

市場における価格の変動が、時間の割に比較的小さいとき(といっても大半はここに属する)、変動率が0近辺にピークを持つ正規分布で現れる

正規分布の背景にあるかもしれない構造の例

正規分布を示す変数Xが、無数の独立で起こる確率的事象の影響の和であらわされるような場合。(参考:中心極限定理

試してみたら

Pythonコード



 

対数正規分布

正規分布の変数をx→ln y に変数変換した分布(この言い方は正確ではないと思う)。

分布の背景にあるかもしれない構造の例

①「資本」をランダム倍(>0)する経験が繰り返されると、「資本」の分布は対数正規分布を示す*1

 

現実世界で対数正規分布に近い分布を示す実例

・国別のGDPの分布

・戦前の都道府県の人口(戦後は複数の対数正規分布の重ね合わせとしてうまくフィットするらしい)

・2000年のアメリカの州人口(1900年は複数の対数正規分布の重ね合わせとしてうまくフィットするらしい)

高所得者を除く、個人の所得の分布。2010のアメリカだと10^5ドル(多分年収)あたりから、2012の日本だと1000万円(多分年収)あたりから対数正規分布とはずれているように見える

 

試してみたら

Pythonコード



べき乗則の分布

分布強度Dを変数xの関数D(x)で近似できて、

 \log{D_{(x)}} \log{x}について右肩下がりの一次関数で書かれるとき、 D_{(x)}べき乗則

Dとxで両対数グラフにプロットしたら線形になるものがべき乗則

現実世界でべき乗則に近い分布を示す実例

地震のエネルギー

文字の定義

定数A,B

地震のエネルギーE

地震の発生頻度D(E)

で、発生頻度は大体以下の式で近似できる(自分の計算が間違っていなければ)。

 D_{(E)}=A E^{-0.5}

なぜだかわからないけど‐0.5程度で割とうまく近似できる。

ちなみに、マグニチュード地震のエネルギーの関係は

 \log_{10}{E} = 4.8 + 1.5M

と定義(?)されているらしい。この関係を考慮すると、地震の頻度とマグニチュードは指数分布に従う。

 

・余震の発生頻度

余震の発生頻度が、本震発生からの時間と反比例して減少する

余震の発生頻度D

時間幅T

としたとき

 D=D_0 (t/T)^{-1}

で近似できるそうだ(ただし、tが十分に大きい場合)。ちなみに、本震発生から一か月後の余震発生確率が、二か月後の2倍程度らしい

 

・株やその他の金融商品の、比較的大きい価格変化

変動率の分布のことなのか、それとも変動幅の絶対値の分布のことなのか、わからない(直接の出典は書籍「市場は物理法則で動く」の4章 地震と株式市場)。

市場における金融資産の価格変動は、その変動が比較的大きいものに限定すると、変動の大きさとその頻度の分布は、べき乗則に従うらしい。数分・一日・一週間といったスパンで共通してみられる傾向らしい。

ただ、1秒以下のタイムスパンでは、比較的大きい変動の大きさと頻度の分布は、べき乗則が示すよりもさらにファット・テイルらしいべき乗則の分布は正規分布と比べるとファット・テイル)

 

・戦争の数と死者数

 

・大企業の時価総額(未確認。対数正規分布の端のほうと考えるのと、どちらのほうがフィットするのか、調査中)

 

分布の背景にあるかもしれない構造の例

べき乗則で発生する出来事の共通点は、規模が違うだけで性質は同じ、ということ。地震発生のメカニズムはそのエネルギーの大小にかかわらず同じだし(詳しい人から怒られそうだけど、言いたいことは伝わると信じている)、株式の価格もそうだ。同じメカニズムで起こる以上、小さい地震がなくならない限り、大地震は頻度は低いものの必ず起こるものだし、株価の変動がなくならない限り、株の暴落は頻度は低いものの必ず起こりうる(株価に関しては政策当局の介入の余地があるので、”起こりうる”としか言えない)。

フラクタルやスケールフリーの構造が隠れていることがとても多い

結果が次の結果を生み出すというフィードバックループ(株価が暴落したのを見て、慌てて売り抜けようとするプレイヤーが続くと、株価がもっと下がる、みたいな)がよく見られる。

一定の確率pで規模を1+a倍(a>0)に拡大し、確率1-pで規模の拡大がストップする、というアルゴリズムが、べき乗則に従う分布を再現する

最初の規模を1とすると、

事象の規模の拡大がn回でストップする確率は

 (1-p)p^n

で、この時の事象の規模は(1+a)^n

事象の規模を横軸、その頻度を縦軸に取り、両対数グラフを書くと、

横軸は n\log{(1+a)}、縦軸は n\log{p} + \log{(1-p)}になる。 \log{(1+a)}>0, \log{p}< 0だから、 n=0,1,2,3,,,の点を打っていくと、線形の右肩下がりの分布が出来上がる。

試してみたら

Juliaコード

ヒストグラムの横軸は事象の規模の対数を表す。横軸=規模、縦軸=頻度の、両対数グラフに該当する。両対数グラフが線形で右肩下がりな様子から、分布がべき乗則に従っていることがわかる


 

指数分布

分布強度Dを変数xの関数D(x)で近似できて、

 \log{D_{(x)}} がxについて右肩下がりの一次関数で書かれるときD(x)は指数分布。

Dだけ対数スケールの方対数グラフを書いたときに線形になる分布。ガンマ分布のk=1のときでもある。

現実世界で指数分布に近い分布を示す実例

地震の発生頻度とそのマグニチュード(グーテンベルグ・リヒター則と呼ばれるらしい)

・時間に依存しない一定の確率で発生するイベントの、任意のイベントから次のイベントまでの時間

高所得者の所得分布

同位体の、任意の崩壊から次の崩壊までの時間間隔

 

分布の背景にあるかもしれない構造の例

次の瞬間に事象が発生する確率が、すべての時間で一定の時(ここ重要)、任意のイベントからその次のイベントまでの間の時間間隔は指数分布になる。理由の説明は、こちらの記事が素晴らしい。

manabitimes.jp

 

②一定の確率pで規模を+a(a>0)し、確率1-pで規模の拡大がストップする、というアルゴリズムが、指数分布を再現する

最初の規模を1とすると、

事象の規模の拡大がn回でストップする確率は

 (1-p)p^n

で、この時の事象の規模は an+1

事象の規模を横軸、その頻度を縦軸に取り、縦軸だけ対数スケールのグラフを書くと、

横軸はan+1、縦軸はn\log{p} + \log{(1-p)}になる。 a > 0,  \log{p} < 0だから、 n=0,1,2,3,,,の点を打っていくと、線形の右肩下がりの分布が出来上がる。

べき乗則と似ているが、べき乗則フィードバックループで何倍かになっていたのに対し、指数分布ではフィードバックループでいくらか足す。

試してみたら

Juliaコード

横軸が規模、縦軸が頻度を表すヒストグラム。縦軸だけを対数スケールにしている。線形で右肩下がりの頻度を示している様子から、指数分布であることがわかる

 

ポアソン分布

発生確率が時間によらない事象が、観測期間内に何度起こるかの期待値が、ポアソン分布になることが数学的に知られている*2。期間内で事象が十分に多く発生する場合、そのポアソン分布は正規分布に近似できる(離散分布を連続分布に近似って言ってることが無茶苦茶)ことが知られている。

発生確率が時間によらない事象は、任意の事象からその次に発生する事象までの時間間隔が指数分布に従う。指数分布とポアソン分布は同時に観測できるかもしれない

現実世界でポアソン分布に近い分布を示す実例

・観測期間に対して半減期が十分に大きい同位体の、観測期間内の崩壊の回数

分布の背景にあるかもしれない構造の例

・発生確率が時間によらない事象が、観測期間内に何度起こるのかをカウントしている場合

 

編集用メモ

・2023年8月23日現在、企業規模を表す指標(時価総額・売上・従業員数)がどのような分布を示すのか、調査中。いまのところ、対数正規分布べき乗則が有力候補。どちらもうまく当てはまらないかもしれない。もっとほかの分布がうまくはまるかもしれないし、もしそうだとしたらそれを再現できる構造を推定したい

・ガンマ分布の追加を検討

 

注釈

*1:イメージとしては、二項分布が正規分布に収束することの、倍率バージョン。

時間tで発生する事象の結果、Xがa(t)倍になるとする。a(t)は複数・無数の値をとる可能性がある。

A_{(t)} = a_{(0)} a_{(1)} a_{(2)},,, a_{(t)}

を用いて時間tにおける「資本」Xの量X(t)が書かれるとき、

X_{(t)} = A_{(t)} X_{(0)}

と書ける。このときXは対数正規分布を示す。

 A_{(t)} = a_{(0)} a_{(1)} a_{(2)},,, a_{(t)}の両辺対数をとって

 \ln{A_{(t)}} = \ln{a_{(0)}} + \ln{a_{(1)}} + \ln{a_{(2)}} + ,,,, \ln{a_{(t)}}

とし、 B_{(t)} = \ln{A_{(t)}}, b_{(t)} = \ln{a_{(t)}} とすると、正規分布の背景にあるかもしれない構造の例① と同じ感じ。うまく説明ができない。

*2:ここに証明を挿入する