数学雑記

エントロピーは情報量の期待値。複数のノードの遷移で表現される情報源のエントロピーは、各ノードの定常確率にそのノードからの遷移のエントロピーをかけあわせて合計する。定常確率は漸化式をn→∞で一定値にして合計1との条件でさっさと出す。

・たまに区分求積の存在を忘れるのでちゃんと思い出すこと。

・何日か前に書いた微分方程式、もっと簡単に解けたらしい(そりゃそうだ)。
 f*(ddf/dtdt) - (df/dt)^2 - 8f^2 = 0
f^2で両辺を割ると
 {f(ddf/dtdt) - (df/dt)^2}/(f^2) = 8
これみたことある形だなぁ……って言って積分すると(商の微分の形なんだよね)
 (df/dt)/f = 8t + C
移行して変数分離っぽいから
 log(f) = 4t^2 + Ct
logを開いて平方完成(久しぶりに概念を思い出した)してtをまとめる
 f(t) = exp{(2t+A)^2 + B}
あとは初期条件入れてAB解決して終わり。
なんだ簡単じゃん……。おそらくコツは「微分方程式でのスタンダードな解決が難しそうな形だったら高校程度の既知の微分公式が当てはまらないか考えてみる」って感じだろうか。

写像は「始域の任意の要素についてマッピングが存在する」ことと「各要素は終域の唯一の要素に写される」ことを念頭に考えないと頭が悪くなる。合成写像については、まず経由は無視して始域と終域にたいして単射なり全射なりが成り立つというところから考え始める。くどいかもしれないけどきちんと集合を図にして考えたほうがミスが少ない。

・ざっくりいうと、集合は要素の数とその長さが多いほど濃度が大きい。
10,0,0,0,... < 5,6,0,0,0,... < 1,2,3,...,k,0,0,0, < 1,0,1,0,1,0,...
ただしkは有限の値。でも濃度の概念はよくわからない。この問題は整数の数列全体からなる集合の部分集合について……って言ってるので、これを集合で考えるなら濃度は明らかに3項目が一番大きくなりそうだし、数列として全てを違う項とみなすなら濃度はすべて整数と同じになるはずだ。ただ、順序数という概念を厳密に考えるなら、数列の隣接した2項(x,y)について、関係fをx=yでない場合にのみ(x,y)∈fとなるように定めるとすれば、1項目の順序数(基数、すなわちここでいう濃度)は2、2項目は3、3項目はk+1、4項目は可算無限ということになるから、うまく説明できる。でも厳密な理解はよくわからないな。選択肢うまく選ぶしかない。
自然数と整数と有理数は濃度が同じ。濃度が同じことは集合Aと集合Bについて全単射が存在することで定義できる。自然数と整数のマッピングはできるし、有理数についても分数を構成する整数についてマッピングを考えれば可能。実数の濃度は区間[0,1]の全実数の濃度と同じ。
Ordinal number - Wikipedia, the free encyclopedia見てみたら格好良い図があってそれだけでも見た価値があった。どうして日本語のページにはないのだろう。
cardinal number = 基数
ordinal numver = 順序数
たまに思うのだけどwikipediaで英語のページは充実してるのに日本語のページがない項の多さに辟易とするというか、日本ってよく考えるとアカデミックに関わる人口が諸外国と比べて少ないくせに独自言語使うじゃないですか。だから専門になるにつれ日本語の資料って格段に減ってくわけで。もっともそこまでくると母語ではなく英語でやらないと世界レベルの公共性を持てないわけですが。
順序数について調べると小学一年生に数の概念をどう教えるかって資料が見つかって面白い。

確率密度関数について。考える問題は、

ある母集団の分布が確率密度関数
f(x)=e^(-x) (if x>0) or 0 (otherwise)
をもつ。この母集団から標本X_k (k=1~n)が得られたとき、この中の最大値Uと最小値Vの同時密度関数はg(u,v)(u>=v>0)は
g(u,v)=n(n-1) * {e^(-v)-e^(-u)}^(n-2) * e^(-(u+v))
となることを示せ。

にする。よくわからんからうんうん考えていた。おかしくならないように考え方を書いてみる。
今回の場合、最大値と最小値は勝手に決まってしまうが、これをうまく考えるには、やっぱり個別の事象に分解して確率を求めようとするのがよい。
事象としては、「全標本のうち2つの特定の標本X_i,X_jの値a,b(これがu,vなのだけど)に対して、他のすべての標本の値がaからbの値の範囲に収まる」がまず特定したいこと。
まず特定の標本X_i,X_jがそれぞれ値u,vを持つので、同時密度関数に与えるための微小確率(と便宜的に呼ぶ、感覚は区分求積における微小区間の積分値)はそれぞれ
f(u),f(v)
である。
つぎに他の全ての標本がu,vに収まる確率の式を書いてみる。まず標本1つについての確率は、
∫[u,v]f(x)dx = {-e^(-v)} - {e^(-u)} = e^(-u) - e^(-v)
であり、標本の数はn-2個なので、これら全てについての確率は
{e^(-u)-e^(-v)}^(n-2) (a)
である。この(a)は「全標本のうち2つの特定の標本X_i,X_jの値u,vに対して、他のすべての標本の値がuからvの値の範囲に収まる」確率を表す。この確率はn個の標本から2つを取り出している事象についての話なので、最終的にはさらに場合の数として(a)の確率をn(n-1)倍する必要がある。これを忘れないこと。
ここまで全てが成り立つのでかけあわせて、
g(u,v) = n(n-1) * {e^(-u)-e^(-v)}^(n-2) * e^(-(u+v))
が答え。

やっぱり同時密度関数がよくわからない。形式的に考えよう。
何がわからないって、連続関数による分布についての話をしているから直観的に把握しにくいのだ。確率変数が連続関数に従うとき、確率変数が特定の値をとるときの確率を求めることは定義上できない(先に書いたように、微小確率として記述することは可能)。確率の値として算出するためには、範囲を定めて積分しないといけない(というかここは微分として拡張すればいい気がするけど)。つまり連続的な確率分布関数において
「2変数(x,y)が特定の値(s,t)をとる確率」
ではなく、
「2変数(x,y)が特定の値(s,t)に対して{(x,y) | x<=s, y=y]∫[x=-inf->x]f(x,y)dxdy
を満たす関数f(x,y)として定義される。具体的な事例における導出は、確率変数X,Yが従う分布から導出することになる。上に挙げた問題の例を一般化して考えて日本語で記述してみると、
確率変数X,Yの分布関数fx(x),fy(y)に対して、
同時密度関数fxy(x,y) = fx(x) * fy(y) * x,yについての条件が満たされる確率
ということになる。ここで、x,yが同一の分布に従うときはfx=fy。
どうでもいいけどやっぱり連続関数の確率は区分求積法あたりから定義しなおして、微小区間における確率を演算子にして考えたほうがいい気がする。いや、実際はあるけど私がまだ知らない、というのが大いにありうるから適当なことを言ってはいけないような気がする。
 もうひとつ備忘録として。確率変数X,Yの同時密度関数fxy(x,y)が与えられたとき、X,Yが特定の条件を満たすときの確率は、その条件を満たすようにx,yの範囲を定めてfxyを積分すればよい。