統計と数学の雑記

回帰分析
久米・飯塚『シリーズ入門　統計的方法２　回帰分析』岩波書店、1987年
・回帰分析は、複数個の変数の間の関係を解析するための代表的な手法。特性と特性の量的関係をつかむ。
　目的変数をy、yの挙動を説明していると考えられるn個の変数を $x_{1},...,x_{n}$ と表す。回帰分析は
　 $y = {\eta}+{\epsilon} = f(x_{1},...x_{n})+{\epsilon}$
というモデルを想定する。yを目的変数あるいは従属変数、xiを説明変数あるいは独立変数、η(いーた)をyの期待値、εを誤差という。このとき、ηとxiの関数関係fを追求するのが回帰分析である。fがxiの一次式で表される場合、このモデルを重回帰モデルまたは線形回帰モデルという。独立変数がひとつの場合は単回帰などと呼ばれる。なお、ここでいう線形性は未知係数（未知母数・回帰母数）と誤差εに関してのものであり、関数fがxi^2など非線形の項を含んでいても分析は線形モデルと呼ばれる。
　回帰母数の文字の上に折れ線がついてたものが推定値。texでは\hat{\beta}のように書く。
・最小二乗法
　回帰母数の推定値に基づいて計算される目的変数の予測値と実測値との差を残差といい、これが小さいほうが予測として望ましい。そこで、p個のデータがn組ある統計における残差の二乗和 $S_{n}$ が最も小さくなるように回帰母数を定めるのが最小二乗法である。
　 $S_{n} = \displaystyle{\sum_{i=1}^{n}}(y_{i} - \hat{y_{i}})^2$
ここで $\hat{y_i}$ は
　 $\displaystyle{y_{i} = \hat{\beta_{0}} + \sum_{j=1}^{p}\hat{\beta_{j}}x_{ij}}$
である。
　 $S_n$ を最小とする $\hat{\beta_j}$ は、 $\hat{\beta_j}$ それぞれで $S_n$ を偏微分してゼロとおいて方程式の解として得られる。偏微分の式を書き下し、左辺が $\hat{\beta_j}$ を係数とする多項式で右辺が $\sum_{i=0}^{n}x_{ij}y_i$ の形になるようにj=0~pのp+1個の式を連立したものは、 $\hat{\beta_j}(j=0...p)$ に関する連立一次方程式であり、正規方程式と呼ばれる。
　ここまでで書くの面倒になった。

線形代数
・対称行列は直交行列によって対角化される。多項式としての二次形式
　 $f = ax^2 + 2bxy + y^2$
は、次のような係数行列とベクトルの内積として表せる
　 $f = ({\bf x}, A{\bf x})$
ここで ${\bf x} = (x, y)$ であり、 $A$ は、
　 $A = \begin{pmatrix}a & b \\ b & c \end{pmatrix}$
の対称行列である。以下、行列の大きさは限定しない。この対称行列を直交行列で対角化する。面倒なので数式を使わないで書く。まず対称行列の固有値を求めて、対応する固有ベクトルを求めて（正規化しておく）、その固有ベクトルを列要素とする行列を作る。
　固有ベクトルを求めるさい、単純固有値にについては固有ベクトルを正規化するだけでよいが、重複固有値がある場合は、まず線形独立となるように複数求めておいてから、単純固有値に対応する固有ベクトルに従ってグラム・シュミットの直交化法を用いる。一方からもう一方への正射影ベクトルと差をとって直交するベクトル出して正規化する方法（がりがり計算すればいいだけ）。この操作ののち、固有ベクトルは正規直交系となる。
・直交行列をUとすると、
　 $U^{T}AU = \Lambda$
とするのが対角化。
　 $A = U{\Lambda}U^{T}$
とするのがスペクトル分解あるいは固有値分解。
・二次形式は変数変換によって変数の二乗の和に直すことができる。このときの係数は係数行列Aの固有値であり、変数変換の行列は単位固有ベクトルの正規直交系から得られる。
　 $({\bf x}, A{\bf x}) = ({\bf x}, U{\Lambda}U^{T}{\bf x})$
となることから、変数の変換を
　 ${\bf x'} = U^{T}{\bf x}$
と置くことにすると、
　 $({\bf x}, A{\bf x}) \\ = {\bf x}^{T}U{\Lambda}U^{T}{\bf x} \\ = {\bf x}^{T}U{\Lambda}{\bf x'} \\ = (U^{T}{\bf x})^{T}{\Lambda}{\bf x'} \\ = {\bf x'}^{T}{\Lambda}{\bf x'}$
と変形できる。これは固有値を係数にもつ二乗和であり、二次形式の標準形と呼ばれる。また、直交行列での線形変換は変数の内積が維持される。これはUが直交行列であるため $UU^{T}=I$ になるからで、
　　 $({\bf x'}, {\bf x'}) \\ = {\bf x'}^{T}{\bf x'} \\ = (U^{T}{\bf x})^{T}U^{T}{\bf x} \\ = {\bf x}^{T}UU^{T}{\bf x} \\ = {\bf x}^{T}{\bf x}\\ = ({\bf x}, {\bf x})$
という式変形によって示される。