比較のための統計解析手法~さまざまな仮説検定から分散分析、多重比較

この記事は連載「データ分析手法」の全 2 ページ中 1 ページ目です。

分析手法 目的とデータの性質に基づいて手法を選択 目的 違いがあるか知りたい=A/Bテスト (因果)関係を知りたい=何が効くかを知りたい 予測 分類 従属変数があって、それを分類するもの(クラス分類) 独立変数のみで、似ているものをまとめるもの(クラスタリング) レコメンド データの性質(手法の前提条件) 離散か連続か 正規性 等分散性 従属変数の分布の形状 http://readingmonkey.blog45.fc2.com/blog-entry-262.html 仮説検定 仮説検定とは? 基本的に比較するための方法 「A/Bテスト」→理論的に正確な手順がある。 ※比較する対象は2つ。3つ以上だと別の手法を用いることになる 仮説検定の考え方 「ある仮説が正しいと仮定したとき、この事象が発生するのは発生するのはあり得ないくらいレア。だからその仮説は間違っている」 (例)「バナーAとバナーBのクリック率が同じと仮定したとき…」=帰無仮説 「あり得ない」=5%。この値をp値という 「間違っている」と判断すること=棄却する 帰無仮説の意味 仮説は間違っていることを前提に立てられる 「ある仮説が正しいと仮定したとき、この事象より極端な事象が発生するのは20%程度。レア度=20%ということで、そこまでレアではない」 このような場合には帰無仮説は棄却されない。だからといってその仮説は正しいの…

Continue reading →

回帰分析とその派生手法、数理モデリング、発展的な統計解析手法

この記事は連載「データ分析手法」の全 2 ページ中 2 ページ目です。

いわゆる回帰分析に代表される数理モデリングとその種類を説明していく。 数理モデリング 数理モデリングの考え方 因果関係を定量化 「Xという要因→Yという結果」という関係を $$Y=a+bX$$ で表す。 X=説明変数(独立変数) Y=被説明変数(従属変数、目的変数) いわゆる「回帰分析」である。 目的 因果関係とインパクトの大きさの特定 予測 モデリングの手続き モデル式の選択(単回帰、ロジット、…) 従属変数の特徴(分布の形状、ばらつき方)によって適切なモデルを選択する パラメータの推定 さまざまな推定法がある(最尤法、最小二乗法) そのモデルでいいか検証 あてはまりのよさ(fit) 決定係数 AIC 残差の評価(独立性、正規性、等分散性、線形性) 予測値 vs 残差 正規QQプロット 外れ値の評価 てこ比 Cookの距離 バリデーション(検証用データで予測精度を見る) その他(Profit / Lossなど) モデルを選択 ダメな場合、変数の出し入れや変数変換を試す よく出てくる問題 変数が多すぎる→どう縮約するか 過学習⇔凡化性能 sparse data(ゼロが多い隙間だらけのデータ) 線形回帰モデル 最もシンプルな回帰分析 $$y = a + b_1 x_1 + b_2 x_2 + \cdots + u$$ $a$:説明変数によらない確定的な影響度 $b$:説明変数の影響力…

Continue reading →