回帰分析 on Marketechlabo

回帰分析 on Marketechlabohttps://www.marketechlabo.com/tags/regression-analysis/Recent content in 回帰分析 on MarketechlaboHugo -- gohugo.ioja-jpTue, 31 Jan 2017 00:00:00 +0900回帰分析とその派生手法、数理モデリング、発展的な統計解析手法https://www.marketechlabo.com/statistics-analysis/regression-modeling/Tue, 31 Jan 2017 00:00:00 +0900https://www.marketechlabo.com/statistics-analysis/regression-modeling/ <p>いわゆる回帰分析に代表される数理モデリングとその種類を説明していく。</p> <h2 id="数理モデリング">数理モデリング</h2> <h3 id="数理モデリングの考え方">数理モデリングの考え方</h3> <p>因果関係を定量化「Xという要因→Yという結果」という関係を $$Y=a+bX$$ で表す。</p> <ul> <li>X＝説明変数（独立変数）</li> <li>Y＝被説明変数（従属変数、目的変数）</li> </ul> <p>いわゆる「回帰分析」である。</p> <h4 id="目的">目的</h4> <ul> <li>因果関係とインパクトの大きさの特定</li> <li>予測</li> </ul> <h4 id="モデリングの手続き">モデリングの手続き</h4> <ol> <li>モデル式の選択（単回帰、ロジット、…）従属変数の特徴（分布の形状、ばらつき方）によって適切なモデルを選択する</li> <li>パラメータの推定さまざまな推定法がある（最尤法、最小二乗法）</li> <li>そのモデルでいいか検証 <ul> <li>あてはまりのよさ（fit） <ul> <li>決定係数</li> <li>AIC</li> </ul> </li> <li>残差の評価（独立性、正規性、等分散性、線形性） <ul> <li>予測値 vs 残差</li> <li>正規QQプロット</li> </ul> </li> <li>外れ値の評価 <ul> <li>てこ比</li> <li>Cookの距離</li> </ul> </li> <li>バリデーション（検証用データで予測精度を見る）</li> <li>その他（Profit / Lossなど）</li> </ul> </li> <li>モデルを選択ダメな場合、変数の出し入れや変数変換を試す</li> </ol> <h4 id="よく出てくる問題">よく出てくる問題</h4> <ul> <li>変数が多すぎる→どう縮約するか</li> <li>過学習⇔凡化性能</li> <li>sparse data（ゼロが多い隙間だらけのデータ）</li> </ul> <h3 id="線形回帰モデル">線形回帰モデル</h3> <p>最もシンプルな回帰分析 $$y = a + b_1 x_1 + b_2 x_2 + \cdots + u$$</p> <ul> <li>$a$：説明変数によらない確定的な影響度</li> <li>$b$：説明変数の影響力の大きさ →これらが回帰係数</li> <li>$u$：誤差項</li> </ul> <h4 id="推定法">推定法</h4> <p>最小二乗法</p> <h4 id="見るべきポイント">見るべきポイント</h4> <ul> <li>因果の意味</li> <li>回帰係数（パラメータ）</li> <li>決定係数：回帰式の説明力の大きさ</li> <li>そもそもモデルが妥当かどうか</li> <li>残差（ばらつき、偏り）</li> <li>多重共線性（説明変数間の相関）の有無</li> </ul> <h3 id="一般化線形モデルglmgeneralized-linear-model">一般化線形モデル（GLM＝Generalized Linear Model）</h3> <p>線形回帰の一般形。線形回帰モデルは従属変数が正規分布という前提があるが、さまざまな分布の従属変数に拡張した回帰の手法になる。 $$y = a + b_1 x_1 + b_2 x_2 + \cdots + u$$</p>