-
確率分布 これまで「分布」という言葉が何度も出てきたが、この「分布」とは確率分布のことを指している。ここでは具体的なさまざまな確率分布を紹介する。 まず確率分布の定義であるが、確率分布とは、確率変数の各々の値に対する、その生起しやすさをプロットしたものである。そして確率変数とは、確率的に取る値が変わる変数を指す。 発生する事象が確率的に変化するものを想像しよう。その生起しやすさを表すのが確率分布である。 厳密な議論は省略してどのような事象があてはまるか、分布に対するイメージがわかることを目的とする。 離散型確率分布 ベルヌーイ分布 1回の試行で表が出るか裏が出るか 一か八か 成功確率 p の事象が1回の試行で成功するかどうか 期 …
続きを読む -
Javascriptで正規分布の乱数発生(rnorm)、確率密度関数(dnorm)、累積分布関数(pnorm)、累積分布の逆関数(qnorm)を実装する。すべて標準正規分布を想定。 Javascriptに限らず使えるアルゴリズムだが、日本語でまとまっている情報があまりないのと、ブラウザ上でA/Bテストなど有意性をみる検定などできたら面白いということでJSでやってみる。 なお、実務で手軽に使いたい場合は stdlib-js や jStat といったライブラリも検討するとよい。本記事はアルゴリズムの中身を理解する目的で、ライブラリを使わずスクラッチで実装する。 正規乱数の生成(rnorm) 1行でBox-Muller法で。 …
続きを読む -
一般化線形モデル(GLM)は統計解析のフレームワークとしてとにかく便利。Rでもビルトインの関数から拡張までさまざまなライブラリから提供されている機能だが、さまざまなライブラリがありすぎてどれを使えばいいのかわかりにくいのと、さらに一般化線形モデル(GLM)自体にもいろいろな亜種があるため、どの手法をどのライブラリの関数で実装すればいいかわからなくなる。 そこでRに実装されている代表的なGLM系の関数と特徴についてまとめてみた。 一般化線形モデルのおさらい 一般化線形モデルとは $$ y = g^{-1}(\alpha + \beta_1 x_1 + \beta_2 x_2 + … + \beta_i x_i) + \epsilon …
続きを読む -
いわゆる回帰分析に代表される数理モデリングとその種類を説明していく。 数理モデリング 数理モデリングの考え方 因果関係を定量化 「Xという要因→Yという結果」という関係を Y=a+bX で表す。 X=説明変数(独立変数) Y=被説明変数(従属変数、目的変数) いわゆる「回帰分析」である。 目的 因果関係とインパクトの大きさの特定 予測 モデリングの手続き モデル式の選択(単回帰、ロジット、…) 従属変数の特徴(分布の形状、ばらつき方)によって適切なモデルを選択する パラメータの推定 さまざまな推定法がある(最尤法、最小二乗法) そのモデルでいいか検証 あてはまりのよさ(fit) 決定係数 AIC 残差の評価(独立性、正規性、 …
続きを読む -
分析手法 目的とデータの性質に基づいて手法を選択 目的 違いがあるか知りたい=A/Bテスト (因果)関係を知りたい=何が効くかを知りたい 予測 分類 従属変数があって、それを分類するもの(クラス分類) 独立変数のみで、似ているものをまとめるもの(クラスタリング) レコメンド データの性質(手法の前提条件) 離散か連続か 正規性 等分散性 従属変数の分布の形状 http://readingmonkey.blog45.fc2.com/blog-entry-262.html 仮説検定 仮説検定とは? 基本的に比較するための方法 「A/Bテスト」→理論的に正確な手順がある。 ※比較する対象は2つ。3つ以上だと別の手法を用いることになる 仮説 …
続きを読む -
記述統計 統計の手法には記述統計と推測統計があると説明したが、ここでは記述統計の話。記述統計の考え方を通じて、より進んだデータの見方を学んでいく。 記述統計とは 記述統計とはすべてのデータを見て正しく全容を把握・認識するための方法論・作法。 全てのデータを見るのでデータマイニング的なアプローチ。 仮説ありきではないので、記述統計の方法だけではデータの組み合わせが膨大だと有効な知見を得るに至らないこともある。 後でどんな手法を使う際にも、それは推測統計や機械学習の手法を使う場合であっても、データを見るという観点ですべての基本の考え方になる。 データの種類 データは特徴によって分類される。 種類によってデータ加工方法から分析手法も変わっ …
続きを読む -
データ分析の考え方 データに基づいて意思決定をすることは、もはやビジネスの前提となった。 AIがデータ分析のワークフローを大きく変えつつある今だからこそ、その土台となる「考え方」を正しく理解しておくことが重要である。 データ分析がビジネスの課題を何でも解決してくれるのだろうか? データ分析には役割と守備範囲、正しい手法というものが決まっている。 間違った使い方をすると間違ったインサイトを導き出すことになる。 何でもデータ分析が解決してくれるわけではなく、データ分析の守備範囲とそうでない部分は峻別しなければならない。 データ分析を正しく理解して実務に役立てていくために実務上、最低限抑えておけばいいところをまとめていく。 そもそもデータ …
続きを読む