データサイエンス

Rで時系列分析の簡単なまとめ
Aug 16, 2018 / Mar 3, 2026 · 3 分で読了 · R 時系列分析データサイエンス ·
共有する:
時系列のアプローチ単系列ざっと見る定常性の確認 ARIMA/SARIMAモデルをあてはめる複数系列の関係→VAR（ベクトル自己回帰）モデルその他の変数がある（時系列＋回帰）→状態空間モデル（単なるラグ変数回帰→目的変数自体の時系列性が反映されない）ライブラリ{forecast}を使う以下、データはy.tsとする時系列のデータ形式時系列データにはいくつかの形式がある。 ts: Rの基本の時系列オブジェクト。ほとんどの時系列ライブラリはこの形式の時系列データを扱う xts: データフレームとtsの間に位置づけられる、時系列データを便利に扱えるようにした形式 zoo: データフレームとxtsの間の形式われわれが一般的 …

続きを読む
機械学習の種類と特徴、ビジネスにおけるデータ分析の意味
Jan 23, 2017 / Mar 2, 2026 · 2 分で読了 · 機械学習データサイエンスビジネス ·
共有する:
機械学習「明示的にプログラムしなくても学習する能力をコンピュータに与えること」つまり1から10までをプログラムしなくても、与えられたデータに基づいてコンピュータが学習し、賢くなっていくようにすることである。具体的には適切な分類、予測、レコメンド、異常検知を行う。また複数の選択肢から適切な選択を行わせるものもある。学習の仕方による分類教師あり学習材料のデータと答えのデータを与えることで、正解率を高めていくものである。さまざまな要因のデータと、それに基づいて実際に発生した結果のデータがあって、要因から結果を分類／予測するケース。ここでは結果が教師データになる。たとえばEメールの本文テキストがあって、それがスパムかどうか判断す …

続きを読む
Rでクラスター分析〜距離行列の生成からクラスタリングまで
Dec 11, 2017 · 5 分で読了 · R クラスター分析データサイエンス ·
共有する:
クラスター分析は距離行列の生成（類似度行列ではない！）クラスタリングの実行という流れになる。それぞれのステップで、採用する距離の種類クラスタリングの方法がチューニング変数となる。この順に手順を見ていく。行数、列数の多いビッグデータ向きのデータ形式であるMatrixパッケージに対応した距離行列についても説明する。距離行列を生成する類似度行列ではなく距離行列を作る。similarityではなくdistanceを作る。直感的にはデータから距離の指標（どれだけ離れているか）ではなく類似度（どれだけ近いか）の指標を抽出し、そこからクラスタリングしたいケースが多いのだが、あくまで類似度指標に基づいた距離行列を生成するので …

続きを読む
回帰分析とその派生手法、数理モデリング、発展的な統計解析手法
Jan 31, 2017 · 2 分で読了 · 回帰分析統計学データサイエンス ·
共有する:
いわゆる回帰分析に代表される数理モデリングとその種類を説明していく。数理モデリング数理モデリングの考え方因果関係を定量化「Xという要因→Yという結果」という関係を $$Y=a+bX$$ で表す。 X＝説明変数（独立変数） Y＝被説明変数（従属変数、目的変数）いわゆる「回帰分析」である。目的因果関係とインパクトの大きさの特定予測モデリングの手続きモデル式の選択（単回帰、ロジット、…）従属変数の特徴（分布の形状、ばらつき方）によって適切なモデルを選択するパラメータの推定さまざまな推定法がある（最尤法、最小二乗法）そのモデルでいいか検証あてはまりのよさ（fit）決定係数 AIC 残差の評価（独立性、正規性、 …

続きを読む
データ分析の目的、考え方、フレームワークと統計
Jan 20, 2017 · 2 分で読了 · 統計学データサイエンス分析手法 ·
共有する:
データ分析の考え方データに基づいて意思決定をすることは、もはやビジネスの前提となった。 AIがデータ分析のワークフローを大きく変えつつある今だからこそ、その土台となる「考え方」を正しく理解しておくことが重要である。データ分析がビジネスの課題を何でも解決してくれるのだろうか？データ分析には役割と守備範囲、正しい手法というものが決まっている。間違った使い方をすると間違ったインサイトを導き出すことになる。何でもデータ分析が解決してくれるわけではなく、データ分析の守備範囲とそうでない部分は峻別しなければならない。データ分析を正しく理解して実務に役立てていくために実務上、最低限抑えておけばいいところをまとめていく。そもそもデータ …

続きを読む