
BIツールの基本構造 はじめに 昨今のダッシュボードブーム・BIブームの中で、さまざまなダッシュボードが作られている。項目やフィルタを選択して深掘りできる分析寄りのダッシュボードもあれば、エグゼクティブが数字をさっと確認するだけのシンプルなダッシュボードもある。それらをすべて「ダッシュボード」と呼ぶかどうかの議論はさておき、ダッシュボードを構築するツール(BIツール)もまた数多く存在している。 ただし、BIツールは数あれど基本的な構成はどれも同じである。この基本構造を押さえておけば、新しいBIツールを扱うことになっても学習にスムーズに入っていける。 ダッシュボード ├── ウィジェット │ ├── ディメンション × 指標 │ │ …
続きを読む
LLMタスク分類ツリー LLM(大規模言語モデル)に依頼できるタスクを体系的に分類したガイドだ。タスクの性質ごとに章を分け、それぞれの難易度・必要な推論レベル・推奨モデル・注意点・具体例を示している。自分がやりたいことがどのカテゴリに属するかを把握することで、最適なモデル選びやプロンプト設計に役立てることができる。 なぜこの分類が重要か LLMを使いこなすうえで、タスクの性質を正確に把握することはモデル選択・プロンプト設計・ツール組み合わせのすべてに影響する、基礎的な判断である。 コストと品質のトレードオフという観点では、フォーマット変換のような軽量タスクに最高性能モデルを充てるのはコストの無駄であり、逆に多段階推論が必要な論理パズ …
続きを読む非機能要件の定番であるIPAの非機能要件グレード。公式ではExcelファイルで非機能要件の階層構造を説明しているが、親子関係を直感的に把握しにくい。そこでマインドマップ的に表現した。 大分類 %%{init: { 'flowchart': { 'nodeSpacing': 50, 'rankSpacing': 70, 'curve': 'basis' } } }%% graph LR %% ルートノード R["非機能要件"] %% 大分類 R –> A["可用性"] R –> B["性能・拡張性"] R –> C["運用・保守性"] R –> D["移行性"] R –> E["セキュリティ"] R –> F["システム環 …
続きを読む
データの前処理において重要となるカテゴリ変数の扱い。高度なTipsを紹介する。 水準数を減らす 機械学習タスクの場合、水準数を削減することも重要。特にダミーコーディング(One-Hot Coding)では水準数がほぼカラム数になり、計算負荷の原因になるケースがある。 たとえば出現頻度がレアな水準はまとめて「その他」にするなどの方法があるが、目的変数に対する影響の大きい重要な水準は削除してはならない。精度を落とさぬよう、効率的に水準数を減らすことが重要になる。 水準の選び方としては、目的変数に対する情報量に着目するといい。関心対象のカテゴリ変数だけをダミーコーディングで説明変数にしたツリー系のモデルを作り、重要度上位N個の変数(水準) …
続きを読む
最近増えているSPA、SSR、SSGとは何か 最近ではSPA(シングルページアプリケーション)、SSR(サーバサイドレンダリング)などといったウェブページの表示の仕組みを採用するサイトが増えている。これらのページではウェブ解析ツールの計測タグや広告のリマーケティングタグなどが正しく動作しないことがある。SPAの仲間にはSSR、SSGがあるが、これらの共通点はSPA内でのページの遷移時にページの読み込み処理(ロード)が行われない点である。 これらのページではページを最初に表示するときにだけ読み込み処理が行われる。そこでページのアセット(画像やJavaScriptのファイル)がまとめて読み込まれる。その後のページの切り替わり時にはページ …
続きを読む
最近では機械学習の計算のためにLinuxマシンを構築しては消し、を繰り返すことが多い。サーバの構築と消去が柔軟に可能なことからもEC2やGCEなどクラウドのインスタンスをよく使うということも影響している。 この記事では一般的なサーバ構築の記事では紹介されていない、クラウドのインスタンスで意外と盲点になる点を中心に、機械学習の計算用サーバとして安定した運用をするために最低限必要な設定をまとめた。 GPUドライバ(CUDA、cuDNN)やコンテナランタイム(Docker/NVIDIA Container Toolkit)の設定は別途必要となる。 Linuxで最初にやっておくべき設定 Amazon EC2やGoogle Compute …
続きを読む
2種類のBigQueryエクスポート GA4のBigQueryエクスポートデータには以下の2種類がある。 イベントデータ ユーザーデータ ユーザーデータは1行1人で、user_pseudo_id単位で集約したデータと、user_id単位で集約したデータのそれぞれのテーブルが生成される。 所属するオーディエンスの情報やユーザ(user_pseudo_id / user_id)単位の通算指標が含まれる。 分析によく使うのがイベントデータで、1行1イベントでイベントパラメータなどがネストされて含まれている。 エクスポートの頻度 イベントデータの出力頻度は以下の3種類がある。 ストリーミング=リアルタイム。重複や使えない列あり(トラフィック …
続きを読む
GA4(Firebase)のログを扱う際、ネストされているイベントパラメータやユーザープロパティをフラット化しないと使いにくい。ところが格納されているパラメータやプロパティは決まっているわけではないため、通常はそれをハードコーディングで指定することが多い。つまり使用しているパラメータやプロパティに応じてその都度クエリを手動作成することになる。 しかしそれでは面倒なので、どんなイベントパラメータやユーザープロパティを使っていても、それがどんな型であっても、オールマイティにフラット化するクエリを作る。存在するパラメータやプロパティに基づいて動的にクエリを作って実行する。このクエリひとつあればどんなケースにも対応できる、汎用的なものである …
続きを読む
- GCPのIAMポリシー(権限設定) GCPにおける階層と言葉の定義 組織 (フォルダ) プロジェクト 各種リソース Cloud Storage BigQuery Compute Engine
- プロジェクトとリソースを中心に考える。 フォルダや組織はプロジェクトを便宜的に束ねるもの。フォルダや組織は設定しなくてもいい →後述するが、組織/プロジェクト/リソース単位で権限設定ができる アカウント アカウントには2種類 ユーザーアカウント Googleのログイン画面からログインできるアカウント 人間ユーザ。異動や退職とともにアカウントがなくなるケースも想定する必要がある 一部のGoogleアカウントではアカウント単位のコストが発生する …
続きを読む一般化線形モデル(GLM)は統計解析のフレームワークとしてとにかく便利。Rでもビルトインの関数から拡張までさまざまなライブラリから提供されている機能だが、さまざまなライブラリがありすぎてどれを使えばいいのかわかりにくいのと、さらに一般化線形モデル(GLM)自体にもいろいろな亜種があるため、どの手法をどのライブラリの関数で実装すればいいかわからなくなる。 そこでRに実装されている代表的なGLM系の関数と特徴についてまとめてみた。 一般化線形モデルのおさらい 一般化線形モデルとは $$ y = g^{-1}(\alpha + \beta_1 x_1 + \beta_2 x_2 + … + \beta_i x_i) + \epsilon …
続きを読む