無料ではじめる dbt 入門 (1) | dbt とは

データ分析の現場では、大量のSQLクエリを書いてデータを整形・集計し、BI ダッシュボードやレポートを作り上げるのが日常です。しかし、プロジェクトが進むにつれて

  • 似たようなSQLクエリがあちこちに散在し、変更時にすべて追いかけるのが大変
  • 「昨日動いていたはずなのに今日はエラー」が頻発し、原因調査に時間を取られる
  • 最終的にどの順序でデータを生成しているのか把握しづらくなる

といった問題に直面しがちです。これらはどれも、SQLクエリの “属人化” や “ブラックボックス化” を象徴する事象です。そこで登場するのが、dbt(data build tool)というフレームワークです。

スポンサーリンク

dbtの登場:SQLクエリ開発を飛躍的に高度化

dbt は ソフトウェアの開発手法を SQLクエリ開発 に適用するためのツールです。

ソフトウェア開発には Git などの様々なツール整備され、その効率や品質は飛躍的に上がってきています。

これまで SQLクエリ はデータベース上に存在するなどの理由からこれらのツールの活用が困難でした。

しかし、dbt の登場によりこれが可能となったのです。具体的には、

  1. Git によるバージョン管理
  2. CI/CD連携
  3. テスト自動生成と実行
  4. ドキュメント自動生成
  5. SQLクエリの依存関係の可視化

をひとまとめにし、従来バラバラだった「SQLクエリ開発」→「テスト」→「デプロイ」の流れを一貫したプロセスとして提供します。

たとえば「新しいビジネス要件でカラムが追加された」という変更が発生しても、該当SQLクエリのテストが自動的に再実行され、問題なければ本番環境に安全にリリースできる。こんなサイクルを、dbtは標準機能で実現します。

(Tips)初心者を混乱させる専門用語たち

dbt 関連の記事では専門家が様々な専門用語を利用していて、初心者は混乱してしまいます。ここでこれらの専門用語を解説しておきたいと思います。

「SQLクエリ」 と同義の用語

「SQLクエリ」とは select * from Sales のようなデータベース で実行する SQL言語によるコマンド のことです。

英語 QueryQuestion と同じように「質問」「問い合わせ」の意味があり、データベースに「問い合わせ」てデータを取得するという意味合いです。

専門家たちの間では SQLクエリ とほぼ同じ意味で以下のような用語が使われています。

  • モデル
  • データ変換
  • トランスフォーム
  • パイプライン

同じ記事の中でも用語が統一されておらず理解しにくい場面がが良くあります。しかし、これらがほぼ同じ意味であることを知っておけば混乱せずに済みます。

この記事では分かり易いようになるべく用語は「SQLクエリ」に統一して記述します。

CI/CD | Continuous Integration & Continuous Deployment

直訳すると「継続的インテグレーション」と「継続的デプロイ」ですが、これでは良く分かりません。

インテグレーション とは「全体を整える」意味で、チームの誰かが一部の変更を加えたものを全体に取り込んでテストを実行し、完全な状態を保つことです。

デプロイ は「届ける」意味で、開発したものを利用者に届けることです。

これを 「継続的」 に人が毎回手作業でやるのは作業量が多くなってしまい現実的ではありません。

しかし、ソフトウェアにこれを実行させることで人は手を掛けずに「継続的」に「全体を整え」て開発したものを「お届け」できるのです。

dbt は CI/CD と相性が良く、CI/CD のツールである GitHub Action や Jenkins などと連携させて活用されています。

dbtの思想:ソフトウェア開発のベストプラクティス

dbtが重視するのは、単なる“機能”ではなく、“どのように開発を進めるか” というプロセスそのものです。主なポイントは以下のとおり。

宣言的(Declarative)

各SQLクエリは「最終的にこういうデータを作りたい」というSQLを宣言(記述)するだけで良く、いちいち CREATE TABLE や CREATE VIEW などのコマンドを記述する必要がありません。

ユーザが宣言(記述)した SQLクエリ を基に dbt が自動的にテーブルやビューを作成してくれるのです。

DRY(Don’t Repeat Yourself)

dbt では 大量のSQLクエリを効率的に管理ができるので、共通的に利用できるSQLクエリは気軽に分離して単独で管理することができます。

これにより、SQLクエリの再利用が進み同じようなクエリの作成を無くすことができます。。

また、dbt のマクロ機能を活用することで、多くの SQLクエリ 内の同じ記述をマクロに定義して再利用することも可能です。

これにより SQLクエリ の間で重複したものを減らすことができ、開発効率を上げることができます。

自動テスト

null 禁止(not null)一意制約(Unique) など、期待値をSQLで定義し、dbt test で一括実行して品質をチェックすることができます。

これにより安定的に確保された品質の上にSQLクエリ開発を積み上げていくことができるのです。

プロジェクトが大きくなると人の目では端々までチェックが行き届かなくなりますが、dbt がこれを自動で行ってくれるのです。

ドキュメント生成

カラム説明やテーブルの関係図を自動でHTML化し、チーム全員で共有可能。

これらは「ソフトウェア開発で当たり前に使われるプラクティス」をそのままSQLクエリ開発に応用したもので、結果として「作った本人しかメンテできないSQLクエリ」から脱却し、「誰でも読めて、誰でも修正できるSQLクエリ」へと環境を進化させます。

ステージ分けのすすめ:3層 SQLクエリでプロジェクトを整理する

規模が大きくなるとSQLクエリ(SQLファイル)が何十、何百と増え、混乱しがちです。そこでおすすめなのが、 “3ステージ構造” による分割設計です。

ステージ1:Raw → Staging(準備 | 生データの“きれい化”)

外部システムやログから取り込んだままの「生データ」を、カラム名の統一 や データ型の整形、NULL処理 などで “きれいな状態” に整えます。ここをしっかり作ることで、後続処理でのエラーや想定外の不整合を減らせます。

ステージ2:Staging → Intermediate(中間 | 業務ロジックの集約)

複数のStagingテーブルを結合し、ビジネス要件に沿った集計やフィルタリングを行います。ここでは、「何を計算するか」にフォーカスし、複雑なSQLをIntermediate層にまとめることで、後の変更に柔軟に対応できます。

ここで重要なのは更に次の2つの SQLクエリ に集約することをです。

ファクト(fact / 事実)

ファクトは 売上 や アクセス などの「事実」を集約したデータです。

このデータには後から分析をかけられるように、「日時」、「店舗コード」、「担当従業員コード」など、次のディメンジョン・テーブルと結合できる「外部キー」を含めておきます。

ディメンジョン(Dimension / 属性)

ディメンジョンは 店舗一覧 や、従業員一覧 など、ファクト・テーブル と結合して分析できる属性情報を持つテーブルになります。

店舗情報であれば、住所や規模、営業時間などの店舗に関わる情報を持たせます。

ステージ3:Intermediate → Mart(レポート/BI向け出力)

最終的にレポートやダッシュボードで参照しやすいデータです。利用者が分析しやすいよう、ファクト と ディメンジョン を結合した形で提供します。

この3層を守るだけで、SQLクエリ同士の依存関係が明確になり、変更の影響範囲を把握しやすくなるのが大きなメリットです。

規模が拡大しても安心:可視化と保守性の向上

dbtでは、全SQLクエリの依存関係の図を自動で生成できます。これにより、

  • 「最終アウトプットを変更するために どの SQLクエリ を修正 すべきか?」
  • 「Aテーブルに変更を加えると、どのレポートに影響 があるのか?」
  • 「新規SQLクエリを追加する際、どの中間SQLクエリを活用 すべきか?」

といった問いに即座に答えが得られ、運用・保守の負荷を大きく軽減します。

チームへの波及効果:透明性とコラボレーションの強化

dbtを採用すると、SQLクエリ開発フローがソフトウェア開発チームと同じワークフローになります。

  • コードレビュー:GitHubのプルリクエストでSQLクエリをレビュー
  • CI/CD:変更時には自動でテスト実行&レポート生成
  • ドキュメントポータル:社内Wikiのようにブラウザでテーブル定義を参照

これにより、データチームだけでなく、ビジネス側やQA部門を含む組織横断のコラボレーションが促進され、データ活用のスピードと品質が飛躍的に向上します。

まとめ:dbtは「洗練されたSQLクエリ開発の思想」を具現化するツール

dbtは「宣言的SQL」「DRY原則」「自動テスト」「ドキュメント化」というソフトウェア開発の武器をSQLクエリ開発に持ち込みます。

最初は学習コストがあるものの、SQLクエリが増えるほどその恩恵は大きくなり、結果として安定性・拡張性の高いデータ基盤を手に入れられます。
どうでしょうか?dbt により基盤を強化することで SQLクエリ開発は更なる高みを目指すことができます。是非みなさんの業務にも取り入れてみて下さい。

次回は、全て無料のソフトウェアで dbt の利用環境を整備する方法について紹介させて頂きます。よろしければご一読下さい。

タイトルとURLをコピーしました