本リポジトリは、技術評論社から出版された以下の書籍 のWeb補足情報を提供するためのものです。 書籍に関する「正誤表」や関連情報をまとめています。
各章のハイライトです。
第0章 [速習]データ分析基盤と周辺知識 データ分析基盤入門プロローグ 本書を読みやすくするために基本的な技術や既存の知識とデータ分析基盤関連の技術へのつなぎ込みを行 う章です。
第1章 [入門]データ分析基盤 データ分析基盤を取り巻く「人」「技術」「環境」 ビッグデータの歴史や現状を紹介します。はじめに、ビッグデータ世界の概略を押さえておきましょう。
第2章 データエンジニアリングの基礎知識 4つのレイヤー データ分析基盤を管理する「データエンジニアリング」を想定して、職責やナレッジを含めた基礎知識を概 説します。データエンジニアリングでカバーすべき範囲は多岐にわたるため、まずは大まかにデータ分析基 盤全体を把握していきましょう。
第3章 データ分析基盤の管理&構築 セルフサービス、SSoT、タグ、ゾーン、メタデータ管理 データ分析基盤を構築/管理する上で大切なポイントである「セルフサービス」「SSoT」(Single source of truth) という考え方を中心によりビジネス成果を創出しやすいデータ分析基盤に求められる役割や考え方、方法論 について解説します。
第4章 データ分析基盤の技術スタック データソースからアクセスレイヤー、クラスター、ワークフローエンジンまで データ分析基盤を4つの層に分割し、それぞれの層で登場する技術スタックを紹介します。 ユーザーがデータを利用した成果の創出に集中するためのベースとなる特定の技術スタックを取り上げて、 特徴や用途を説明します。多々あるビッグデータの技術の中から、必要性を見極めて技術選択できるように なることを目指します。
第5章 メタデータ管理 データを管理する「データ」の重要性 データを管理するためのメタデータを紹介します。「データの定義をSQLで都度調べている」「データが見つけづ らい」「データが活用されない」などデータ分析基盤のユーザーの悩みを、メタデータを通して解決していきましょう。
第6章 データマート&データウェアハウスとデータ整備 DIKWモデル、データ設計、スキーマ設計、最小限のルール データマートを作成し綺麗に整形することも大事ですが、単純な作成方法だけにとどまらず、ユーザーが データマートを自由に素早く反復して作成できるようにすることが重要です。 データ利用の一つの障壁となる人とのコミュニケーションをシンプルにするための方法についても紹介します。
第7章 データ品質管理 質の高いデータを提供する データの状態を常にモニタリングすることで、データの精度を高めるデータ品質管理について説明します。 間違えたデータで意思決定をしないように、データの品質を継続的に測定し、データの設計書を残し継続的 に成果の創出できるデータ分析基盤を作り上げます。
第8章 データ分析基盤から始まるデータドリブン データ分析基盤の可視化&測定 データ分析基盤開発の方向を見失わないようにするために、KPI管理とKPI管理対象項目について紹介し ます。実際のデータ分析基盤の管理/運用で活用できる項目を重点的に取り上げます。
第9章 [事例で考える]データ分析 基盤のアーキテクチャ設計 豊富な知識と柔軟な思考で最適解を目指そう 本書の知識整理を目的として、第0章〜第8章までの知識を利用して、シンプルなユースケースを元にデ ータ分析基盤の設計に取り組みます。サンプルコード付きです。
Appendix [ビッグデータでも役立つ]RDB基礎講座 ビッグデータに関する技術要素は、リレーショナルデータベース(relational database、RDB)の技術要素と通 ずるものがあります。第1章からの本編解説の理解の助けになるように、RDBの基本を解説します。
本書で登場するサンプルコードは以下に配置しております。
こちらが全体像となります。 また CI/CDI となっていますが -> CI/CDが正となります。
ここではビッグデータ関連書籍として、書籍内で紹介している書籍やおすすめの書籍について紹介します。
筆者が図表等を作成する際に参考とさせていただいたドキュメント群です。
本文で言及しているDBT公式を元に以下の情報も参考にさせていただいております。
本書を作成時に利用した筆者の動作の確認環境は以下です。
-(ローカル環境)MacBook Pro(M1 Max, 2021)
普段はデータを活用する企画業務に従事
ビッグデータのシステム構築から活用までアドバイザリーをやっています。
本書で頻繁に出てくるSpark(Pyspark)やKafka、メタデータストア、ストリーミングをコード中心に駆け回ってみる講座たちです。
コードはGithubに公開していますので更に理解を深めるためにご利用ください。