2nd_edition_bigdataplatform_and_engineering

改訂新版[エンジニアのための]データ分析基盤入門<基本編> データ活用を促進する! プラットフォーム&データ品質の考え方

本リポジトリは、技術評論社から出版された以下の書籍 のWeb補足情報を提供するためのものです。 書籍に関する「正誤表」や関連情報をまとめています。

本書の構成

各章のハイライトです。

第0章 [速習]データ分析基盤と周辺知識 データ分析基盤入門プロローグ  本書を読みやすくするために基本的な技術や既存の知識とデータ分析基盤関連の技術へのつなぎ込みを行 う章です。

第1章 [入門]データ分析基盤 データ分析基盤を取り巻く「人」「技術」「環境」  ビッグデータの歴史や現状を紹介します。はじめに、ビッグデータ世界の概略を押さえておきましょう。

第2章 データエンジニアリングの基礎知識 4つのレイヤー  データ分析基盤を管理する「データエンジニアリング」を想定して、職責やナレッジを含めた基礎知識を概 説します。データエンジニアリングでカバーすべき範囲は多岐にわたるため、まずは大まかにデータ分析基 盤全体を把握していきましょう。

第3章 データ分析基盤の管理&構築 セルフサービス、SSoT、タグ、ゾーン、メタデータ管理  データ分析基盤を構築/管理する上で大切なポイントである「セルフサービス」「SSoT」(Single source of truth) という考え方を中心によりビジネス成果を創出しやすいデータ分析基盤に求められる役割や考え方、方法論 について解説します。

第4章 データ分析基盤の技術スタック データソースからアクセスレイヤー、クラスター、ワークフローエンジンまで  データ分析基盤を4つの層に分割し、それぞれの層で登場する技術スタックを紹介します。  ユーザーがデータを利用した成果の創出に集中するためのベースとなる特定の技術スタックを取り上げて、 特徴や用途を説明します。多々あるビッグデータの技術の中から、必要性を見極めて技術選択できるように なることを目指します。

第5章 メタデータ管理 データを管理する「データ」の重要性  データを管理するためのメタデータを紹介します。「データの定義をSQLで都度調べている」「データが見つけづ らい」「データが活用されない」などデータ分析基盤のユーザーの悩みを、メタデータを通して解決していきましょう。

第6章 データマート&データウェアハウスとデータ整備 DIKWモデル、データ設計、スキーマ設計、最小限のルール  データマートを作成し綺麗に整形することも大事ですが、単純な作成方法だけにとどまらず、ユーザーが データマートを自由に素早く反復して作成できるようにすることが重要です。  データ利用の一つの障壁となる人とのコミュニケーションをシンプルにするための方法についても紹介します。

第7章 データ品質管理 質の高いデータを提供する  データの状態を常にモニタリングすることで、データの精度を高めるデータ品質管理について説明します。 間違えたデータで意思決定をしないように、データの品質を継続的に測定し、データの設計書を残し継続的 に成果の創出できるデータ分析基盤を作り上げます。

第8章 データ分析基盤から始まるデータドリブン データ分析基盤の可視化&測定  データ分析基盤開発の方向を見失わないようにするために、KPI管理とKPI管理対象項目について紹介し ます。実際のデータ分析基盤の管理/運用で活用できる項目を重点的に取り上げます。

第9章 [事例で考える]データ分析 基盤のアーキテクチャ設計 豊富な知識と柔軟な思考で最適解を目指そう  本書の知識整理を目的として、第0章〜第8章までの知識を利用して、シンプルなユースケースを元にデ ータ分析基盤の設計に取り組みます。サンプルコード付きです。

Appendix [ビッグデータでも役立つ]RDB基礎講座  ビッグデータに関する技術要素は、リレーショナルデータベース(relational database、RDB)の技術要素と通 ずるものがあります。第1章からの本編解説の理解の助けになるように、RDBの基本を解説します。

本書で登場するCodes

本書で登場するサンプルコードは以下に配置しております。

codes

正誤表

初版修正情報

(紙版のみ)0章のトップ画が見開きの間に入ってしまい見辛くなっている

こちらが全体像となります。 0章トップ画 また CI/CDI となっていますが -> CI/CDが正となります。

サードパーティより、セカンドパーティーの方がコンテキスト的に伝わりやすい部分の修正

  1. (p8の注釈): 協業先のサードパーティデータや -> 、協業先のセカンドパーティデータや
  2. (p36のTips): セカンドパーティーデータ(業務協業元からのデータ)
  3. (p72) :❶ではサードパーティのデータソースから -> 、 ❶ではセカンドパーティのデータソースから
  4. (p319):サードパーティ企業とのデータ連携などでプロジェクトを進 -> サードパーティやセカンドパーティ企業とのデータ連携などでプロジェクトを進

誤字/脱字

  1. (p127): DELTA LAKES -> DELTA LAKE

本書内で紹介している書籍や参考情報

ここではビッグデータ関連書籍として、書籍内で紹介している書籍やおすすめの書籍について紹介します。

図書

リファレンス

筆者が図表等を作成する際に参考とさせていただいたドキュメント群です。

セマンティックレイヤーの解説(図表等の作成)の際に参考にさせていただきました。

本文で言及しているDBT公式を元に以下の情報も参考にさせていただいております。

動作環境

本書を作成時に利用した筆者の動作の確認環境は以下です。

-(ローカル環境)MacBook Pro(M1 Max, 2021)

著者について

普段はデータを活用する企画業務に従事
ビッグデータのシステム構築から活用までアドバイザリーをやっています。

その他補助になると考えられるもの

本書で頻繁に出てくるSpark(Pyspark)やKafka、メタデータストア、ストリーミングをコード中心に駆け回ってみる講座たちです。
コードはGithubに公開していますので更に理解を深めるためにご利用ください。

ビジネスパーソン向け他のコース

  1. 「DX(デジタルトランスフォーメーション)のためのビッグデータ活用とデータ活用企画のつくりかたまで」
  2. 「【実戦で学ぶ速習講座】リレーショナルデータベースで始めるデータ活用とデータ分析のためのSQLを学ぼう」

エンジニア向け他のコース情報

  1. 「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」
  2. 「【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門」
  3. 「【データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門」
  4. 「超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座」
  5. 「【実戦で学ぶデータ分析基盤構築講座】ローカル端末で1から始めるデータ分析基盤の構築とデータ活用のための活動」
  6. 「【実戦で学ぶ基盤構築】ローカル端末で作り理解するエンジニアのための機械学習基盤の作成とMLOps」