経営情報システム
標準データベース関連技術(データウェアハウス、データマイニング等)
データウェアハウス、OLAP、データマイニングを基本用語中心に扱う。
データベース関連技術
この章で覚えておきたいこと
この論点では、分析のためにデータをどう集め、どう蓄積し、どう活用するかを、基本用語の違いから整理します。一次試験では、似た言葉を入れ替えた選択肢が多いため、用語の定義だけでなく、データ活用の流れの中での役割まで押さえることが重要です。
- データウェアハウスは、複数の業務システムからデータを集約した分析用の基盤です。
- ETLは、データを抽出し、整形し、分析基盤へ格納する処理です。
- OLTPは日常業務の更新処理、OLAPは分析や集計の処理です。
- データマートは用途別に切り出した分析用データ、データレイクは多様な生データの蓄積基盤です。
- BIは意思決定支援、データマイニングは大量データから規則性や傾向を見つける分析です。
基本知識
データウェアハウスの役割
データウェアハウスは、販売、会計、在庫、人事など、複数の業務システムに分散しているデータを集約し、分析しやすい形で蓄積する基盤です。日常業務を直接処理するためのデータベースではなく、経営分析や意思決定に使うことを目的としています。
データウェアハウスは、次の特徴で整理すると覚えやすいです。
- 主題志向: 業務処理単位ではなく、売上や顧客など分析対象ごとにデータをまとめます。
- 統合: 複数システムの表記や形式の違いを調整して、一貫した形にそろえます。
- 時系列性: 過去から現在までの推移を分析できるように、時間軸を持って蓄積します。
- 非更新: 業務処理のたびに頻繁に書き換えるのではなく、主に参照と分析に使います。
試験では、データウェアハウスを「日々の受注や在庫更新を高速に処理する仕組み」と説明していたら誤りだと判断します。分析用の統合基盤であることが軸です。
ETLとデータクレンジング
ETLは、Extract、Transform、Load の略です。分析に使う前に、元の業務データを必要な形へ整えてから蓄積する一連の流れを指します。
- Extract: 業務システムや外部データ源から必要なデータを取り出します。
- Transform: 形式変換、名寄せ、単位統一、欠損補完、重複除去などを行います。
- Load: 整形したデータをデータウェアハウスやデータマートへ格納します。
このとき、Transformの中で行う品質改善作業がデータクレンジングです。したがって、ETLは全体の流れであり、データクレンジングはその一部です。2021年や2025年の出題でも、ETLそのものと品質改善作業の役割を混同させる選択肢に注意が必要です。
OLTPとOLAPの違い
OLTPは、受注入力、在庫更新、入出金処理のように、日常業務で発生するトランザクションを正確かつ高速に処理する考え方です。更新の整合性や応答速度が重視されます。
一方のOLAPは、蓄積済みデータを多面的に集計し、比較し、傾向を見るための分析処理です。売上を商品別、地域別、月別に集計したり、集計単位を細かく掘り下げたりするときに使います。
見分ける観点は次のとおりです。
- OLTP: 登録、更新、削除、照会などの業務処理です。
- OLAP: 集計、比較、傾向把握、意思決定支援のための分析です。
- OLTP: 1件ごとの正確な処理が重要です。
- OLAP: 多量データをまとめて読むことが重要です。
2025年第16問では、OLTPとOLAPの役割を正反対にした選択肢が紛らわしく出されました。問題文に「多次元分析」「集計」とあればOLAP、「日常取引」「更新」とあればOLTPと判断します。
データマートとデータレイク
データマートは、データウェアハウスの中から、営業部門、商品分析、顧客分析など、特定の目的に合わせて切り出した小規模な分析用データ集合です。全社共通の分析基盤がデータウェアハウスで、その一部を用途別に使いやすくしたものがデータマートです。
データレイクは、構造化データだけでなく、ログ、文書、画像、音声、センサデータなども含めて、さまざまな形式のデータを生に近い形で蓄積する基盤です。あらかじめ厳密な分析用スキーマへ整えてから入れるとは限らず、後から用途に応じて活用する前提が強いです。
この周辺では、次の区別が重要です。
- データマート: データウェアハウスから用途別に切り出した分析用データです。
- データレイク: 多様な形式のデータを幅広くためる場所です。
- データスワンプ: データレイクが管理不十分になり、所在や意味が分からず活用しにくくなった状態です。
2021年、2022年、2025年の出題では、この3つの関係が繰り返し問われています。特にデータレイクは「何でも入れられる便利な場所」ではありますが、管理しなければ価値が下がる点まで含めて理解しておく必要があります。
BIとデータマイニング
BIは、蓄積したデータを集計、可視化、分析し、経営判断に役立つ情報として提示する仕組みやツールの総称です。ダッシュボード、レポート、グラフ表示などを通じて、現状把握や意思決定を支援します。
データマイニングは、大量データの中から規則性、相関、分類、傾向などを発見する分析手法です。例えば、併買分析、顧客セグメント分類、離反予測のような形で用います。
両者は同じではありません。役割で分けると次のとおりです。
- BI: データを見やすくまとめ、判断に使える形で示します。
- データマイニング: データの中から新しい知見や法則を見つけます。
2017年第16問では、BI、ETL、NoSQL、データマイニングの役割がまとめて問われました。BIをAIそのものの開発環境のように説明したり、データマイニングをデータベース設計作業のように説明したりする選択肢は誤りです。
データ活用基盤を流れで整理する
似た用語が多い論点なので、データ活用の流れに並べて覚えると混同しにくくなります。
- 業務システムで日常処理を行う段階はOLTPです。
- 必要なデータを取り出して整える段階はETLです。
- 統合して分析しやすく蓄積する基盤がデータウェアハウスです。
- 用途別に切り出した分析データがデータマートです。
- 多様な生データを広く蓄積する基盤がデータレイクです。
- 集計や多面的分析を行う段階がOLAPです。
- 可視化して判断に使うのがBI、規則性を見つけるのがデータマイニングです。
この章のまとめ
- データウェアハウスは、複数システムのデータを統合した分析用基盤です。
- ETLは、抽出、変換、格納の流れであり、分析の前準備です。
- OLTPは日常業務の更新処理、OLAPは分析や集計の処理です。
- データマートは用途別に切り出した分析用データで、データレイクは多様な生データの蓄積基盤です。
- BIは意思決定支援、データマイニングは知見発見のための分析です。
- 過去問では、似た用語の役割を入れ替えた選択肢を見抜けるかが重要です。
一次試験過去問での出方
2025年第16問では、ETL、OLTP、OLAP、データマート、データレイク、データスワンプの役割の違いが問われました。分析基盤に関する用語を流れで区別できるかが焦点でした。
2021年第8問では、データウェアハウス、データマート、データレイク、データクレンジングの定義が問われました。ETL全体と品質改善作業の一部を混同しないことが重要でした。
2022年第4問では、データレイクの説明が問われました。構造化データだけでなく、多様な形式のデータを蓄積する基盤である点を押さえる必要がありました。
2017年第16問では、BI、ETL、NoSQL、データマイニングの役割が問われました。分析支援、前処理、データモデル、知見発見をそれぞれ切り分ける基本力が必要でした。