【無料】データサイエンス(人工知能(AI)、機械学習、ディープラーニング)｜意思決定支援｜経営情報システム｜中小企業診断士一次試験教科書

この章で覚えておきたいこと

AIは最も広い概念で、その中に機械学習があり、さらにその中にディープラーニングがあります。
教師あり学習は正解付きデータで学び、教師なし学習は正解なしデータから構造を見つけ、強化学習は報酬を手掛かりに行動を学びます。
分類は種類を当てる問題、回帰は連続値を予測する問題、クラスタリングは似たもの同士を自動でまとめる問題です。
ニューラルネットワークでは、入力層、中間層、出力層、重み、バイアス、活性化関数の役割を押さえることが重要です。
分類モデルでは混同行列を起点に、正解率、適合率、再現率を計算できるようにします。
回帰モデルでは、MSE、RMSE、MAEの意味と違いを整理しておきます。
生成AIでは、もっともらしい誤答を返すハルシネーションが重要論点です。
AIへの攻撃として、データポイズニング、敵対的サンプル、モデル反転攻撃、プロンプトインジェクションの違いを押さえます。

基本知識

AI、機械学習、ディープラーニングの関係

人工知能(AI)は、人間の知的な判断や学習をコンピュータで実現しようとする広い概念です。機械学習は、そのAIを実現する代表的な方法の一つであり、データから規則性を学習します。ディープラーニングは、機械学習の中でも多層のニューラルネットワークを用いる手法です。

試験では、この包含関係を逆にしないことが重要です。

AIの中に機械学習があります。
機械学習の中にディープラーニングがあります。
ディープラーニングは画像認識、音声認識、自然言語処理などで使われます。
AIには、機械学習以外にルールベースの推論や探索なども含まれます。

教師あり学習、教師なし学習、強化学習

機械学習は、学び方の違いで大きく3つに分けられます。

教師あり学習
入力データと正解ラベルを対応させて学習します。迷惑メール判定、需要予測、売上予測などで用います。分類と回帰は教師あり学習に含まれます。
教師なし学習
正解ラベルを与えず、データの似方や構造を見つけます。顧客群の自動分類や異常傾向の把握などで用います。クラスタリングは代表例です。
強化学習
行動の結果として得られる報酬を最大化するように学習します。連続した意思決定が必要な場面に向いており、ゲーム、ロボット制御、経路最適化などで使われます。

過去問では、教師なし学習なのに分類と書かれていたり、強化学習なのに正解ラベルで学ぶと書かれていたりする入れ替えが典型的なひっかけです。

分類、回帰、クラスタリングの違い

何を予測したいのかで、使う学習問題の種類が変わります。

分類
予測結果がカテゴリです。たとえば、承認か否認か、離職するかしないか、不正取引か通常取引かを判定します。
回帰
予測結果が連続値です。たとえば、来月売上、気温、株価、工数、成約金額などを予測します。
クラスタリング
正解ラベルなしで、似た特徴を持つデータ同士をまとめます。顧客セグメント分けや商品群の傾向把握が典型です。

分類とクラスタリングは、どちらもグループ分けのように見えますが、分類は正解ラベルを学んで予測し、クラスタリングは正解ラベルなしで構造を見つける点が違います。

ニューラルネットワークとディープラーニングの基本語

ニューラルネットワークは、人間の神経回路を模した計算モデルです。複数のノードを層状につないで入力から出力を求めます。

入力層
特徴量を受け取る層です。
中間層
入力から受け取った情報を変換し、特徴を段階的に抽出する層です。隠れ層ともいいます。
出力層
最終的な予測結果を出す層です。
重み
入力の重要度を表す係数です。
バイアス
出力を調整する補正項です。
活性化関数
線形結合した値に非線形性を与える関数です。これにより複雑な表現が可能になります。

ディープラーニングは、中間層を多層にしたニューラルネットワークを利用します。試験では、中間層の層数が増えることで複雑な特徴表現が可能になる点や、画像や音声などの非構造化データに強い点が問われます。

混同行列と分類モデルの評価指標

分類モデルの評価では、混同行列をもとに各種指標を求めます。用語の意味を正確に区別することが重要です。

TP(True Positive)
実際に正であるものを、正と予測した件数です。
FP(False Positive)
実際は負であるものを、正と予測した件数です。
FN(False Negative)
実際は正であるものを、負と予測した件数です。
TN(True Negative)
実際に負であるものを、負と予測した件数です。

主要な評価指標は次のとおりです。

正解率(Accuracy)
全体のうち正しく判定できた割合です。
(TP + TN) / (TP + FP + FN + TN) で求めます。
適合率(Precision)
正と予測したもののうち、実際にも正だった割合です。
TP / (TP + FP) で求めます。
再現率(Recall)
実際に正であるもののうち、正しく正と判定できた割合です。
TP / (TP + FN) で求めます。

適合率は誤検知をどれだけ減らせたかに関わり、再現率は見逃しをどれだけ減らせたかに関わります。たとえば不正検知や疾病判定では、どちらを重視するかが業務要件によって変わります。

試験では、同じ正解率でも再現率が異なる2つのモデルを比較させる問題が出ます。式を暗記するだけでなく、FPとFNのどちらが増減すると指標がどう変わるかまで理解しておくと対応しやすいです。

回帰モデルの評価指標

回帰モデルでは、予測値と実測値のずれを誤差として評価します。近年はMSE、RMSE、MAEの違いが問われています。

MSE(Mean Squared Error)
誤差を二乗して平均した値です。大きな誤差を強く評価します。
RMSE(Root Mean Squared Error)
MSEの平方根です。単位が元の目的変数とそろうため、解釈しやすいです。
MAE(Mean Absolute Error)
誤差の絶対値を平均した値です。外れ値の影響をMSEやRMSEほど強く受けません。

実務でも試験でも、MSEとRMSEは大きな誤差に敏感で、MAEは誤差をより素直に平均する指標だと整理しておくと混乱しにくいです。指標の値は小さいほど一般に良いモデルとみなします。

生成AIとハルシネーション

生成AIは、学習済みモデルを用いて文章、画像、音声、プログラムコードなどを生成するAIです。業務効率化に有用ですが、出力をそのまま正しいとみなすのは危険です。

ハルシネーションとは、生成AIが事実に基づかない内容を、もっともらしく出力してしまう現象です。誤った文献、存在しない法令、誤解を招く数値などを自然な文章で返すことがあります。

ハルシネーションへの対策としては、次の視点が重要です。

重要情報は原典や一次情報で確認することです。
検索連携や社内データ参照を用いて根拠付きで回答させることです。
入力プロンプトで出典提示や不確実性の明示を求めることです。
最終判断を人間が行う運用にすることです。

試験では、生成AIの特徴とリスクを問う形で出題されやすく、ハルシネーションを単なる誤字脱字や通信障害と取り違えないことが大切です。

AIへの攻撃手法

AIを活用するシステムでは、モデルそのものや学習データ、入力、プロンプトが攻撃対象になります。代表的な攻撃手法を区別して覚えます。

データポイズニング
学習データに攻撃者が不正なデータや偏ったデータを混入させ、学習済みモデルの性能や判断をゆがめる攻撃です。訓練段階を狙います。
敵対的サンプル
人にはほとんど分からない微小な変更を入力データに加え、推論結果を誤らせる攻撃です。推論段階を狙います。敵対的事例ともいいます。
モデル反転攻撃
モデルへの問い合わせ結果などから、学習データに含まれていた個人情報や特徴を推定しようとする攻撃です。情報漏えいにつながります。
プロンプトインジェクション
生成AIへの指示文に悪意ある入力を混ぜ、開発者や利用者の意図しない応答や情報開示を引き起こす攻撃です。大規模言語モデルを使う業務システムで特に注意します。

試験では、どの攻撃が学習段階を狙うのか、どの攻撃が推論段階や運用段階を狙うのかを切り分けて判断させる出題が考えられます。名称だけでなく、攻撃対象と結果をセットで覚えることが重要です。

この章のまとめ

AI、機械学習、ディープラーニングは、広い順にAI、機械学習、ディープラーニングです。
教師あり学習は分類と回帰、教師なし学習はクラスタリング、強化学習は報酬最大化という対応で整理します。
分類では混同行列から正解率、適合率、再現率を計算できるようにします。
回帰ではMSE、RMSE、MAEの違い、特に大きな誤差への敏感さの違いを押さえます。
生成AIではハルシネーションが主要リスクであり、AI攻撃ではデータポイズニング、敵対的サンプル、モデル反転攻撃、プロンプトインジェクションが重要です。

一次試験過去問での出方

2020年度第11問では、教師あり学習と教師なし学習の区別、深層学習の位置づけが問われました。学習方法と代表例を正しく結び付けられるかが重要です。

2021年度第13問では、エキスパートシステム、データマイニング、深層学習、強化学習などのAI関連用語が問われました。定義の取り違えを防ぐ整理が必要です。

2022年度第15問では、クラスタリング、分類、回帰の違いが問われました。教師あり学習か教師なし学習かとあわせて判断できるようにしておきます。

2023年度第1回第3問では、ニューラルネットワークの入力層、中間層、出力層、ニューロン、活性化関数などの基本語が問われました。構成要素の役割をそのまま説明できることが重要です。

2023年度第1回第24問と2024年度第23問では、混同行列を用いた正解率、適合率、再現率の計算と比較が問われました。式の暗記だけでなく、FPとFNが各指標へ与える影響まで整理しておく必要があります。

2023年度第2回第10問では、AI、機械学習、ディープラーニングや関連用語の基本整理が問われました。包含関係と学習の種類を素早く判定できるようにしておきます。

2024年度第24問では、生成AIのハルシネーションが問われました。もっともらしい誤情報を出力する現象であることを明確に区別する必要があります。

2025年度第20問では、データポイズニング、敵対的サンプル、モデル反転攻撃、プロンプトインジェクションなどのAI攻撃手法が問われました。攻撃の対象段階と狙いを対応づけて覚えることが重要です。

2025年度第25問では、回帰分析の評価指標としてMSE、RMSE、MAEが問われました。分類指標と混同せず、回帰で使う誤差指標として整理しておくことが必要です。