AIにおける量子化（Quantization）

IT

2025.04.25

目次

AIにおける量子化（Quantization）とは？　（子ども向け解説）
AIにおける量子化（Quantization）の技術解説【エンジニア向け】

AIにおける量子化（Quantization）とは？　（子ども向け解説）

量子化（Quantization）は、AIの頭脳（モデル）を小さく・軽く・速くするためのテクニックです。

💡 簡単に言うと？

量子化（Quantization）とは、大きな数値を小さな数値に縮めることで、AIモデルがより速く動き、メモリも少なくて済むようにする技術です。特に、スマートフォンやゲーム機、消費電力の少ないデバイスで効果を発揮します。

たとえば、スマホで素晴らしい写真を撮ったとして、それを遅いインターネット回線で送らなきゃいけないとき、どうしますか？写真を圧縮しますよね？少し画質は落ちますが、まだ十分使えます。

量子化は、まるでAIの「脳みそ」を圧縮するようなものです。ちょっと小さくなるけど、ちゃんと考える力は残っているんです。

🎮 例

例えば、学校のテストの点数が 0〜100点だったとします。でも先生が「10点刻みにするよ」と言ったら？

87点 → 90点
74点 → 70点
63点 → 60点

ちょっと正確さは減るけど、見やすくなってスピーディーになります。

🤖 AIモデルの中身は数字だらけ

AIの脳みそには、たとえばこういう数字（重みと呼ばれる）がいっぱい入っています：

[0.934, -1.278, 0.512, 1.389]

これらは通常「32ビットの浮動小数点数」（めちゃくちゃ細かい数）で保存されています。

量子化では、これを例えば「8ビットの整数」に丸めて保存します：

[120, -128, 50, 127]

🔢 実際の数値で変換してみよう

例えば、元の重み：

[0.984, 0.756, -0.432, 0.123]

スケール（倍率）を 0.01 にすると：

0.984 → 98
0.756 → 75
-0.432 → -43
0.123 → 12

つまり、量子化された重みは：

[98, 75, -43, 12]

これで容量は大幅に減るけど、精度はほんの少しだけ落ちるだけ。

📦 なんで量子化するの？

✅ 速い：モデルが軽くなり、推論スピードがUP！
✅ 省エネ：スマホやIoT機器でもAIが動く！
❌ ちょっとだけ精度が落ちる：でもほとんど気づかない程度

🕹️ まとめ

「高画質ゲームを低性能PCで動かすなら、画質ちょっと下げればフレームレート上がる」みたいな感じです。AIモデルを圧縮しても、ちゃんと使えるってこと。

AIにおける量子化（Quantization）の技術解説【エンジニア向け】

🧠 量子化とは？

量子化（Quantization）は、32ビット浮動小数点のような大きな値の集合を、8ビット整数などの小さな値の集合へマッピングするプロセスです。これにより、モデルサイズの縮小・計算コストの削減・メモリ効率の向上が実現されます。

🎯 なぜ量子化するのか？

推論速度の向上：整数演算は浮動小数点演算より高速
モデルサイズの縮小：32ビット → 8ビットで75%削減
エッジデバイス対応：スマホや組み込みGPUでも実行可能

🔢 数値を使った具体例（後処理による静的量子化）

例として、以下の重み（float32）を量子化します：

[0.984, 0.756, -0.432, 0.123]

1. 最小値・最大値を取得：

min_val = -0.432
max_val = 0.984

2. スケールとゼロ点を計算：

scale = (max_val - min_val) / (127 - (-128))
      ≒ 1.416 / 255 ≒ 0.00555

zero_point = round(-min_val / scale)
           ≒ round(0.432 / 0.00555) ≒ 78

3. 各値を量子化：

元の値 (float)	量子化後 (int8)
0.984	round(0.984 / 0.00555 + 78) ≒ 256 → 127 計算方法(*1)
0.756	≒ 214 → 127
-0.432	≒ 0
0.123	≒ 100

*1:

0.984 を int8 に量子化する方法【ステップバイステップ解説】

🎯 目的：

浮動小数点（float）値 0.984 を、範囲 [-128, 127] の int8 値に変換する。

🔢 ステップ 1：float の範囲を定義

ここでは例として、モデル内の重みが -0.432 ～ 0.984 の範囲にあるとします。

min_val = -0.432
max_val = 0.984

⚙️ ステップ 2：スケールの計算

スケール（scale）は、int8 の 1ステップが float でどれくらいかを示します：

scale = (max_val - min_val) / (qmax - qmin)
      = (0.984 - (-0.432)) / (127 - (-128))
      = 1.416 / 255 ≒ 0.00555

⚙️ ステップ 3：ゼロ点の計算

ゼロ点（zero_point）は、floatの0がintのどこにくるかを調整します：

zero_point = round(-min_val / scale)
           = round(0.432 / 0.00555) ≒ 78

➕ ステップ 4：量子化の計算

いよいよ 0.984 を量子化します：

q = round(float_val / scale) + zero_point
  = round(0.984 / 0.00555) + 78
  = round(177.48) + 78 = 177 + 78 = 255

ただし int8 の範囲は [-128, 127] なので：

q_int8 = clamp(255, -128, 127) = 127

✅ 最終結果：0.984 → int8 では 127 に量子化されます

元の 0.984 とは少し違いますが、これは量子化のトレードオフです。
精度を少し犠牲にする代わりに、メモリと速度を大きく向上させます。

結果として、量子化されたint8重み：

[127, 127, 0, 100]

⚖️ メリットとトレードオフ

メリット	トレードオフ
モデルが小さい	精度がやや下がる可能性
推論が高速	量子化処理の導入がやや複雑
省メモリ	キャリブレーションやQATが必要な場合あり

コメント

タイトルとURLをコピーしました