MENU
カタログクリップ
本ページはプロモーションを含みます。

微分エントロピーとは。離散型エントロピーとの違い。

2025 8/07
広告
知識
2025年8月7日

エントロピーは、「不確実性」 や 「情報量」を測る物差しとして、統計学・情報理論・機械学習の広い分野で登場します。離散的な場合(サイコロの目やコインの表裏など)に使われるエントロピーについてはよく知られていますが、連続的な場合(例えば身長や体重などの実数値で表せる変数)には「微分エントロピー(differential entropy)」という概念が使われます。

目次

連続確率変数と確率密度の復習

まずは少しおさらいです。

確率変数\(X\) の累積分布関数(CDF)を \(F(x)=\Pr(X\le x)\) とします。\(F(x)\) が連続なら、この確率変数は連続であるといいます。導関数 \(f(x)=F'(x)\) が存在し、\(f(x)\) の定義域全体の積分が1、つまり\(\int f(x) dx = 1\)という正規化条件を満たすなら、\(f(x)\) は 確率密度関数(PDF)と呼ばれます。

微分エントロピーの公式

連続確率変数 \(X\) の微分エントロピー \(h(X)\) は、次の式で定義されます。

$$h(X) = -\int_{S} f(x) \log f(x) dx$$

ここで \(S\) は、\(f(x)\) が正になる範囲\(S=\{x\mid f(x)>0\}\)のことで、\(X \)の支持集合(support set)と呼ばれます。

  • 微分エントロピー \(h(X) \) は、 \(X \)の確率密度関数 \(f(x) \) に依存します。そのため、\(h(X)\) の代わりに \(h(f)\) と書くこともあります。
  • 密度関数が存在しない場合(ex. ディラックのデルタ関数)や、積分が発散してしまう場合は微分エントロピーが定義できません。
  • 離散エントロピーと違い、微分エントロピーはマイナス(負)になることもあります。

微分エントロピーの計算例

2つの例で微分エントロピーを計算してみます。

0〜a の一様分布

\(0\) から \(a\) の間で一様に分布する確率変数 \(X\) を考えてみましょう。

この場合、密度関数は

$$f(x) = \begin{cases} \frac{1}{a} & (0 \leq x \leq a) \\ 0 & \text{それ以外} \end{cases}​$$

したがって、微分エントロピーは

$$h(X)= -\int_{0}^{a} \frac{1}{a} \log\frac{1}{a} dx = \log a.$$

ポイント:

  • \(a < 1\) の場合は \(\log a < 0\) となり、微分エントロピーが負であることもわかります。
  • なお、\(2^{h(X)} = 2^{\log a} = a\) は、有効区間の長さに対応し非負です。(\(log\)の底は2とする。)

分散 \(\sigma^2\) の正規分布

平均0・分散\(\sigma^2\)の正規分布の確率密度関数は

$$\varphi(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{x^2}{2\sigma^2}\right)$$

このとき、nat単位(logの底をeにとる)での微分エントロピーは

$$\begin{aligned}
h(\varphi) &= -\int \varphi(x)\ \ln\varphi(x) dx
\\ &= -\int \varphi(x)\left(-\frac{x^2}{2\sigma^2}-\ln\sqrt{2\pi\sigma^2}\right)dx
\\ &= \frac{\mathbb{E}[X^2]}{2\sigma^2}+\frac{1}{2}\ln 2\pi\sigma^2
\\ &= \frac{1}{2}+\frac{1}{2}\ln 2\pi\sigma^2
\\ &= \frac{1}{2}\ln 2\pi e\sigma^2 \;\text{[nats]}. \end{aligned}
$$

対数の底を2に変えてビット単位にすると、

$$h(\varphi) = \frac{1}{2} \log_2(2\pi e \sigma^2) \quad \text{(bits)}$$

ポイント:

  • 正規分布では、エントロピーが分散 \(\sigma^2\)の大きさに応じて増加します。\(\sigma^2\) が大きいほど「不確かさ」「情報量」も大きくなります。

微分エントロピーの性質

  1. 並進不変性:\(h(X+c)=h(X)\)
  2. スケール則:\(h(aX)=h(X)+\log|a|\)
  3. 最大エントロピー原理:分散が固定されるなら、\(h(X)\) を最大化するのは正規分布。

離散エントロピーと微分エントロピーの比較

離散エントロピー \(H(X)\)微分エントロピー \(h(X)\)
定義\(H(X)= -\sum_{i} p_i \log p_i\)\(h(X)= -\int_{S} f(x) \log f(x) dx\)
単位bits(底2),nats(底\(e\))同じ
値域、値の範囲非負
\(\ge 0\)
負になることもある
\((-\infty,\infty)\)
座標変換(スケーリング)不変座標系に依存。\(h(aX)=h(X)+\log|a|\)
「絶対的な情報量」としての解釈はできない。
  • 離散エントロピーは「メッセージを符号化するのに平均何ビット要るか」という情報量の意味を持つ。
  • 微分エントロピーは「密度 \(f(x)\) がどれだけ散らばっているか」を対数で測る。
  • 相互情報量 \(I(X;Y) \)や KL ダイバージェンス \(D_{\text{KL}}(f\|g) \) は離散と同じ形で定義でき、スケールにも非依存で常に非負。

離散エントロピーと同じ式で、連続確率変数でエントロピーを定義できないのか

確率変数 X が離散的なら、シャノンエントロピー

$$H(X)= -\sum_{i} p_i \log p_i$$

でうまく定義できます。ところが 連続型 になると、次の2つの事情のせいで同じ定義はそのまま使えません。

点確率が 0 になる

連続分布では

$$P(X=x)=0$$

が成り立ちます。これは「実数上の任意の点をピンポイントで当てる確率は0」ということです。そのため、離散型のように「取り得る値を列挙して確率を掛ける」という操作自体ができません。

代わりに連続分布では確率密度関数 (pdf) f(x) を使いますが、確率密度は確率そのものではないので、\(f(x)\log f(x)\)を足し合わせても「情報量(ビット数)」という直感的意味が失われることになります。

極限を取ると定数が発散する

では「区間幅 \(\Delta\) で量子化して離散エントロピーを計算し、\(\Delta \to 0\) の極限を取れば?」と考えると、

$$H_\Delta(X)= -\sum_{k} P_k \log P_k \quad\text{with}\quad P_k = \int_{k\Delta}^{(k+1)\Delta} f(x) dx$$

となります。

\(\Delta \)が十分小さいとき、ビン内で \(f(x)\) はほぼ一定とみなせるので

$$P_k \approx f(x_k) \Delta,$$

ただし\( x_k\) はビン\( [k\Delta,(k+1)\Delta) \) 内の代表点(たとえば左端)です。これを用いると、

$$\begin{aligned} H_\Delta(X) &\approx -\sum_k f(x_k) \Delta \bigl[\log f(x_k) + \log\Delta \bigr] \\ &= -\sum_k f(x_k) \Delta \log f(x_k) – \log\Delta \sum_k f(x_k) \Delta. \end{aligned}$$

第1項について、\(\sum_k f(x_k) \Delta \log f(x_k) \)はリーマン和であり、\(\Delta \to 0 \)で

$$\int_{-\infty}^{\infty} f(x)\log f(x) dx.$$

第2項について、\( \sum_k f(x_k) \Delta\) は\(\int f(x) dx = 1 \)に収束するので
$$\log\Delta \sum_k f(x_k) \Delta \to \log\Delta.$$

ゆえに、

$$\begin{aligned} H_\Delta(X) &\xrightarrow[\Delta \to 0]{} -\int f(x)\log f(x)\,dx – \log\Delta \\ &= h(X) + \log\frac{1}{\Delta} \end{aligned}$$

という形になります。\(\Delta \to 0\)とすると \(\log(1/\Delta) \)が無限大になってしまいます。ここで

$$h(X) := -\int f(x)\log f(x) dx$$

は微分エントロピーです。

つまり、離散エントロピーの極限から抽出できる有限成分が微分エントロピーで、残りは「ビン幅に依存する発散項」になります。

まとめ

  • 微分エントロピーは、連続確率変数における「不確かさ」の指標です。
  • 計算は密度関数 \(f(x)\) を使った積分で行います。
  • 負の値を取ることがあり、「情報量」の絶対的な単位とは異なります。

微分エントロピーは少し直感に合わない点もありますが、連続確率分布の広がりを定量化する便利な道具です。統計学や機械学習、信号処理など、様々な分野で重要な役割を果たしています。

参考

  • THOMAS M. COVER and JOY A. THOMAS, Elements of Information Theory, A John Wiley & Sons, Inc., Publication
←
→
Elements of Information Theory
  • Thomas M. Cover (著), Joy A. Thomas (著)
  • Wiley
  • 価格¥19,775(2025/08/07 16:57時点)
  • Amazonで口コミ・レビューを見る
Amazonで探す楽天で探すYahooで探す
知識

関連記事

  • 高校生物のサンガー法について解説。練習問題付き。
    2025年3月5日
  • 高校生物のPCR法について解説。練習問題付き。
    2025年3月5日
  • メルカリ アプリでのトラブルいろいろ
    2022年11月9日
  • ドミノ・ピザで、お持ち帰り半額にならず、定額でピザを購入した話。
    2021年4月4日
  • Seal of the president of the united statesの意味とは?
    2019年5月25日
  • 台風とハリケーン、サイクロンの違いとは?台風とタイフーンの違いも併せて紹介!
    2019年3月8日
  • 消化酵素を一覧で紹介!
    2019年3月8日
  • 白身魚フライで使われるブルーホワイティングとは?特徴・産地・資源量を紹介。
    2019年3月8日
カテゴリー
  • コンピューター
    • gnuplot & eps
    • mac
    • matplotlib
    • wordpress
  • ホーム・家電
    • アイロン
    • オーディオ
    • オーラルケア
      • ジェットウォッシャー
      • 音波振動歯ブラシ
    • カメラ
    • カー用品
    • クリーナー
    • テレビ、レコーダー
    • ドアホン
    • メンズ美容家電
      • ラムダッシュ
    • ルンバ
    • 一覧比較
    • 工具
    • 浄水器
    • 温水洗浄便座
    • 炊飯器
    • 空気清浄機・加除湿機
    • 空調・季節家電
    • 美容家電
      • フェイスケア
      • ヘアケア
      • ボディーケア
    • 血圧計
    • 調理器具
    • 電子レンジ
  • 健康
  • 家事
    • パン
    • 料理
    • 育児
    • 食品
      • おせち
      • コーヒー
  • 書籍
  • 知識
  • 趣味
    • ペン字
    • ロードバイク・クロスバイク
    • 車
    • 鉄道模型
    • 電子工作
サイト内検索
最近の投稿
  • 微分エントロピーとは。離散型エントロピーとの違い。
  • ECP3220JとEC235Jの6つの違い。 [デロンギ エスプレッソメーカー]
  • 【髪質別】成分から見るプリュスオーのシャンプー✕トリートメントのおすすめ
  • プリュスオー メロウ シャンプー・トリートメントはどんな髪におすすめ?
  • モナークHGとモナークM7の4つの違い。[ニコン双眼鏡]
  • ニコン モナーク M7とM5の4つの違い。[双眼鏡]
  1. ホーム
  2. 知識
  3. 微分エントロピーとは。離散型エントロピーとの違い。
  • ホーム
  • プライバシーポリシー

© カタログクリップ
contact@beiznotes.org

目次