エントロピーは、「不確実性」 や 「情報量」を測る物差しとして、統計学・情報理論・機械学習の広い分野で登場します。離散的な場合(サイコロの目やコインの表裏など)に使われるエントロピーについてはよく知られていますが、連続的な場合(例えば身長や体重などの実数値で表せる変数)には「微分エントロピー(differential entropy)」という概念が使われます。
連続確率変数と確率密度の復習
まずは少しおさらいです。
確率変数\(X\) の累積分布関数(CDF)を \(F(x)=\Pr(X\le x)\) とします。\(F(x)\) が連続なら、この確率変数は連続であるといいます。導関数 \(f(x)=F'(x)\) が存在し、\(f(x)\) の定義域全体の積分が1、つまり\(\int f(x) dx = 1\)という正規化条件を満たすなら、\(f(x)\) は 確率密度関数(PDF)と呼ばれます。
微分エントロピーの公式
連続確率変数 \(X\) の微分エントロピー \(h(X)\) は、次の式で定義されます。
$$h(X) = -\int_{S} f(x) \log f(x) dx$$
ここで \(S\) は、\(f(x)\) が正になる範囲\(S=\{x\mid f(x)>0\}\)のことで、\(X \)の支持集合(support set)と呼ばれます。
- 微分エントロピー \(h(X) \) は、 \(X \)の確率密度関数 \(f(x) \) に依存します。そのため、\(h(X)\) の代わりに \(h(f)\) と書くこともあります。
- 密度関数が存在しない場合(ex. ディラックのデルタ関数)や、積分が発散してしまう場合は微分エントロピーが定義できません。
- 離散エントロピーと違い、微分エントロピーはマイナス(負)になることもあります。
微分エントロピーの計算例
2つの例で微分エントロピーを計算してみます。
0〜a の一様分布
\(0\) から \(a\) の間で一様に分布する確率変数 \(X\) を考えてみましょう。
この場合、密度関数は
$$f(x) = \begin{cases} \frac{1}{a} & (0 \leq x \leq a) \\ 0 & \text{それ以外} \end{cases}$$
したがって、微分エントロピーは
$$h(X)= -\int_{0}^{a} \frac{1}{a} \log\frac{1}{a} dx = \log a.$$
ポイント:
- \(a < 1\) の場合は \(\log a < 0\) となり、微分エントロピーが負であることもわかります。
- なお、\(2^{h(X)} = 2^{\log a} = a\) は、有効区間の長さに対応し非負です。(\(log\)の底は2とする。)
分散 \(\sigma^2\) の正規分布
平均0・分散\(\sigma^2\)の正規分布の確率密度関数は
$$\varphi(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{x^2}{2\sigma^2}\right)$$
このとき、nat単位(logの底をeにとる)での微分エントロピーは
$$\begin{aligned}
h(\varphi) &= -\int \varphi(x)\ \ln\varphi(x) dx
\\ &= -\int \varphi(x)\left(-\frac{x^2}{2\sigma^2}-\ln\sqrt{2\pi\sigma^2}\right)dx
\\ &= \frac{\mathbb{E}[X^2]}{2\sigma^2}+\frac{1}{2}\ln 2\pi\sigma^2
\\ &= \frac{1}{2}+\frac{1}{2}\ln 2\pi\sigma^2
\\ &= \frac{1}{2}\ln 2\pi e\sigma^2 \;\text{[nats]}. \end{aligned}
$$
対数の底を2に変えてビット単位にすると、
$$h(\varphi) = \frac{1}{2} \log_2(2\pi e \sigma^2) \quad \text{(bits)}$$
ポイント:
- 正規分布では、エントロピーが分散 \(\sigma^2\)の大きさに応じて増加します。\(\sigma^2\) が大きいほど「不確かさ」「情報量」も大きくなります。
微分エントロピーの性質
- 並進不変性:\(h(X+c)=h(X)\)
- スケール則:\(h(aX)=h(X)+\log|a|\)
- 最大エントロピー原理:分散が固定されるなら、\(h(X)\) を最大化するのは正規分布。
離散エントロピーと微分エントロピーの比較
離散エントロピー \(H(X)\) | 微分エントロピー \(h(X)\) | |
---|---|---|
定義 | \(H(X)= -\sum_{i} p_i \log p_i\) | \(h(X)= -\int_{S} f(x) \log f(x) dx\) |
単位 | bits(底2),nats(底\(e\)) | 同じ |
値域、値の範囲 | 非負 \(\ge 0\) | 負になることもある \((-\infty,\infty)\) |
座標変換(スケーリング) | 不変 | 座標系に依存。\(h(aX)=h(X)+\log|a|\) 「絶対的な情報量」としての解釈はできない。 |
- 離散エントロピーは「メッセージを符号化するのに平均何ビット要るか」という情報量の意味を持つ。
- 微分エントロピーは「密度 \(f(x)\) がどれだけ散らばっているか」を対数で測る。
- 相互情報量 \(I(X;Y) \)や KL ダイバージェンス \(D_{\text{KL}}(f\|g) \) は離散と同じ形で定義でき、スケールにも非依存で常に非負。
離散エントロピーと同じ式で、連続確率変数でエントロピーを定義できないのか
確率変数 X が離散的なら、シャノンエントロピー
$$H(X)= -\sum_{i} p_i \log p_i$$
でうまく定義できます。ところが 連続型 になると、次の2つの事情のせいで同じ定義はそのまま使えません。
点確率が 0 になる
連続分布では
$$P(X=x)=0$$
が成り立ちます。これは「実数上の任意の点をピンポイントで当てる確率は0」ということです。そのため、離散型のように「取り得る値を列挙して確率を掛ける」という操作自体ができません。
代わりに連続分布では確率密度関数 (pdf) f(x) を使いますが、確率密度は確率そのものではないので、\(f(x)\log f(x)\)を足し合わせても「情報量(ビット数)」という直感的意味が失われることになります。
極限を取ると定数が発散する
では「区間幅 \(\Delta\) で量子化して離散エントロピーを計算し、\(\Delta \to 0\) の極限を取れば?」と考えると、
$$H_\Delta(X)= -\sum_{k} P_k \log P_k \quad\text{with}\quad P_k = \int_{k\Delta}^{(k+1)\Delta} f(x) dx$$
となります。
\(\Delta \)が十分小さいとき、ビン内で \(f(x)\) はほぼ一定とみなせるので
$$P_k \approx f(x_k) \Delta,$$
ただし\( x_k\) はビン\( [k\Delta,(k+1)\Delta) \) 内の代表点(たとえば左端)です。これを用いると、
$$\begin{aligned} H_\Delta(X) &\approx -\sum_k f(x_k) \Delta \bigl[\log f(x_k) + \log\Delta \bigr] \\ &= -\sum_k f(x_k) \Delta \log f(x_k) – \log\Delta \sum_k f(x_k) \Delta. \end{aligned}$$
第1項について、\(\sum_k f(x_k) \Delta \log f(x_k) \)はリーマン和であり、\(\Delta \to 0 \)で
$$\int_{-\infty}^{\infty} f(x)\log f(x) dx.$$
第2項について、\( \sum_k f(x_k) \Delta\) は\(\int f(x) dx = 1 \)に収束するので
$$\log\Delta \sum_k f(x_k) \Delta \to \log\Delta.$$
ゆえに、
$$\begin{aligned} H_\Delta(X) &\xrightarrow[\Delta \to 0]{} -\int f(x)\log f(x)\,dx – \log\Delta \\ &= h(X) + \log\frac{1}{\Delta} \end{aligned}$$
という形になります。\(\Delta \to 0\)とすると \(\log(1/\Delta) \)が無限大になってしまいます。ここで
$$h(X) := -\int f(x)\log f(x) dx$$
は微分エントロピーです。
つまり、離散エントロピーの極限から抽出できる有限成分が微分エントロピーで、残りは「ビン幅に依存する発散項」になります。
まとめ
- 微分エントロピーは、連続確率変数における「不確かさ」の指標です。
- 計算は密度関数 \(f(x)\) を使った積分で行います。
- 負の値を取ることがあり、「情報量」の絶対的な単位とは異なります。
微分エントロピーは少し直感に合わない点もありますが、連続確率分布の広がりを定量化する便利な道具です。統計学や機械学習、信号処理など、様々な分野で重要な役割を果たしています。
参考
- THOMAS M. COVER and JOY A. THOMAS, Elements of Information Theory, A John Wiley & Sons, Inc., Publication
- Thomas M. Cover (著), Joy A. Thomas (著)
- Wiley
- 価格¥19,775(2025/08/07 16:57時点)
- Amazonで口コミ・レビューを見る