情報理論における「情報量とエントロピー」とは何か; 意味・あいまいさ  (富澤貞男)東京理科大学

 学生からときどき「情報量とは何ですか?,エントロピーとは何ですか? 数学的な定義や導出でなく意味をわかりやすく解説してください」という質問を受けます.昔「情報理論演習」の授業を担当していたこともあり また私の研究(分割表統計解析)でも「情報量・エントロピー」を用いますので,具体例を用いてわかりやすく説明したいと思います.ご参考になりましたら幸いです:

Q1
 情報理論における「情報量」とは何を意味していますか?

A1
 たとえば,K市の1丁目を考えます.1丁目には家が 120軒あります.この1丁目のどこかの家に強盗が入りました.Mさんは目撃し,どこの家に犯人が隠れているか知っています.少し遅れて警察官がやって来ましたが,警察官は犯人がどこの家に隠れているか全くわかりません.警察官のところへMさんがやってきて,「私は犯人を見ました.犯人はA地区(60軒)のどこかの家に隠れています」という情報を警察官に伝えました.この情報はどれくらいの価値があるのでしょうか? 

 Mさんの情報がなければ,警察官は1丁目の全家庭 120軒 を探す必要がありますが,Mさんの情報を得たとき(Mさんの情報は正しいとして),探す家はA地区の60軒だけになります.つまり,犯人がどこに隠れているのかの「あいまいさ」(犯人を捜す軒数)が半分に減って,Mさんの情報は役に立っています.「あいまいさ」がちょうど半分に減る場合の減少量(情報量という)を1ビット(情報量の単位)といいます.情報量が1ビット増加するともいいます.(ビットとはbinary digit の略語 bitを意味しています).Mさんの「犯人はA地区に隠れています」という情報の(自己)情報量は1ビットです.

 それでは,Mさんが「犯人はB地区(30軒)に隠れています」と言った場合の情報に対する(自己)情報量はいくらでしょうか? 警察官は,Mさんのこの情報を知ることにより,探す家は120軒からB地区の30軒だけに絞り込むことができます.つまり犯人がどこに隠れているのかの「あいまいさ」(犯人を捜す軒数)は4分の1に減ります.この場合の情報量を考えてみましょう.ここで1丁目の全家庭120軒を,仮に,B地区(30軒),B1地区(30軒),B2地区(30軒),B3地区(30軒)に4等分に分けてみます.第1段階として「(B, B1)地区の60軒と(B2, B3)地区の60軒とに分けたとき,どちらの地区に犯人が隠れているか」を知らせてくれる情報は,「あいまいさ」が半分に減るので,1ビットです.第2段階として「B地区(30軒)とB1地区(30軒)とに分けたとき,どちらの地区に犯人が隠れているか」を知らせてくれる情報は,「あいまいさ」が半分に減るので,1ビットです.したがって,Mさんが「「犯人はB地区(30軒)に隠れています」と教えてくれた情報は,「あいまいさ」を半分に減らすこと(1ビットの情報)を2回繰り返してこの情報に到達するので,この情報の(自己)情報量(「あいまいさ」の減少量)は2ビットです.

 同様に,Mさんが「犯人はC地区(15軒)に隠れています」と言った場合の情報に対する(自己)情報量はいくらでしょうか? 警察官はMさんのこの情報を知ることにより,探す家は120軒からC地区の15軒だけに絞り込めば良いです.この情報は大変に大きな価値があります.つまり探す家は,1丁目全体の120軒の半分の半分そしてさらに半分である8分の1になります,先と同様な考え方で,「犯人はC地区(15軒)に隠れています」という情報は,「あいまいさ」を半分に減らすこと(1ビットの情報)を3回繰り返してこの情報に到達するので,この情報の(自己)情報量(「あいまいさ」の減少量)は3ビットになります.

 これらの情報量は数式ではどのように求められるでしょうか? 「あいまいさ」の減少量が半分(2分の1)になったときの情報量を1ビット(情報量の単位)と呼び,さらに「あいまいさ」が半分になるごとに情報量が1ビットずつ増えます.そこで,上記の例で説明すると,1丁目の中で犯人を捜す軒数の割合の対数(ただし対数の底は2)を用いれば情報量が定義できます.つまり「犯人はA地区(60軒)に隠れています」という情報は犯人を探す範囲の割合(あいまいさの割合,あるいは犯人が1丁目の中のA地区に潜んでいる確率)が60/120 (=1/2)ですので,この情報の(自己)情報量は,-log(1/2)=1ビットとなります.ここに対数の底は2であり,マイナスをつけるのは情報量を0以上の値で表すためです.

 また,「犯人はB地区(30軒)に隠れています」という情報の情報量は,犯人を捜す範囲の割合(犯人がB地区に潜んでいる確率)は30/120 (=1/4)ですので,この(自己)情報量は,-log(1/4)=2ビットとなります.同様に,「犯人はC地区(15軒)に隠れています」という情報の情報量は,犯人を探す範囲の割合(犯人がC地区に潜んでいる確率)は15/120 (=1/8)ですので,この(自己)情報量は,-log(1/8)=3ビットとなります.

 一般に,1丁目(全120軒)のうち,ある地区(D地区とします)に家がy軒あったとします.このとき,Mさんが,「犯人はD地区の家に隠れています」という情報を警察官に伝えた場合,その情報量をmビットとします.犯人を捜す範囲の割合(犯人がD地区に潜んでいる確率)はy/120 (= Pと記す)ですので,この(自己)情報量は,m= -log P (ビット)となります(ただし,Pは正の値で,対数の底は2です).すなわち「 確率 Pは(2分の1)のm乗に等しい」という関係が成り立っています.ただし,m(ビット)は 0以上の実数です(整数とは限りません).


Q2
 情報理論における「エントロピー」とは何を意味していますか?

A2
 ここではシャノン (Shannon) のエントロピー(entropy)を考えます.たとえば,Q1 で述べた例を考えましょう.K市の1丁目は,A地区,B地区,C地区,D地区の4つの地区に分かれているとします.1丁目の全家庭 120軒は,A地区は60軒,B地区は30軒,C地区は15軒,D地区は15軒であるとします.この1丁目のどこかの家に強盗が入りました.Mさんは目撃し,どこの家に犯人が隠れているか知っています.警察官は犯人がどこの家に隠れているか全くわかりません.Mさんのところへ警察官がやってきて,Mさんに「犯人はA地区,B地区,C地区,D地区のどの地区の家に隠れていますか」と尋ねました(質問しました).この後,Mさんが「犯人がどの地区に隠れているか」を警察官に教えてくれる情報(この質問に対する回答の情報)はどれくらいの価値があるのでしょうか? 

 Mさんが,もし,A地区と答えるならば(自己)情報量は1ビット,B地区と答えるならば2ビット,C地区と答えるならば3ビット,D地区と答えるならば3ビットとなりますが,警察官のMさんへの質問で,Mさんから得られる情報(質問の回答)は,何ビットと期待できるか,つまり,各情報量の平均で情報量(情報の価値)を考えます.(自己)情報量の平均を示す情報量はシャノンエントロピー H です.つまり,情報量は,H=-P1・log P1-P2・log P2-P3・log P3-P4・log P4となります.ここに,対数の底は 2 であり,P1=60/120, P2=30/120, P3=15/120, P4=15/120 です.つまり,Mさんが「犯人が,A, B, C, D地区のうち,どの地区に隠れているか」を警察官に教えてくれる情報に関する情報量はシャノンエントロピー Hであり,この場合のHは 1.75ビットです. 

 もし各地区の家の数が同数,つまり,A地区,B地区,C地区,D地区のすべてが30軒ずつからなっていたとすると,エントロピー H は最大となり,2ビットです(この場合は各地区に対する自己情報量もエントロピーHと同じになり,2ビットです).すべて地区の家の軒数が同数ならば,警察官はどの地区に犯人が隠れているか全く見当がつかないです.したがって,この場合,Mさんからの情報の価値は非常に大きい(最大)と考えられます.

 逆に,A地区,B地区,C地区,D地区のどこか一つの地区にしか家がない場合,つまり,たとえば,A地区には家が120軒,B地区には0軒,C地区も0軒,D地区も0軒であったとします.この場合はエントロピー H は最小となり,0ビットです(なお,0log 0=0とします).つまり,Mさんからの情報は犯人捜しには全く役立たないことになります.Mさんからわざわざ「どの地区の家に犯人が隠れているか」を教えてもらわなくても,警察は最初から「犯人はA地区の家に隠れている」と明らかにわかっているからです.


Q3
 情報量は対数の底は2でなくても良いですか?

A3
 上記のQ1 とQ2 では情報量を定義するとき,対数の底は 2 に取りましたが,他にも 常用対数(対数の底を10に取った場合)で考えて情報量を求めても良いです.Q1の強盗犯人の例で考えると,K市の1丁目の全120軒の家を,仮にE1地区 (12軒),E2地区(12軒),...E10地区(12軒)に10等分したとします.このとき,Mさんが警察官に,たとえば,「犯人はE6地区(12軒)に隠れています」と教えてくれた場合は,犯人を捜す家は,全120軒からE6地区の12軒だけに絞り込むことができます.つまり犯人がどこに隠れているのかの「あいまいさ」(犯人を捜す軒数)は10分の1に減ります.「あいまいさ」がちょうど10分の1に減る場合の減少量を1デシット(decit)(または 1ディット(dit) あるいは1ハートレー(hartley))(情報量の単位)といいます.Mさんの「犯人はE6地区(12軒)に隠れています」という情報の(自己)情報量は1デシットです.つまり,この情報の(自己)情報量は,-log(1/10) = 1デシットとなります.ここに対数の底は10です.なお,1デシットは対数の底を2とした場合は,-log(1/10)より約3.322ビットです.また,この場合,Mさんが「犯人がE1地区からE10地区のどの地区に隠れているか」を警察官に教えてくれる情報に関するシャノンエントロピーは 1デシットです.

 さらに,自然対数(対数の底を e に取った場合)で考えて情報量を求めても良いです.ここにeは約2.718です.整数でないので強盗犯人の例では正確には説明できませんが,かなり荒くeを約3とすると,Q1の強盗犯人の例で考えると,K市の1丁目の全120軒の家を,仮にR1地区(40軒),R2地区(40軒),R3地区(40軒)に3等分したとします.このとき,Mさんが警察官に,たとえば,「犯人はR3地区(40軒)に隠れています」と教えてくれた場合は,犯人を捜す家は,全120軒からR3地区の40軒だけに絞り込むことができます.つまり犯人がどこに隠れているのかの「あいまいさ」(犯人を捜す軒数)は3分の1に減ります.数学的に正確にいうと「あいまいさ」がちょうど,e分の1,つまり約0.368 に減る場合の減少量を1ナット(情報量の単位)といいます.(ナットとはnatural unit of information の略語です).Mさんの「犯人はR3地区(約40軒)に隠れています」という情報の(自己)情報量は,約1ナットです(正確には,-log(1/3)=1.099ナット(ただし対数の底はe)).つまり,「あいまいさ」が e分の1に減少する場合は,この情報の(自己)情報量は,-log(1/e) = 1ナットとなります.ここに対数の底はeです.なお,1ナットは,対数の底を2とした場合は,-log(1/e)より約1.443ビットです.

 「あいまいさ」が,2分の1,e分の1,10分の1に減少する減少量が,それぞれ,1ビット,1ナット,1デシットですので,情報量は1ビットよりも1ナットの方が大きく,1ナットよりも1デシットの方が大きいです.


Q4
 「あまいさ」に基づいて,2進数と情報量(エントロピー)との関係はどのように説明できますか?

A4
 Q1からQ3までと同様な例で説明します.たとえば,K市の1丁目のW地区を考えます.W地区には4軒の家があります.地域独自の住居番号が各家の郵便受けのところに表示されており,「00」,「01」,「10」,「11」となっています.この1丁目W地区のどこかの家に強盗が入りました.Mさんは目撃し,どこの家に犯人が隠れているか知っています.少し遅れて警察官がやって来ましたが,警察官は犯人がどこの家に隠れているか全くわかりません.警察官のところへMさんがやってきて,「私は犯人を見ました.犯人はW地区(4軒)のうち 住居番号が「10」の家に隠れています」という情報を警察官に伝えました.この情報はどれくらいの価値があるのでしょうか? 

 Mさんの情報がなければ,警察官はW地区の全家庭 4軒 を探す必要がありますが,警察官は,Mさんのこの情報を知ることにより,探す家は4軒からこの家1軒だけに絞り込むことができます.つまり犯人がどこに隠れているのかの「あいまいさ」(犯人を捜す軒数)は4分の1に減ります.したがって,Q1で述べたように,Mさんからのこの情報は「あいまいさ」を半分に減らすこと(1ビットの情報)を2回繰り返してこの情報に到達するので,この情報の(自己)情報量(「あいまいさ」の減少量)は2ビットです.

(補足すると,Mさんが教えてくれた住居番号「10」という情報は,まず最初に住居番号1桁目が「0」の2軒(住居番号「00」と「10」)だけを探せば良いので探す家が4軒から2軒に絞り込めて,「あいまいさ」が半分に減るので1ビットの情報が得られたことになります,その中で次に住居番号2桁目が「1」の家(つまり住居番号「10」)を探せばよいので,さらに2軒から1軒に絞り込めるので,つまり「あいまいさ」はさらに半分に減るので1ビットの情報量を得たことになります.よってMさんが教えてくれた「犯人はW地区の住居番号「10」の家に隠れています」という情報は,「あいまいさ」を半分に減らすことを2回行って,Mさんの情報に到達します.よってMさんのこの情報は2ビットの情報の価値があります).

 次にK市の2丁目のY地区を考えます.Y地区には16軒の家があります.16軒の家の住居番号は,順に「0000」,「0001」,「0010」,「0011」,「0100」,...,「1110」,「1111」と数字0と1の4桁で表示されています.(各桁が0または1の数字の4桁からなる2進数での表示で,(2の4乗)通り,つまり16通りあります).先と同様の強盗犯人の例で考えると,Mさんが警察官のところへやってきて,たとえば,「犯人は住居番号が「1001」の家に隠れています」と教えてくれた場合,警察官は,Mさんのこの情報を知ることにより,探す家は16軒からこの家1軒だけに絞り込むことができます.つまり犯人がどこに隠れているのかの「あいまいさ」(犯人を捜す軒数)は16分の1((2の4乗)分の1)に減ります.したがって,Mさんからのこの情報は「あいまいさ」を半分に減らすこと(1ビットの情報)を4回繰り返してこの情報に到達するので,この情報の(自己)情報量(「あいまいさ」の減少量)は4ビットです.

(補足すると,Mさんが教えてくれた住居番号「1001」という情報は,第1段階として住居番号1桁目が「1」の8軒だけを探せば良いので,探す家が16軒から8軒に絞り込めて,「あいまいさ」が半分に減るので1ビットの情報が得られたことになります,その中で第2段階として住居番号2桁目が「0」の家を探せばよいので,さらに8軒から4軒に絞り込めて,つまり「あいまいさ」はさらに半分に減るので1ビットの情報量を得たことになります.その中で第3段階として住居番号3桁目が「0」の家を探せばよいので,さらに4軒から2軒に絞り込めて,つまり「あいまいさ」はさらに半分に減るので1ビットの情報量を得たことになります.第4段階として住居番号4桁目が「1」の家を探せばよいので,さらに2軒から1軒に絞り込むことができ,さらに1ビットの情報を得たことになります.よってMさんが教えてくれた「犯人はW地区の住居番号「1001」の家に隠れています」という情報は,「あいまいさ」を半分に減らすことを4回行って,Mさんの情報に到達します.よってMさんのこの情報は4ビットの情報の価値があります).

 さらにK市の3丁目のH地区を考えます.H地区には256軒の家があります.256軒の家の住居番号は,順に8桁表示で「00000000」,「00000001」,「00000010」,...,「11111110」,「11111111」と数字0と1のみで表示されています.((2の8乗)通り,つまり256通りあります).先と同様の強盗犯人の例で考えると,Mさんが警察官のところへやってきて,たとえば,「犯人は住居番号が「11001010」の家に隠れています」と教えてくれた場合,警察官は,Mさんのこの情報を知ることにより,探す家は256軒からこの家1軒だけに絞り込むことができます.つまり犯人がどこに隠れているのかの「あいまいさ」(犯人を捜す軒数)は256分の1((2の8乗)分の1)に減ります.したがって,Mさんからのこの情報は「あいまいさ」を半分に減らすこと(1ビットの情報)を8回繰り返してこの情報に到達するので,この情報の(自己)情報量(「あいまいさ」の減少量)は8ビットです.なお,皆さんご存じのように 8ビットは1バイト(byte)とも呼ばれています.

 また,エントロピーを考えてみましょう.Mさんのところへ警察官がやってきて,どの家に隠れているかを知っているMさんに「犯人は256軒のどの家に隠れていますか」と尋ねました(質問しました).この後,Mさんが「犯人が隠れている家(住居番号)」を警察官に教えてくれる情報(この質問に対する回答の情報)はどれくらいの価値があるのでしょうか? なお,警察官は犯人がどの家に隠れているか全くわかりません.警察官のMさんへの質問で,Mさんからこれから得られる情報(質問の回答)は,何ビットと期待できるでしょうか? Mさんは回答する前の段階では,まだどの住居番号を言ってくれるか警察官にはわかりませんので,これからMさんが回答してくれる情報は上記の各(自己)情報量の平均で情報量(情報の価値)を考えます.Q2で述べたように,(自己)情報量の平均を示す情報量であるシャノンエントロピー H は,この場合,8ビットです.(なぜならば,警察官は犯人がどの家に隠れているか全くわかりませんので,Mさんが教えてくれる住居番号の自己情報量(どの住居番号であっても)は上記のように8ビットであり,犯人が各家に隠れている可能性(確率)はすべて同じ(1/256)ですので,256個の各自己情報量の平均を取った情報量(つまりエントロピーH)は8ビットです).情報量といっても自己情報量とエントロピーでは意味が違いますので,使い方には注意が必要かと思います.


(補足)

 「情報科学」や「情報量とエントロピー」の更なる詳細については よろしければ こちら をご覧下さい

参考文献
国沢清典: エントロピー・モデル (日科技連)
国沢清典: 情報理論 I (共立出版)

 戻る