「情報量とエントロピー」とは何か; 意味・あいまいさ  (富澤貞男)東京理科大学

 学生からときどき「情報量とは何ですか?,エントロピーとは何ですか? 数学的な定義や導出でなく「意味」をわかりやすく解説してください」という質問を受けます.昔「情報理論演習」の授業を担当していたこともあり また私の研究(分割表統計解析)でも「情報量・エントロピー」を用いますので,具体例を用いて,「意味」をわかりやすく説明したいと思います.皆さまのお役に立てれば幸いです:

Q1
 情報理論における「情報量」とは何を意味していますか?

A1
(1)
 たとえば,K市の1丁目を考えます.1丁目には家が 120軒あります.1丁目はA1地区(60軒)とA2地区(60軒)からなっています.この1丁目のどこかの家に強盗が入りました.Mさんは目撃し,どの地区の家に強盗が隠れているか知っています.少し遅れて警察官がやって来ましたが,警察官は強盗がどこの家に隠れているか全くわかりません.警察官のところへMさんがやってきて,「私は強盗を見ました.A1地区(60軒)のどこかの家に隠れています」という情報を警察官に伝えました.この情報はどれくらいの価値があるのでしょうか? 

 Mさんの情報がなければ,警察官は1丁目の全家庭 120軒 を探す必要がありますが,Mさんの情報を得たとき(Mさんの情報は正しいとして),探す家はA1地区の60軒だけになります.つまり,強盗がどこに隠れているのかの「あいまいさ」(強盗を捜す軒数)が半分に減って,Mさんの情報は役に立っています.「あいまいさ」がちょうど 半分 に減る場合の減少量(情報量という)を1ビット(情報量の単位)といいます.情報量が1ビット増加するともいいます.(ビットとはbinary digit の略語 bitを意味しています).Mさんが「強盗はA1地区(60軒)に隠れています」と教えてくれた情報に関して,このときの情報量は「自己情報量」と呼ばれており,この場合は「あいまいさ」が半分になるので,この「自己情報量」は1ビットです.Mさんのこの情報は1ビットの価値があります.同様にMさんが「強盗はA2地区(60軒)に隠れています」と教えてくれた場合もこの情報の「自己情報量」は1ビットです.

 また,1丁目の全家庭120軒を60軒ずつに2等分して各地区に分けたとき,警察官がMさんに「強盗は2等分したA1地区とA2地区のどちらの地区に隠れていますか」と質問したとき,Mさんがこの後「強盗はA1地区とA2地区のどちらに隠れているか」を教えてくれる(質問に答えてくれる)情報は(MさんがA1地区と答えてくれるか,A2地区と答えてくれるかはまだわからないですが,この後 Mさんが教えてくれる期待される情報(予想される情報)は),警察官の強盗を捜す軒数の「あいまいさ」を 半分 に減らすことができます.警察官の質問に対して,Mさんがこの後,「A1地区(60軒)とA2地区(60軒)のどちらに強盗が隠れているのか」を答えてくれる期待されるこの情報に対しても,「あいまいさ」の減少量を示す「情報量」は1ビットといいます(下記の参考文献を参照).この期待される情報に対する情報量は「エントロピー (entropy)」と呼ばれ,A1地区とA2地区の「各自己情報量の平均(期待値)」となっています(エントロピーについては下記のQ2をご覧下さい).(「情報量」と言っても「自己情報量」と「エントロピー」では意味が違いますので注意してください).


(2)
 それでは,Mさんが「強盗はB1地区(30軒)に隠れています」と教えてくれた場合の情報に対する自己情報量はいくらでしょうか? 警察官は,Mさんのこの情報を知ることにより,探す家は120軒からB1地区の30軒だけに絞り込むことができます.つまり強盗がどこに隠れているのかの「あいまいさ」(強盗を捜す軒数)は4分の1に減ります.この場合の情報量を考えてみましょう.ここで1丁目の全家庭120軒を,仮に,B1地区(30軒),B2地区(30軒),B3地区(30軒),B4地区(30軒)に4等分してみます.第1段階として「(B1, B2)地区の60軒と(B3, B4)地区の60軒とに分けたとき,どちらの地区に強盗が隠れているか」を知らせてくれる情報は,「あいまいさ」が半分に減るので,1ビットです.第2段階として「B1地区(30軒)とB2地区(30軒)とに分けたとき,どちらの地区に強盗が隠れているか」を知らせてくれる情報は,「あいまいさ」が半分に減るので,1ビットです.したがって,Mさんが「強盗はB1地区(30軒)に隠れています」と教えてくれた情報は,「あいまいさ」を半分に減らすこと(1ビットの情報)を2回 繰り返してこの情報に到達するので,この情報の自己情報量(「あいまいさ」の減少量)は2ビットです.

 また,1丁目の全家庭120軒を30軒ずつに4等分して各地区に分けたとき,そして警察官がMさんに質問したとき,「強盗は4等分した地区(B1,B2,B3,B4の地区)のどの地区に隠れているか」を Mさんがこれから教えてくれる期待される情報は,犯人を捜す軒数の「あいまいさ」を 4分の1に減らしてくれる価値ある情報です.「あいまいさ」を半分に減らすことを2回 繰り返してこの情報に到達しますので,このときの「期待される情報」の情報量である「エントロピー」は 2ビットです(下記のQ2を参照).この「エントロピー」は各地区(B1,B2,B3,B4の地区)の「自己情報量の平均(期待値)」になっています.


(3)
 同様に,Mさんが「強盗はC地区(15軒)に隠れています」と教えてくれた場合の情報に対する情報量(自己情報量)はいくらでしょうか? 警察官はMさんのこの情報を知ることにより,探す家は120軒からC地区の15軒だけに絞り込めば良いです.この情報は大変に大きな価値があります.つまり探す家は,1丁目全体の120軒の半分の半分そしてさらに半分である8分の1になります.先と同様な考え方で,「強盗はC地区(15軒)に隠れています」という情報は,「あいまいさ」を半分に減らすこと(1ビットの情報)を3回 繰り返してこの情報に到達するので,この情報の自己情報量(「あいまいさ」の減少量)は3ビットになります.(この場合も上記と同様にして「エントロピー」が考えられますが,ここでは略します).


(4)
 これらの情報量は数式ではどのように求められるでしょうか? 「あいまいさ」の減少量が半分(2分の1)になったときの情報量を1ビット(情報量の単位)と呼び,さらに「あいまいさ」が半分になるごとに情報量が1ビットずつ増えます.そこで,上記の例で説明すると,1丁目の中で強盗を捜す軒数の割合の対数(ただし対数の底は2)を用いれば情報量が定義できます.つまり「強盗はA1地区(60軒)に隠れています」という情報は強盗を探す範囲の割合(あいまいさの割合,あるいは強盗が1丁目の中のA1地区に潜んでいる確率)が60/120 (=1/2)ですので,この情報の自己情報量は,-log(1/2)=1ビット となります.ここに対数の底は2 であり,マイナスをつけるのは情報量を0以上の値で表すためです.

 また,「強盗はB1地区(30軒)に隠れています」という情報の情報量は,強盗を捜す範囲の割合(強盗がB1地区に潜んでいる確率)は30/120 (=1/4)ですので,この自己情報量は,-log(1/4)=2ビット となります.同様に,「強盗はC地区(15軒)に隠れています」という情報の情報量は,強盗を探す範囲の割合(犯人がC地区に潜んでいる確率)は15/120 (=1/8)ですので,この自己情報量は,-log(1/8)=3ビット となります.

 一般に,1丁目(全120軒)のうち,ある地区(D地区とします)に家がy軒あったとします.このとき,Mさんが,「強盗はD地区の家に隠れています」という情報を警察官に伝えた場合,その情報量をmビット とします.強盗を捜す範囲の割合(強盗がD地区に潜んでいる確率)はy/120 (= Pと記す)ですので,この自己情報量は,m= -log P (ビット) となります(ただし,Pは正の値で,対数の底は2です).すなわち「 確率 Pは(2分の1)のm乗に等しい」という関係が成り立っています.ただし,m(ビット)は 0以上の 実数 です(整数とは限りません).


Q2
 情報理論における情報量である「エントロピー」とは何を意味していますか?

A2
(1)
 ここでは シャノン (Shannon) のエントロピー(entropy)を考えます(以下 Hと記すことにします).たとえば,Q1 で述べた例を考えましょう.K市の1丁目は,A地区,B地区,C地区,D地区の4つの地区に分かれているとします.1丁目の全家庭 120軒は,A地区は60軒,B地区は30軒,C地区は15軒,D地区は15軒であるとします.この1丁目のどこかの家に強盗が入りました.Mさんは目撃し,どこの家に強盗が隠れているか知っています.警察官は強盗がどこの家に隠れているか全くわかりません.Mさんのところへ警察官がやってきて,Mさんに「強盗はA地区,B地区,C地区,D地区のどの地区の家に隠れていますか」と尋ねました(質問しました).この後,Mさんが「強盗がどの地区に隠れているか」を警察官に教えてくれる情報(この質問に対する回答の情報)はどれくらいの価値があるのでしょうか? 

 Mさんが,もし,A地区と答えるならば自己情報量は1ビット,B地区と答えるならば自己情報量は2ビット,C地区と答えるならば自己情報量は3ビット,D地区と答えるならば自己情報量3ビットとなりますが,警察官のMさんへの質問で,Mさんから得られる情報(質問の回答)は,何ビットと期待できるか,つまり,各情報量の平均(期待値)で情報量(情報の価値)を考えます.自己情報量の平均(期待値)を示す情報量(平均情報量)はエントロピー H です.つまり,情報量である「エントロピー」は,H=-P1・log P1-P2・log P2-P3・log P3-P4・log P4となります.ここに,対数の底は 2 であり,P1=60/120, P2=30/120, P3=15/120, P4=15/120 です.つまり,Mさんが「強盗が,A, B, C, D地区のうち,どの地区に隠れているか」を警察官にこれから教えてくれる「期待される情報」に対する情報量はエントロピー H であり,この場合のエントロピーH(これからMさんが教えてくれる情報の価値を示す情報量)は 1.75ビット です. 


(2)
 もし各地区の家の数が同数,つまり,A地区,B地区,C地区,D地区のすべてが30軒ずつからなっていたとすると,情報量であるエントロピー H は 最大 となり,2ビット です(この場合は各地区に対する各自己情報量も2ビットです).すべて地区の家の軒数が同数ならば,警察官はどの地区に強盗が隠れているか全く見当がつかないです.したがって,この場合,Mさんからの情報の価値は非常に大きい(最大)と考えられます.


(3)
 逆に,A地区,B地区,C地区,D地区のどこか一つの地区にしか家がない場合,つまり,たとえば,A地区には家が120軒,B地区には0軒,C地区も0軒,D地区も0軒であったとします.この場合は,情報量であるエントロピー H は 最小 となり,0ビット です(なお,0log 0=0とします).つまり,Mさんからの情報は犯人捜しには全く役立たないことになります(情報の価値は最小,すなわち,ゼロ).なぜならば,Mさんからわざわざ「どの地区の家に強盗が隠れているか」という情報を教えてもらわなくても,警察は最初から「強盗はA地区の家に隠れている」と明らかにわかっているからです.


(註)
 上記のK市の1丁目が4つの地区に分かれている場合で,エントロピー H を説明しました.もし,1丁目が N個 の地区に分かれている場合に エントロピー H を考えることにすると,各地区の家の軒数によってエントロピー H の値は違います.エントロピー H の最小値は 0 (ビット)であり,最大値は log N (ビット)です(ただし,対数の底は 2 です).


Q3
 情報量は対数の底は2でなくても良いですか?

A3
 上記のQ1 とQ2 では情報量を定義するとき,対数の底は 2 に取りましたが,他にも 常用対数(対数の底を10に取った場合)で考えて情報量を求めても良いです.Q1の強盗犯人の例で考えると,K市の1丁目の全120軒の家を,仮にE1地区 (12軒),E2地区(12軒),...E10地区(12軒)に10等分したとします.このとき,Mさんが警察官に,たとえば,「強盗はE6地区(12軒)に隠れています」と教えてくれた場合は,強盗を捜す家は,全120軒からE6地区の12軒だけに絞り込むことができます.つまり強盗がどこに隠れているのかの「あいまいさ」(強盗を捜す軒数)は10分の1に減ります.「あいまいさ」がちょうど10分の1に減る場合の減少量を1デシット(decit)(または 1ディット(dit) あるいは1ハートレー(hartley))(情報量の単位)といいます.Mさんの「強盗はE6地区(12軒)に隠れています」という情報の(自己)情報量は1デシットです.つまり,この情報の(自己)情報量は,-log(1/10) = 1デシットとなります.ここに対数の底は10です.なお,1デシットは対数の底を2とした場合は,-log(1/10)より約3.322ビットです.また,この場合,Mさんが「強盗がE1地区からE10地区のどの地区に隠れているか」を警察官に教えてくれる情報に関するシャノンエントロピーは 1デシットです.

 さらに,自然対数(対数の底を e に取った場合)で考えて情報量を求めても良いです.ここにeは約2.718です.整数でないので強盗の例では正確には説明できませんが,かなり荒くeを約3とすると,Q1の犯人の例で考えると,K市の1丁目の全120軒の家を,仮にR1地区(40軒),R2地区(40軒),R3地区(40軒)に3等分したとします.このとき,Mさんが警察官に,たとえば,「強盗はR3地区(40軒)に隠れています」と教えてくれた場合は,強盗を捜す家は,全120軒からR3地区の40軒だけに絞り込むことができます.つまり,強盗がどこに隠れているのかの「あいまいさ」(強盗を捜す軒数)は3分の1に減ります.数学的に正確にいうと「あいまいさ」がちょうど,e分の1,つまり約0.368 に減る場合の減少量を1ナット(情報量の単位)といいます.(ナットとはnatural unit of information の略語です).Mさんの「強盗はR3地区(約40軒)に隠れています」という情報の(自己)情報量は,約1ナットです(正確には,-log(1/3)=1.099ナット(ただし対数の底はe)).つまり,「あいまいさ」が e分の1に減少する場合は,この情報の(自己)情報量は,-log(1/e) = 1ナットとなります.ここに対数の底はeです.なお,1ナットは,対数の底を2とした場合は,-log(1/e)より約1.443ビットです.

 「あいまいさ」が,2分の1,e分の1,10分の1に減少する減少量が,それぞれ,1ビット,1ナット,1デシットですので,情報量は1ビットよりも1ナットの方が大きく,1ナットよりも1デシットの方が大きいです.


Q4
 「あまいさ」に基づいて,2進数と情報量(エントロピー)との関係はどのように説明できますか?

A4
(1)
 Q1からQ3までと同様な例で説明します.たとえば,K市の1丁目のW地区を考えます.W地区には4軒の家があります.地域独自の住居番号が各家の郵便受けのところに表示されており,「00」,「01」,「10」,「11」となっています.この1丁目W地区のどこかの家に強盗が入りました.Mさんは目撃し,どこの家に強盗が隠れているか知っています.少し遅れて警察官がやって来ましたが,警察官は強盗がどこの家に隠れているか全くわかりません.警察官のところへMさんがやってきて,「私は強盗を見ました.強盗はW地区(4軒)のうち 住居番号が「10」の家に隠れています」という情報を警察官に伝えました.この情報はどれくらいの価値があるのでしょうか? 

 Mさんの情報がなければ,警察官はW地区の全家庭 4軒 を探す必要がありますが,警察官は,Mさんのこの情報を知ることにより,探す家は4軒からこの家1軒だけに絞り込むことができます.つまり強盗がどこに隠れているのかの「あいまいさ」(強盗を捜す軒数)は4分の1に減ります.したがって,Q1で述べたように,Mさんからのこの情報は「あいまいさ」を半分に減らすこと(1ビットの情報)を2回繰り返してこの情報に到達するので,この情報の自己情報量(「あいまいさ」の減少量)は2ビットです.

(補足すると,Mさんが教えてくれた住居番号「10」という情報は,まず最初に住居番号1桁目が「0」の2軒(住居番号「00」と「10」)だけを探せば良いので探す家が4軒から2軒に絞り込めて,「あいまいさ」が半分に減るので1ビットの情報が得られたことになります,その中で次に住居番号2桁目が「1」の家(つまり住居番号「10」)を探せばよいので,さらに2軒から1軒に絞り込めるので,つまり「あいまいさ」はさらに半分に減るので1ビットの情報量を得たことになります.よってMさんが教えてくれた「強盗はW地区の住居番号「10」の家に隠れています」という情報は,「あいまいさ」を半分に減らすことを 2回 行って,Mさんの情報に到達します.よってMさんのこの情報は 2ビット の情報の価値があります).


(2)
 次にK市の2丁目のY地区を考えます.Y地区には16軒の家があります.16軒の家の住居番号は,順に「0000」,「0001」,「0010」,「0011」,「0100」,...,「1110」,「1111」と数字0と1の4桁で表示されています.(各桁が0または1の数字の4桁からなる2進数での表示で,(2の4乗)通り,つまり16通りあります).先と同様の強盗の例で考えると,Mさんが警察官のところへやってきて,たとえば,「強盗は住居番号が「1001」の家に隠れています」と教えてくれた場合,警察官は,Mさんのこの情報を知ることにより,探す家は16軒からこの家1軒だけに絞り込むことができます.つまり強盗がどこに隠れているのかの「あいまいさ」(強盗を捜す軒数)は16分の1((2の4乗)分の1)に減ります.したがって,Mさんからのこの情報は「あいまいさ」を半分に減らすこと(1ビットの情報)を4回繰り返してこの情報に到達するので,この情報の自己情報量(「あいまいさ」の減少量)は4ビットです.

(補足すると,Mさんが教えてくれた住居番号「1001」という情報は,第1段階として住居番号1桁目が「1」の8軒だけを探せば良いので,探す家が16軒から8軒に絞り込めて,「あいまいさ」が半分に減るので1ビットの情報が得られたことになります,その中で第2段階として住居番号2桁目が「0」の家を探せばよいので,さらに8軒から4軒に絞り込めて,つまり「あいまいさ」はさらに半分に減るので1ビットの情報量を得たことになります.その中で第3段階として住居番号3桁目が「0」の家を探せばよいので,さらに4軒から2軒に絞り込めて,つまり「あいまいさ」はさらに半分に減るので1ビットの情報量を得たことになります.第4段階として住居番号4桁目が「1」の家を探せばよいので,さらに2軒から1軒に絞り込むことができ,さらに1ビットの情報を得たことになります.よってMさんが教えてくれた「強盗はW地区の住居番号「1001」の家に隠れています」という情報は,「あいまいさ」を半分に減らすことを 4回 行って,Mさんの情報に到達します.よってMさんのこの情報は 4ビット の情報の価値があります).


(3)
 さらにK市の3丁目のH地区を考えます.H地区には256軒の家があります.256軒の家の住居番号は,順に8桁表示で「00000000」,「00000001」,「00000010」,...,「11111110」,「11111111」と数字0と1のみで表示されています.((2の8乗)通り,つまり256通りあります).先と同様の強盗の例で考えると,Mさんが警察官のところへやってきて,たとえば,「強盗は住居番号が「11001010」の家に隠れています」と教えてくれた場合,警察官は,Mさんのこの情報を知ることにより,探す家は256軒からこの家1軒だけに絞り込むことができます.つまり強盗がどこに隠れているのかの「あいまいさ」(強盗を捜す軒数)は256分の1((2の8乗)分の1)に減ります.したがって,Mさんからのこの情報は「あいまいさ」を半分に減らすこと(1ビットの情報)を 8回 繰り返してこの情報に到達するので,この情報の自己情報量(「あいまいさ」の減少量)は 8ビット です.なお,皆さんご存じのように 8ビットは 1バイト(byte) とも呼ばれています.


(4)
 また,エントロピーH を考えてみましょう.Mさんのところへ警察官がやってきて,どの家に隠れているかを知っているMさんに「強盗は256軒のどの家に隠れていますか」と尋ねました(質問しました).この後,Mさんが「強盗が隠れている家(住居番号)」を警察官に教えてくれる「期待される情報」(この質問に対する回答の情報)はどれくらいの価値があるのでしょうか? なお,警察官は強盗がどの家に隠れているか全くわかりません.警察官のMさんへの質問で,Mさんからこれから得られる情報(質問の回答)は,何ビットと期待できるでしょうか? Mさんは回答する前の段階では,まだどの住居番号を言ってくれるか警察官にはわかりませんので,これからMさんが回答してくれる「期待される情報」は上記の各自己情報量の平均(期待値),すなわち,エントロピーHで情報量(情報の価値)を考えます.Q2で述べたように,自己情報量の平均(期待値)を示す情報量であるエントロピー H は,この場合,8ビット です.(なぜならば,警察官は強盗がどの家に隠れているか全くわかりませんので,Mさんが教えてくれる住居番号の自己情報量(どの住居番号であっても)は上記のように8ビットであり,強盗が各家に隠れている可能性(確率)はすべて同じ(1/256)ですので,256個の各自己情報量の平均(期待値)である情報量(つまりエントロピーH)は8ビットです).情報量といっても「自己情報量」と「エントロピー」では意味が違いますので,使い方には注意が必要かと思います.


Q5
 自己情報量を用いなくても「情報量(エントロピー)」は導出できますか?

A5
 自己情報量の考えを用いなくても「情報量(エントロピー)」は導出できます(下記の参考文献 [1] を参照).以下に上記の例を用いて説明したいと思います.K市の1丁目120軒は 北地区 80軒, 南地区 40軒 からなっています.さらに北地区は各20軒ずつからなるB1,B2,B3,B4地区に分かれています.南地区も各20軒ずつからなるB5,B6地区に分かれています.強盗がB1地区からB6地区までのどこかの地区の家に隠れています.Mさんは目撃し,どの地区の家に強盗が隠れているか知っています.警察官は強盗がどこの家に隠れているか知りません.以下の 3通り の質問を警察官がMさんにした場合,Mさんの回答はどれくらい「情報の価値」があるのかを示す「情報量」である「エントロピー」を考えてみましょう.

(質問 1)

 警察官がMさんに「強盗は6等分したB1地区からB6地区のどの地区に隠れていますか」と質問しました.この質問に対して,この後 Mさんが「強盗はB1地区からB6地区のどの地区に隠れているのか」を教えてくれる(質問に回答してくれる)情報は,強盗を捜す軒数を,120軒から6等分した一つである20軒だけに減らしてくれます.この後に得られるMさんの回答は,強盗を捜す軒数の「あいまいさ」を6等分した一つに減らしてくれるので,Mさんの回答は価値ある情報です.「あいまいさ」の減少量を示す「情報の価値」の程度を表すMさんのこの回答に対する情報量(エントロピー)は log 6(ビット)です(なお 単位がビットのときは対数の底は2です).

 (なお,Q1で述べましたように「あいまいさ」がちょうど 半分 に減る場合の減少量(情報量という)を 1ビット (情報量の単位)といいます.k等分したときの「あいまいさ」の減少量を示す情報量(エントロピー)は -log (1/k)=log k(ビット)です(対数の底は2).特に k=2のとき 1ビット,k=4のとき 2ビット,k=8のとき 3ビットです).

(質問 2)

 また,(質問 1)とは異なる方法で2段階((質問 2)と(質問 3)とします)に分けて質問してみることにします.第1段階の(質問 2) として,警察官がMさんに「強盗は 北地区(80軒)と南地区(40軒)のどちらの地区に隠れていますか」と質問しました.Mさんが「強盗は北地区と南地区のどちらの地区に隠れているのか」を教えてくれる(回答してくれる)この第1段階目の(質問 2)に対する回答の情報はどれだけの価値があるでしょうか.その価値を示す情報量(エントロピー)はいくらでしょうか.この場合 北地区と南地区は軒数が等分(2等分)されていないので「あいまいさ」の減少量を示す情報量はすぐには求まらないので,とりあえず y ビット としておきます.(ここでは自己情報量は用いずに,「あいまいさ」の減少量に基づいて情報量の導出を考えていますので,とりあえず y ビット としておきます).

(質問 3)

 第1段階の(質問 2)でMさんが「強盗は 北地区 に隠れています」と答えてくれた場合,第2段階目の(質問 3) として,警察官がMさんに「強盗は 北地区(80軒)の4等分したB1,B2,B3,B4地区のどの地区に隠れていますか」と質問して,Mさんが「強盗は4等分したどの地区に隠れているのか」を教えてくれる情報(仮に 「情報(3a)」とします)は,4等分した一つを教えてくれるので,「あいまいさ」は半分の半分に減るので(強盗を捜す軒数が80軒から20軒に減るので), その情報量(エントロピー)は log 4 (すなわち 2ビット )です(なお 対数の底は2です).

 一方,第1段階の(質問 2)でMさんが「強盗は 南地区 に隠れています」と答えてくれた場合は,第2段階目の(質問 3) として,警察官がMさんに「強盗は 南地区(40軒)の2等分したB5地区とB6地区のどちらの地区に隠れていますか」と質問して,Mさんが「強盗は2等分したどちらの地区に隠れているのか」を教えてくれる情報(仮に 「情報(3b)」 とします)は,2等分した一方を教えてくれるので,「あいまいさ」は半分に減るので(強盗を捜す軒数が40軒から20軒に減るので),その情報量(エントロピー)は log 2 (すなわち 1ビット) です.


(以上のことから次のことがいえます)

 第2段階目の(質問 3)は,第1段階の(質問 2)のMさんの回答(強盗は北地区に隠れているのか,南地区に隠れているのか)に依存して決まる質問です.ここに,北地区(80軒)と南地区(40軒)に強盗が潜んでいる可能性(確率)は,それぞれ,2/3 と 1/3 です.警察は強盗が北地区に隠れているのか,南地区に隠れているのかわからないので,警察官がMさんに2回に分けて これから質問((質問 2)と(質問 3))する場合,(質問 2)と(質問 3)に対するMさんからの回答は,それぞれどれくらいの価値があると考えられる(期待できる)でしょうか.最初の (質問 2) に対する回答の情報の価値を示す情報量を,先に述べたように,とりあえず,y ビット とします.

 次に (質問 3) に対する回答の情報の価値を示す情報量は,(強盗が北地区に隠れていた場合の条件付きの)「情報 (3a)」と(強盗が南地区に隠れていた場合の条件付きの)「情報 (3b)」の両情報量の平均(すなわち 期待される情報量)で示されます.すなわち,(2/3)log 4 + (1/3)log 2 (= 5/3 ビット)です.

 先に述べたように,Mさんに最初から (質問 1) をして,Mさんからの回答の情報を得ることにより,強盗を捜す「あいまいさ」(捜す軒数)は,120軒から20軒に減ります.このときの情報量(エントロピー)は log 6 です.

 一方,まず始めに第1段階の(質問 2)をしてさらに第2段階目の(質問 3)をして得られる回答の情報も,強盗を捜す「あいまいさ」(捜す軒数)は,最終的に120軒から20軒に減ります.どちらも同じ情報に到達する ので質問の仕方は異なっても,両者の情報の価値は同じ です.すなわち,(質問 1)に対する回答から得られる情報量は,(質問 2)の回答の情報量と(質問 3)の回答の情報量の として得られます.したがって,log 6 = y+5/3 が成り立ちます.これより,(質問 2)の回答に対する情報量(エントロピー)は,y = -(2/3)log(2/3)-(1/3)log(1/3) ビットとなります.

(結論)

 つまり,地区の軒数が等分割されてない場合も(北地区(80軒)と南地区(40軒)の場合も),情報量(エントロピー)が,「あいまいさ」の減少量を示す情報量として導出されます.このように自己情報量を用いなくても情報量(エントロピー)は導出できます.

 (ちなみに,(質問 2)で,Mさんが「強盗は北地区に隠れています」と答えてくれた場合の情報の自己情報量は -log(2/3) ビットとなり,Mさんが「強盗は南地区に隠れています」と答えてくれた場合の情報の自己情報量は -log(1/3) ビットとなります.したがって,(質問 2)で,Mさんが「強盗は北地区と南地区のどちらの地区に隠れているのか」を教えてくれる(回答してくれる)情報の情報量は,情報の価値がどれくらいであると期待できるかを示す自己情報量の平均(期待値)で考えて, -(2/3)log(2/3)-(1/3)log(1/3) (ビット)となり,先に求めた(質問 2)の回答に対する情報量(エントロピー)の y ビットと一致します).


(補足)

 「情報科学」や「情報量とエントロピー」の更なる詳細については よろしければ こちら をご覧下さい

参考文献
[1] 国沢清典: エントロピー・モデル (日科技連)
[2] 国沢清典: 情報理論 I (共立出版)

戻る