信息熵

vvviiiooo 2008-09-18

展開全文

1948 年，香農(nóng)提出了“信息熵”(shāng) 的概念，解決了對信息的量化度量問題。

    香農(nóng)指出，它的準(zhǔn)確信息量應(yīng)該是

    = -（p1*log p1 + p2 * log p2 +　．．．?。?/span>p32 *log p32)，

    其中，p1，p2 ，?。?/span>p32 分別是這 32 個(gè)球隊(duì)奪冠的概率。香農(nóng)把它稱為“信息熵” (Entropy)，一般用符號 H 表示，單位是比特。有興趣的讀者可以推算一下當(dāng) 32 個(gè)球隊(duì)奪冠概率相同時(shí)，對應(yīng)的信息熵等于五比特。有數(shù)學(xué)基礎(chǔ)的讀者還可以證明上面公式的值不可能大于五。對于任意一個(gè)隨機(jī)變量 X（比如得冠軍的球隊(duì)），它的熵定義如下：H=-∑pi *log pi

    變量的不確定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。
    信息熵是信息論中用于度量信息量的一個(gè)概念。一個(gè)系統(tǒng)越是有序，信息熵就越低；
    反之，一個(gè)系統(tǒng)越是混亂，信息熵就越高。所以，信息熵也可以說是系統(tǒng)有序化程度的一個(gè)度量。
    香農(nóng)理論的重要特征是熵(entropy)的概念，他證明熵與信息內(nèi)容的不確定程度有等價(jià)關(guān)系。熵曾經(jīng)是波爾茲曼在熱力學(xué)第二定律引入的概念，我們可以把它理解為分子運(yùn)動(dòng)的混亂度。信息熵也有類似意義，例如在中文信息處理時(shí)，漢字的靜態(tài)平均信息熵比較大，中文是9.65比特，英文是4.03比特。這表明中文的復(fù)雜程度高于英文，反映了中文詞義豐富、行文簡練，但處理難度也大。信息熵大，意味著不確定性也大。因此我們應(yīng)該深入研究，以尋求中文信息處理的深層突破。不能盲目認(rèn)為漢字是世界上最優(yōu)美的文字，從而引申出漢字最容易處理的錯(cuò)誤結(jié)論。
眾所周知，質(zhì)量、能量和信息量是三個(gè)非常重要的量。
人們很早就知道用秤或者天平計(jì)量物質(zhì)的質(zhì)量大小。然而，我們關(guān)于熱、燃料、功與能的計(jì)量問題，遲至19世紀(jì)中葉，隨著熱功當(dāng)量的明確和能量守恒定律的建立才逐漸清楚。能量一詞就是它們的總稱，而能量的計(jì)量則通過“卡、焦耳”等新單位的出現(xiàn)而得到解決。
然而，關(guān)于文字、數(shù)字、圖畫、聲音的知識已有幾千年歷史了。但是它們的總稱是什么，它們?nèi)绾谓y(tǒng)一地計(jì)量，直到19世紀(jì)末還沒有被正確地提出來，更談不上如何去解決了。20世紀(jì)初期，隨著電報(bào)、電話、照片、電視、無線電、雷達(dá)等的發(fā)展，如何計(jì)量信號中信息量的問題被隱約地提上日程。
1928年哈特利(R.V. H. Harley)考慮到從D個(gè)彼此不同的符號中取出N個(gè)符號并且組成一個(gè)“詞”的問題。如果各個(gè)符號出現(xiàn)的概率相同，而且是完全隨機(jī)選取的，就可以得到DN個(gè)不同的詞。從這些詞里取了特定的一個(gè)就對應(yīng)一個(gè)信息量I。哈特利建議用N log D這個(gè)量表示信息量，即I=N log D 。這里的log表示以10為底的對數(shù)。后來，1949年控制論的創(chuàng)始人維納也研究了度量信息的問題，還把它引向熱力學(xué)第二定律。
但是就信息傳輸給出基本數(shù)學(xué)模型的核心人物還是香農(nóng)。1948年香農(nóng)長達(dá)數(shù)十頁的論文“通信的數(shù)學(xué)理論”成了信息論正式誕生的里程碑。在他的通信數(shù)學(xué)模型中，清楚地提出信息的度量問題，他把哈特利的公式擴(kuò)大到概率pi不同的情況，得到了著名的計(jì)算信息熵H的公式：
H=∑-pi log pi
如果計(jì)算中的對數(shù)log是以2為底的，那么計(jì)算出來的信息熵就以比特(bit)為單位。今天在電腦和通信中廣泛使用的字節(jié)(Byte)、KB、MB、GB等詞都是從比特演化而來。“比特”的出現(xiàn)標(biāo)志著人類知道了如何計(jì)量信息量。香農(nóng)的信息論為明確什么是信息量概念作出決定性的貢獻(xiàn)。
事實(shí)上，香農(nóng)最初的動(dòng)機(jī)是把電話中的噪音除掉，他給出通信速率的上限，這個(gè)結(jié)論首先用在電話上，后來用到光纖，現(xiàn)在又用在無線通信上。我們今天能夠清晰地打越洋電話或衛(wèi)星電話，都與通信信道質(zhì)量的改善密切相關(guān)。
    于是在20世紀(jì)中葉，人類終于對三個(gè)非常重要的概念：質(zhì)量、能量、信息量都有了定量的計(jì)量辦法。我們應(yīng)該牢記，為闡明質(zhì)量概念做出偉大貢獻(xiàn)的是發(fā)現(xiàn)物體力學(xué)定律的牛頓(Sir Isaac Newton，1642-1727)，為闡明能量概念作出偉大貢獻(xiàn)的是熱力學(xué)第一定律的發(fā)現(xiàn)者們：邁耳(Julius Robert von Mayer，1814-1878)、焦耳(James Prescott Joule，1818-1899)、赫爾姆霍茲(Hermann von Helmholtz，1821-1894)、開爾文(Lord Kelvin，1824-1907)，而為闡明信息概念作出偉大貢獻(xiàn)的就是香農(nóng)。
20世紀(jì)中期隨著原子彈的出現(xiàn)，物理學(xué)成為最榮耀的科學(xué)學(xué)科。在隨后的50年里，晶體管、人造衛(wèi)星、集成電路、電腦的飛躍發(fā)展無不與物理學(xué)知識的應(yīng)用有關(guān)。但是我們也驚奇地發(fā)現(xiàn)這些新技術(shù)都是為提高信息的處理能力服務(wù)。光榮的物理學(xué)家們忙了半個(gè)世紀(jì)，終于發(fā)現(xiàn)自己僅是給信息科學(xué)當(dāng)仆人。信息量能進(jìn)入物理學(xué)嗎？但“信息不是物質(zhì)”！在物理學(xué)的版圖中人們不知道把信息論放到哪里合適。人類知識體現(xiàn)的這種新的混亂局面需要我們不斷地澄清。
后來，他在人工智能方面也做了許多工作。例如他設(shè)計(jì)了一個(gè)電子老鼠來解決迷宮問題。他還研究過四色問題。他設(shè)計(jì)了國際象棋程序，發(fā)表在1950年的論文《Programming a computer for playing chess》中。1956年在洛斯阿拉莫斯的MANIAC計(jì)算機(jī)上實(shí)現(xiàn)了一個(gè)國際象棋的下棋程序。這一年香農(nóng)還發(fā)表論文說明通用圖靈機(jī)可以僅用兩個(gè)狀態(tài)構(gòu)建。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： vvviiiooo > 《信息熵》

舉報(bào)/認(rèn)領(lǐng)