1948 年,香農(nóng)提出了“信息熵”(shāng) 的概念,解決了對信息的量化度量問題。
香農(nóng)指出,它的準(zhǔn)確信息量應(yīng)該是
= -(p1*log p1 + p2 * log p2 + ...?。?/span>p32 *log p32),
其中,p1,p2 ,?。?/span>p32 分別是這 32 個(gè)球隊(duì)奪冠的概率。香農(nóng)把它稱為“信息熵” (Entropy),一般用符號 H 表示,單位是比特。有興趣的讀者可以推算一下當(dāng) 32 個(gè)球隊(duì)奪冠概率相同時(shí),對應(yīng)的信息熵等于五比特。有數(shù)學(xué)基礎(chǔ)的讀者還可以證明上面公式的值不可能大于五。對于任意一個(gè)隨機(jī)變量 X(比如得冠軍的球隊(duì)),它的熵定義如下:H=-∑pi *log pi
變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
信息熵是信息論中用于度量信息量的一個(gè)概念。一個(gè)系統(tǒng)越是有序,信息熵就越低;
反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。所以,信息熵也可以說是系統(tǒng)有序化程度的一個(gè)度量。
香農(nóng)理論的重要特征是熵(entropy)的概念,他證明熵與信息內(nèi)容的不確定程度有等價(jià)關(guān)系。熵曾經(jīng)是波爾茲曼在熱力學(xué)第二定律引入的概念,我們可以把它理解為分子運(yùn)動(dòng)的混亂度。信息熵也有類似意義,例如在中文信息處理時(shí),漢字的靜態(tài)平均信息熵比較大,中文是9.65比特,英文是4.03比特。這表明中文的復(fù)雜程度高于英文,反映了中文詞義豐富、行文簡練,但處理難度也大。信息熵大,意味著不確定性也大。因此我們應(yīng)該深入研究,以尋求中文信息處理的深層突破。不能盲目認(rèn)為漢字是世界上最優(yōu)美的文字,從而引申出漢字最容易處理的錯(cuò)誤結(jié)論。
眾所周知,質(zhì)量、能量和信息量是三個(gè)非常重要的量。
人們很早就知道用秤或者天平計(jì)量物質(zhì)的質(zhì)量大小。然而,我們關(guān)于熱、燃料、功與能的計(jì)量問題,遲至19世紀(jì)中葉,隨著熱功當(dāng)量的明確和能量守恒定律的建立才逐漸清楚。能量一詞就是它們的總稱,而能量的計(jì)量則通過“卡、焦耳”等新單位的出現(xiàn)而得到解決。
然而,關(guān)于文字、數(shù)字、圖畫、聲音的知識已有幾千年歷史了。但是它們的總稱是什么,它們?nèi)绾谓y(tǒng)一地計(jì)量,直到19世紀(jì)末還沒有被正確地提出來,更談不上如何去解決了。20世紀(jì)初期,隨著電報(bào)、電話、照片、電視、無線電、雷達(dá)等的發(fā)展,如何計(jì)量信號中信息量的問題被隱約地提上日程。
1928年哈特利(R.V. H. Harley)考慮到從D個(gè)彼此不同的符號中取出N個(gè)符號并且組成一個(gè)“詞”的問題。如果各個(gè)符號出現(xiàn)的概率相同,而且是完全隨機(jī)選取的,就可以得到DN個(gè)不同的詞。從這些詞里取了特定的一個(gè)就對應(yīng)一個(gè)信息量I。哈特利建議用N log D這個(gè)量表示信息量,即I=N log D 。這里的log表示以10為底的對數(shù)。后來,1949年控制論的創(chuàng)始人維納也研究了度量信息的問題,還把它引向熱力學(xué)第二定律。
但是就信息傳輸給出基本數(shù)學(xué)模型的核心人物還是香農(nóng)。1948年香農(nóng)長達(dá)數(shù)十頁的論文“通信的數(shù)學(xué)理論”成了信息論正式誕生的里程碑。在他的通信數(shù)學(xué)模型中,清楚地提出信息的度量問題,他把哈特利的公式擴(kuò)大到概率pi不同的情況,得到了著名的計(jì)算信息熵H的公式:
H=∑-pi log pi
如果計(jì)算中的對數(shù)log是以2為底的,那么計(jì)算出來的信息熵就以比特(bit)為單位。今天在電腦和通信中廣泛使用的字節(jié)(Byte)、KB、MB、GB等詞都是從比特演化而來。“比特”的出現(xiàn)標(biāo)志著人類知道了如何計(jì)量信息量。香農(nóng)的信息論為明確什么是信息量概念作出決定性的貢獻(xiàn)。
事實(shí)上,香農(nóng)最初的動(dòng)機(jī)是把電話中的噪音除掉,他給出通信速率的上限,這個(gè)結(jié)論首先用在電話上,后來用到光纖,現(xiàn)在又用在無線通信上。我們今天能夠清晰地打越洋電話或衛(wèi)星電話,都與通信信道質(zhì)量的改善密切相關(guān)。
于是在20世紀(jì)中葉,人類終于對三個(gè)非常重要的概念:質(zhì)量、能量、信息量都有了定量的計(jì)量辦法。我們應(yīng)該牢記,為闡明質(zhì)量概念做出偉大貢獻(xiàn)的是發(fā)現(xiàn)物體力學(xué)定律的牛頓(Sir Isaac Newton,1642-1727),為闡明能量概念作出偉大貢獻(xiàn)的是熱力學(xué)第一定律的發(fā)現(xiàn)者們:邁耳(Julius Robert von Mayer,1814-1878)、焦耳(James Prescott Joule,1818-1899)、赫爾姆霍茲(Hermann von Helmholtz,1821-1894)、開爾文(Lord Kelvin,1824-1907),而為闡明信息概念作出偉大貢獻(xiàn)的就是香農(nóng)。
20世紀(jì)中期隨著原子彈的出現(xiàn),物理學(xué)成為最榮耀的科學(xué)學(xué)科。在隨后的50年里,晶體管、人造衛(wèi)星、集成電路、電腦的飛躍發(fā)展無不與物理學(xué)知識的應(yīng)用有關(guān)。但是我們也驚奇地發(fā)現(xiàn)這些新技術(shù)都是為提高信息的處理能力服務(wù)。光榮的物理學(xué)家們忙了半個(gè)世紀(jì),終于發(fā)現(xiàn)自己僅是給信息科學(xué)當(dāng)仆人。信息量能進(jìn)入物理學(xué)嗎?但“信息不是物質(zhì)”!在物理學(xué)的版圖中人們不知道把信息論放到哪里合適。人類知識體現(xiàn)的這種新的混亂局面需要我們不斷地澄清。
后來,他在人工智能方面也做了許多工作。例如他設(shè)計(jì)了一個(gè)電子老鼠來解決迷宮問題。他還研究過四色問題。他設(shè)計(jì)了國際象棋程序,發(fā)表在1950年的論文《Programming a computer for playing chess》中。1956年在洛斯阿拉莫斯的MANIAC計(jì)算機(jī)上實(shí)現(xiàn)了一個(gè)國際象棋的下棋程序。這一年香農(nóng)還發(fā)表論文說明通用圖靈機(jī)可以僅用兩個(gè)狀態(tài)構(gòu)建。