一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Python中關于coding=utf

 易禪浮屠 2021-10-31

寫了很久的Python了,每次寫之前都要在開頭加上coding=utf-8,只知道是設置編碼格式,但并沒有太在意,今天在寫socket編程時才發(fā)現(xiàn)編碼格式的重要性。

一、關于開頭coding=utf-8

開頭的coding=utf-8和coding:utf-8的作用是一樣的。

它們的作用都是聲明python代碼的文本格式是utf-8編碼的,也即告訴python解釋器要按照utf-8編碼的方式來讀取程序。

如果不加這個聲明,無論代碼中還是注釋中有中文都會報錯。

以下幾種方式都可以:

# coding=utf-8

a = 10
print '這是內(nèi)容'
# coding:utf-8

a = 10
print '這是內(nèi)容'

注意一點無論中間是:還是=,其中coding與它們之間都不能有空格。否則也會報錯。

注意:以上是針對Python2.x的版本而言,因為在Python2.x的版本中文本默認采用的是ASCII編碼方式,而Python3.x的版本中,默認使用的就是UTF-8編碼格式,所以就不需要在前面進行聲明了。

二、關于中文字符前面的u

首先,我們先從最開始的ASCII編碼開始說起,我們知道計算機在處理程序時是看不懂文字的,它眼里只有0/1數(shù)字。所以最開始的ASCII編碼是通過1個字節(jié)也就是8bit來表示英文字符。因為8個二進制位可以表示出256中狀態(tài),所以用來表示英文字符綽綽有余,因此ASCII碼只用到了8個二進制中的后七位,也就是可以得到128個字符。

但是像一些其他語言的字符想通過最多只能表示256個字符的ASCII編碼來表示就不太實際了。我們中華文明博大精深,光漢字就有超過6萬多,所以必須有一種可以表示更多字符的編碼方式,如常見的GB2312編碼方式,它是通過兩個字節(jié)來表示一個漢字,這樣最多就可以表示256*256=65536個字符了。

而由于GB2312不能處理一些古漢語或者人名中的一些罕見字,所以導致了后面的GBK編碼GB18030編碼方式的出現(xiàn)。其中,GBK也是雙字節(jié)的編碼方式,并且GBK字符集中共收入了21886個漢字和圖像符號。除此之外,GBK還可以與GB 2312完全兼容。

既然對于每種語言都有其對應的字符集,那么是否存在一種字符集可以包含世界上所有的符號呢。所以產(chǎn)生了Unicode編碼。Unicode編碼為世界上所有的語言的每個字符都設定了唯一的二進制編碼,這樣就可以實現(xiàn)跨語言進行文本轉(zhuǎn)換和傳輸了。

通過Unicode進行編碼時,不同字符所占用的位的長度是不同的,也就是說有的字符編碼僅需要幾位,而有的則需要十幾位,這就導致了如果都采用固定長度的編碼時,就會造成空間的浪費。所以就衍生出了對于Unicode編碼的不同實現(xiàn)方式,如常見到的UTF-8、UTF-16UTF-32,其中UTF-8是最為常用的編碼方式,它采用了變長字節(jié)的表示方式,即使用的字節(jié)數(shù)是可變的,這個變化是根據(jù)字符對應的Unicode編號的大小所變化的,即編號小的字符使用的字節(jié)數(shù)就少,編號大的字符使用的字節(jié)數(shù)就多,因此,使用的字節(jié)個數(shù)從1到4個不等。

所以,回到主題,Python中用到的字符串前面加上u的作用是聲明對后面的字符串進行unicode編碼,常用于中文字符串的處理。Unicode是書寫國際文本的標準方法,如果你想用你的母語來寫文本的時候,就需要一個支持Unicode的編譯器,Python允許處理Unicode文本,只需在字符串前加上前綴u即可。一般英文的字符串不需要進行任何編碼的處理,但是當你使用中文的時候,就需要在前面加上u了。

最后再引用知乎上某個大佬舉的例子來加深理解一下:https://www.zhihu.com/question/23374078/answer/65352538

 

舉一個例子:It's 知乎日報

你看到的unicode字符集是這樣的編碼表:

I 0049
t 0074
' 0027
s 0073
  0020
知 77e5
乎 4e4e
日 65e5
報 62a5

每一個字符對應一個十六進制數(shù)字。

計算機只懂二進制,因此,嚴格按照unicode的方式(UCS-2),應該這樣存儲:

I 00000000 01001001
t 00000000 01110100
' 00000000 00100111
s 00000000 01110011
  00000000 00100000
知 01110111 11100101
乎 01001110 01001110
日 01100101 11100101
報 01100010 10100101

這個字符串總共占用了18個字節(jié),但是對比中英文的二進制碼,可以發(fā)現(xiàn),英文前9位都是0!浪費啊,浪費硬盤,浪費流量。

怎么辦?

UTF。

UTF-8是這樣做的:

1. 單字節(jié)的字符,字節(jié)的第一位設為0,對于英語文本,UTF-8碼只占用一個字節(jié),和ASCII碼完全相同;

2. n個字節(jié)的字符(n>1),第一個字節(jié)的前n位設為1,第n+1位設為0,后面字節(jié)的前兩位都設為10,這n個字節(jié)的其余空位填充該字符unicode碼,高位用0補足。

這樣就形成了如下的UTF-8標記位:

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
... ...

于是,”It's 知乎日報“就變成了:

I 01001001
t 01110100
' 00100111
s 01110011
  00100000
知 11100111 10011111 10100101
乎 11100100 10111001 10001110
日 11100110 10010111 10100101
報 11100110 10001010 10100101

和上邊的方案對比一下,英文短了,每個中文字符卻多用了一個字節(jié)。但是整個字符串只用了17個字節(jié),比上邊的18個短了一點點。

另外一個漢字在UTF-8編碼的情況下可能需要三個字節(jié),而使用gbk兩個字節(jié)就足夠了,所以有時候為了節(jié)省流量和硬盤,在使用中文的時候,也有用gbk或者gbk2312編碼的。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    91精品国产综合久久福利| 亚洲婷婷开心色四房播播| 国产精品午夜福利在线观看 | 欧美日韩综合在线精品| 亚洲成人久久精品国产| 一区二区三区免费公开| 天海翼精品久久中文字幕 | 国产一级二级三级观看| 成人午夜激情免费在线| 色丁香之五月婷婷开心| 亚洲精品小视频在线观看| 精品国产亚洲av成人一区| 国产综合欧美日韩在线精品| 国产老熟女乱子人伦视频| 精品丝袜一区二区三区性色| 丰满的人妻一区二区三区| 久七久精品视频黄色的| 久久机热频这里只精品| 五月婷婷欧美中文字幕| 91精品欧美综合在ⅹ| 国产伦精品一区二区三区高清版| 大尺度激情福利视频在线观看| 成在线人免费视频一区二区| 亚洲高清欧美中文字幕| 精品少妇一区二区视频| 亚洲国产精品久久精品成人| 国产成人精品视频一区二区三区| 免费黄色一区二区三区| 天堂网中文字幕在线视频| 亚洲最新av在线观看| 国产级别精品一区二区视频| 国产人妻熟女高跟丝袜| 午夜视频成人在线免费| 日韩人妻有码一区二区| 亚洲一区二区亚洲日本| 中文字幕人妻日本一区二区| 人妻久久这里只有精品| 国产盗摄精品一区二区视频| 少妇毛片一区二区三区| 精品亚洲香蕉久久综合网| 一级片二级片欧美日韩|