原文:http://blog.csdn.net/54powerman/article/details/77575656 作者:54powerman
一直以為,java中任意unicode字符串,可以使用任意字符集轉為byte[]再轉回來,只要不拋出異常就不會丟失數據,事實證明這是錯的。 經過這個實例,也明白了為什么 getBytes()需要捕獲異常,雖然有時候它也沒有捕獲到異常。 言歸正傳,先看一個實例。 用ISO-8859-1中轉UTF-8數據 設想一個場景: 用戶A,有一個UTF-8編碼的字節(jié)流,通過一個接口傳遞給用戶B; 用戶B并不知道是什么字符集,他用ISO-8859-1來接收,保存; 在一定的處理流程處理后,把這個字節(jié)流交給用戶C或者交還給用戶A,他們都知道這是UTF-8,他們解碼得到的數據,不會丟失。 下面代碼驗證: 01 | public static void main(String[] args) throws Exception { |
02 | //這是一個unicode字符串,與字符集無關 |
05 | System.out.println( 'unicode字符串:' str1); |
08 | byte [] byteArray1=str1.getBytes( 'UTF-8' ); //這個很安全,UTF-8不會造成數據丟失 |
10 | System.out.println(byteArray1.length); //打印6,沒毛病 |
12 | //下面交給另外一個人,他不知道這是UTF-8字節(jié)流,因此他當做ISO-8859-1處理 |
14 | //將byteArray1當做一個普通的字節(jié)流,按照ISO-8859-1解碼為一個unicode字符串 |
15 | String str2= new String(byteArray1, 'ISO-8859-1' ); |
17 | System.out.println( '轉成ISO-8859-1會亂碼:' str2); |
19 | //將ISO-8859-1編碼的unicode字符串轉回為byte[] |
20 | byte [] byteArray2=str2.getBytes( 'ISO-8859-1' ); //不會丟失數據 |
25 | String str3= new String(byteArray2, 'UTF-8' ); |
27 | System.out.println( '數據沒有丟失:' str3); |
輸出: 用GBK中轉UTF-8數據 重復前面的流程,將ISO-8859-1 用GBK替換。 只把中間一段改掉: 1 | //將byteArray1當做一個普通的字節(jié)流,按照GBK解碼為一個unicode字符串 |
2 | String str2= new String(byteArray1, 'GBK' ); |
4 | System.out.println( '轉成GBK會亂碼:' str2); |
6 | //將GBK編碼的unicode字符串轉回為byte[] |
7 | byte [] byteArray2=str2.getBytes( 'GBK' ); //數據會不會丟失呢? |
運行結果: 好像沒有問題,這就是一個誤區(qū)。 修改原文字符串重新測試 將兩個漢字 “用戶” 修改為三個漢字 “用戶名” 重新測試。 ISO-8859-1測試結果: GBK 測試結果: 結論出來了 ISO-8859-1 可以作為中間編碼,不會導致數據丟失; GBK 如果漢字數量為偶數,不會丟失數據,如果漢字數量為奇數,必定會丟失數據。 why? 為什么奇數個漢字GBK會出錯 直接對比兩種字符集和奇偶字數的情形 重新封裝一下前面的邏輯,寫一段代碼來分析: 01 | public static void demo(String str) throws Exception { |
02 | System.out.println( '原文:' str); |
04 | byte [] utfByte = str.getBytes( 'UTF-8' ); |
05 | System.out.print( 'utf Byte:' ); |
07 | String gbk = new String(utfByte, 'GBK' ); //這里實際上把數據破壞了 |
08 | System.out.println( 'to GBK:' gbk); |
10 | byte [] gbkByte=gbk.getBytes( 'GBK' ); |
11 | String utf = new String(gbkByte, 'UTF-8' ); |
12 | System.out.print( 'gbk Byte:' ); |
14 | System.out.println( 'revert UTF8:' utf); |
15 | System.out.println( '===' ); |
16 | // 如果gbk變成iso-8859-1就沒問題 |
19 | public static void printHex( byte [] byteArray) { |
20 | StringBuffer sb = new StringBuffer(); |
21 | for ( byte b : byteArray) { |
22 | sb.append(Integer.toHexString((b >> 4 ) & 0xF )); |
23 | sb.append(Integer.toHexString(b & 0xF )); |
26 | System.out.println(sb.toString()); |
29 | public static void main(String[] args) throws Exception { |
32 | demo(str1, 'UTF-8' , 'ISO-8859-1' ); |
33 | demo(str2, 'UTF-8' , 'ISO-8859-1' ); |
35 | demo(str1, 'UTF-8' , 'GBK' ); |
36 | demo(str2, 'UTF-8' , 'GBK' ); |
輸出結果: 02 | UTF- 8 Byte:e5 a7 93 e5 90 8d |
04 | ISO- 8859 - 1 Byte:e5 a7 93 e5 90 8d |
08 | UTF- 8 Byte:e7 94 a8 e6 88 b7 e5 90 8d |
09 | to ISO- 8859 - 1 :?”¨??·??? |
10 | ISO- 8859 - 1 Byte:e7 94 a8 e6 88 b7 e5 90 8d |
14 | UTF- 8 Byte:e5 a7 93 e5 90 8d |
16 | GBK Byte:e5 a7 93 e5 90 8d |
20 | UTF- 8 Byte:e7 94 a8 e6 88 b7 e5 90 8d |
22 | GBK Byte:e7 94 a8 e6 88 b7 e5 90 3f |
為什么GBK會出錯 前三段都沒問題,最后一段,奇數個漢字的utf-8字節(jié)流轉成GBK字符串,再轉回來,前面一切正常,最后一個字節(jié),變成了 “0x3f”,即”?” 我們使用”用戶名” 三個字來分析,它的UTF-8 的字節(jié)流為: [e7 94 a8] [e6 88 b7] [e5 90 8d] 我們按照三個字節(jié)一組分組,他被用戶A當做一個整體交給用戶B。 用戶B由于不知道是什么字符集,他當做GBK處理,因為GBK是雙字節(jié)編碼,如下按照兩兩一組進行分組: [e7 94] [a8 e6] [88 b7] [e5 90] [8d ?] 不夠了,怎么辦?它把 0x8d當做一個未知字符,用一個半角Ascii字符的 “?” 代替,變成了: [e7 94] [a8 e6] [88 b7] [e5 90] 3f 數據被破壞了。 為什么 ISO-8859-1 沒問題 因為 ISO-8859-1 是單字節(jié)編碼,因此它的分組方案是: [e7] [94] [a8] [e6] [88] [b7] [e5] [90] [8d] 因此中間不做任何操作,交回個用戶A的時候,數據沒有變化。 關于Unicode編碼 因為UTF-16 區(qū)分大小端,嚴格講:unicode==UTF16BE。 view sourceprint? 1 | public static void main(String[] args) throws Exception { |
3 | printHex(str.getBytes( 'UNICODE' )); |
4 | printHex(str.getBytes( 'UTF-16LE' )); |
5 | printHex(str.getBytes( 'UTF-16BE' )); |
運行結果: 其中 “fe ff” 為大端消息頭,同理,小端消息頭為 “ff fe”。 小結 作為中間轉存方案,ISO-8859-1 是安全的。 UTF-8 字節(jié)流,用GBK字符集中轉是不安全的;反過來也是同樣的道理。 01 | byte [] utfByte = str.getBytes( 'UTF-8' ); |
02 | String gbk = new String(utfByte, 'GBK' ); |
03 | 這是錯誤的用法,雖然在ISO- 8859 - 1 時并沒報錯。 |
05 | 首先, byte [] utfByte = str.getBytes( 'UTF-8' ); |
06 | 執(zhí)行完成之后,utfByte 已經很明確,這是utf- 8 格式的字節(jié)流; |
08 | 然后,gbk = new String(utfByte, 'GBK' ), |
09 | 對utf- 8 的字節(jié)流使用gbk解碼,這是不合規(guī)矩的。 |
11 | 就好比一個美國人說一段英語,讓一個不懂英文又不會學舌的日本人聽,然后傳遞消息給另一個美國人。 |
15 | 因為它只認識一個一個的字節(jié),就相當于是一個錄音機。我管你說的什么鬼話連篇,過去直接播放就可以了。 |
getBytes() 是會丟失數據的操作,而且不一定會拋異常。 unicode是安全的,因為他是java使用的標準類型,跨平臺無差異。
|