一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

JAVA 對(duì) URL 進(jìn)行 編碼與解碼

 david.tao 2006-08-29

因?yàn)樵谧鲦溄觼?lái)源統(tǒng)計(jì)的時(shí)候需要把 http://www.baidu.com/baidu?word=%D6%D0%B9%FA%B4%F3%B0%D9%BF%C6%D4%DA%CF%DF%C8%AB%CE%C4%BC%EC%CB%F7&tn=myie2dg  這類的URL編碼還原成明文字串,一般大部分的網(wǎng)站都是用普通的URL編碼形式,如上面鏈接中的badu,這種很容易轉(zhuǎn)換和還原,Java包里提供了兩個(gè)類的不同方法URLEncode.encode()和URLDecode.decode()可以很方便實(shí)現(xiàn),但也有特別一點(diǎn)的就是Google了,http://www.google.com/search?hl=zh-CN&newwindow=1&q=%E4%B8%AD%E5%9B%BD%E5%A4%A7%E7%99%BE%E7%A7%91%E5%9C%A8%E7%BA%BF%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2&btnG=%E6%90%9C%E7%B4%A2&lr= 他們的編碼和別人不一樣,如果使用URLDecode.decode()的話則變成亂碼,查詢的一些相關(guān)資料都說(shuō)Google使用的是UTF-8編碼,這點(diǎn)我就有些奇怪了,如果Google使用的是UTF-8編碼,那別人使用的又是什么?IE的高級(jí)選項(xiàng)里不是有項(xiàng)“始終以UTF-8形式發(fā)送URL”的嗎?但是UTF-8一個(gè)中文是3byte,而一般的編碼則是2個(gè)byte,這就是為什么一般的URL中是以兩組‘%‘代碼表示一個(gè)漢字,如“中”的URL編碼為"%D6%D0",而UTF-8則為3組,“中”為"%E4%B8%AD",這個(gè)問(wèn)題我在Google里也沒(méi)得到較好回答。我對(duì)各種編碼形式了解的不是很好,之前只看過(guò)如何將字符串轉(zhuǎn)成Utf8-URL編碼的方法,其實(shí)也挺簡(jiǎn)單的,直接轉(zhuǎn)成byte后直接取其16進(jìn)制值前面加個(gè)%就行,還原方法在網(wǎng)上搜了幾圈居然沒(méi)發(fā)現(xiàn)有現(xiàn)成的!倒是也是幾個(gè)人在CSDN問(wèn)了此類的問(wèn)題。最后還是決定自己搞定了,基本上是toUTF8的原路退回法,再加了個(gè)檢測(cè)URL鏈接是否UTF-8形式的方法,覺(jué)得已經(jīng)蠻好用了。可以拿出來(lái)share一下。

 

 

 

import java.io.UnsupportedEncodingException;
            import java.net.URLEncoder;
            import java.net.URLDecoder;
            /**
            * <p>Title:字符編碼工具類 </p>
            * <p>Description:  </p>
            * <p>Copyright:  Copyright (c) 2005</p>
            * <p>Company:  </p>
            * @author: jeffzhu
            * @version 1.0
            */
            public class CharTools {
            /**
            * 轉(zhuǎn)換編碼 ISO-8859-1到GB2312
            * @param text
            * @return
            */
            public String ISO2GB(String text) {
            String result = "";
            try {
            result = new String(text.getBytes("ISO-8859-1"), "GB2312");
            }
            catch (UnsupportedEncodingException ex) {
            result = ex.toString();
            }
            return result;
            }
            /**
            * 轉(zhuǎn)換編碼 GB2312到ISO-8859-1
            * @param text
            * @return
            */
            public String GB2ISO(String text) {
            String result = "";
            try {
            result = new String(text.getBytes("GB2312"), "ISO-8859-1");
            }
            catch (UnsupportedEncodingException ex) {
            ex.printStackTrace();
            }
            return result;
            }
            /**
            * Utf8URL編碼
            * @param s
            * @return
            */
            public String Utf8URLencode(String text) {
            StringBuffer result = new StringBuffer();
            for (int i = 0; i < text.length(); i++) {
            char c = text.charAt(i);
            if (c >= 0 && c <= 255) {
            result.append(c);
            }else {
            byte[] b = new byte[0];
            try {
            b = Character.toString(c).getBytes("UTF-8");
            }catch (Exception ex) {
            }
            for (int j = 0; j < b.length; j++) {
            int k = b[j];
            if (k < 0) k += 256;
            result.append("%" + Integer.toHexString(k).toUpperCase());
            }
            }
            }
            return result.toString();
            }
            /**
            * Utf8URL解碼
            * @param text
            * @return
            */
            public String Utf8URLdecode(String text) {
            String result = "";
            int p = 0;
            if (text!=null && text.length()>0){
            text = text.toLowerCase();
            p = text.indexOf("%e");
            if (p == -1) return text;
            while (p != -1) {
            result += text.substring(0, p);
            text = text.substring(p, text.length());
            if (text == "" || text.length() < 9) return result;
            result += CodeToWord(text.substring(0, 9));
            text = text.substring(9, text.length());
            p = text.indexOf("%e");
            }
            }
            return result + text;
            }
            /**
            * utf8URL編碼轉(zhuǎn)字符
            * @param text
            * @return
            */
            private String CodeToWord(String text) {
            String result;
            if (Utf8codeCheck(text)) {
            byte[] code = new byte[3];
            code[0] = (byte) (Integer.parseInt(text.substring(1, 3), 16) - 256);
            code[1] = (byte) (Integer.parseInt(text.substring(4, 6), 16) - 256);
            code[2] = (byte) (Integer.parseInt(text.substring(7, 9), 16) - 256);
            try {
            result = new String(code, "UTF-8");
            }catch (UnsupportedEncodingException ex) {
            result = null;
            }
            }
            else {
            result = text;
            }
            return result;
            }
            /**
            * 編碼是否有效
            * @param text
            * @return
            */
            private boolean Utf8codeCheck(String text){
            String sign = "";
            if (text.startsWith("%e"))
            for (int i = 0, p = 0; p != -1; i++) {
            p = text.indexOf("%", p);
            if (p != -1)
            p++;
            sign += p;
            }
            return sign.equals("147-1");
            }
            /**
            * 是否Utf8Url編碼
            * @param text
            * @return
            */
            public boolean isUtf8Url(String text) {
            text = text.toLowerCase();
            int p = text.indexOf("%");
            if (p != -1 && text.length() - p > 9) {
            text = text.substring(p, p + 9);
            }
            return Utf8codeCheck(text);
            }
            /**
            * 測(cè)試
            * @param args
            */
            public static void main(String[] args) {
            CharTools charTools = new CharTools();
            String url;
            url = "http://www.google.com/search?hl=zh-CN&newwindow=1&q=%E4%B8%AD%E5%9B%BD%E5%A4%A7%E7%99%BE%E7%A7%91%E5%9C%A8%E7%BA%BF%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2&btnG=%E6%90%9C%E7%B4%A2&lr=";
            if(charTools.isUtf8Url(url)){
            System.out.println(charTools.Utf8URLdecode(url));
            }else{
            System.out.println(URLDecoder.decode(url));
            }
            url = "http://www.baidu.com/baidu?word=%D6%D0%B9%FA%B4%F3%B0%D9%BF%C6%D4%DA%CF%DF%C8%AB%CE%C4%BC%EC%CB%F7&tn=myie2dg";
            if(charTools.isUtf8Url(url)){
            System.out.println(charTools.Utf8URLdecode(url));
            }else{
            System.out.println(URLDecoder.decode(url));
            }
            }
            }
            
            

 

[Edit on 2006-6-27 0:06:06 By flashman]

[ from ]
By [flashman] at 20:55:06 | Comments [1] | TrackBack[0] | 701 views
≡≡≡ 網(wǎng)友評(píng)論 ≡≡≡
個(gè)性頭像  waterflier 在 2006-5-25 10:04:39 說(shuō):
最近我也在研究中文分詞,到你的blog來(lái)找點(diǎn)資料 ^_^ 有什么好東西記得給兄弟分享一份。
正式的正式:
這編文章的理論基礎(chǔ)有錯(cuò)誤,建議fox去看看編碼相關(guān)的基礎(chǔ)知識(shí)。ISO-8859-1 和GB2312是不能直接轉(zhuǎn)的。他們都屬于ANSI編碼。
一共有三類編碼
ANSI(ISO-8859-1,GBK,GB2312,BIG5等) UCS(UCS2,UCS4) UTF(UTF7 UTF8 UTF16)
其中 所有的編碼都可以轉(zhuǎn)成UCS,UTF是UCS為了節(jié)省空間的一種存儲(chǔ)方式(使用huffman編碼的理論的變長(zhǎng)編碼,如果全部都是e文的話可以有效地壓縮成UTF8,如果是中文編碼成UTF8反而會(huì)浪費(fèi)空間)。ANSI各個(gè)編碼之間不存在抓換關(guān)系只存在極少數(shù)的對(duì)應(yīng)關(guān)系(比如每個(gè)ANSI編碼都必須包含英文,又比如簡(jiǎn)體字與繁體字之間的對(duì)應(yīng)關(guān)系使GBK和BIG5之間的某些編碼存在對(duì)應(yīng)關(guān)系,這種關(guān)系是無(wú)規(guī)律的)。
我的blog上也有不少關(guān)于這方面的內(nèi)容


 
----------------------------------------------------------------------------------------------------------------------------
 
<html>
<head>
<meta http-equiv=‘Content-Type‘ content=‘text/html; charset=gb2312‘>
<title>URL解碼(Decode)/編碼(Encode)</title>
</head>
<body>
<center><font color=green size=+2>URL解碼(Decode)/編碼(Encode)</font><br>
需要解碼的字符串:<TEXTAREA ID="String1" ROWS="10" COLS="30"></TEXTAREA> 解碼后的字符串:<TEXTAREA ID="String2" ROWS="10" COLS="30"></TEXTAREA><br>
需要編碼的字符串:<TEXTAREA ID="String3" ROWS="10" COLS="30"></TEXTAREA> 編碼后的字符串:<TEXTAREA ID="String4" ROWS="10" COLS="30"></TEXTAREA><br>
<INPUT TYPE="button" ID="Decode" value="解碼(Decode)" onClick="javascript:String2.value=decodeURI(String1.value);">
<INPUT TYPE="button" ID="Encode" value="編碼(Encode)" onClick="javascript:String4.value=encodeURI(String3.value);">
</center>
</body>
</html>

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    日韩人妻欧美一区二区久久| 亚洲欧洲在线一区二区三区| 欧美成人精品一区二区久久| 五月激情综合在线视频| 隔壁的日本人妻中文字幕版| 国产三级欧美三级日韩三级| 亚洲天堂一区在线播放| 日韩欧美一区二区久久婷婷| 婷婷基地五月激情五月| 亚洲视频在线观看免费中文字幕| 二区久久久国产av色| 日本午夜免费观看视频| 国内外激情免费在线视频| 九九热这里只有免费精品| 色婷婷日本视频在线观看| 国产亚洲欧美日韩精品一区| 欧美成人一区二区三区在线| 日本大学生精油按摩在线观看| 国产精品一区二区高潮| 中文字幕人妻综合一区二区 | 欧美黑人精品一区二区在线| 亚洲一区二区三区三州| 国产成人精品国内自产拍| 亚洲天堂一区在线播放| 欧美一本在线免费观看| 丰满人妻熟妇乱又伦精另类视频| 日韩精品小视频在线观看| 欧美人妻盗摄日韩偷拍| 91熟女大屁股偷偷对白| 国产欧美日韩在线一区二区| 免费在线播放不卡视频| 国产精品亚洲二区三区| 久久精品国产在热久久| 日本亚洲精品在线观看| 亚洲av日韩av高潮无打码| 亚洲日本中文字幕视频在线观看 | 香港国产三级久久精品三级| av在线免费观看一区二区三区| 午夜福利激情性生活免费视频| 亚洲综合精品天堂夜夜| 夜夜躁狠狠躁日日躁视频黑人|