url轉義java
⑴ java語言里url是什麼東西
就是網路資源的路徑,通過它就可以引用相關的網路資源。
⑵ 地址欄中有漢字,java如何利用對url編碼求解
地址欄中出現漢字的情況有兩種,一種是漢字出現在URL的路徑部分,一種是漢字出現在URL的傳參的部分,第二種情況的時候必須採用編碼後傳參,接受時解碼的方式完成傳參。js中編碼有escape(),encodeURI(),encodeURIComponent()三個常用的方法,escape()常常用在提交頁面和處理頁面的編碼格式相同的情況下(比如它們都是GB2312),encodeURI()和encodeURIComponent()的用法基本相同,區別在於encodeURIComponent()也對"?"等特殊字元進行編碼。
一開始遇到中文參數的時候,使用encodeURI()進行了一遍編碼,傳過去後,發現解碼出現問題,於是想到可能是編碼方法使用錯誤,於是使用escape()方法,這時發現解碼時拋出isHexDigit異常。藉助網路搜索isHexDigit異常,
發現原來,是escape()方法造成了異常,同時了解了瀏覽器傳遞地址的一些原理,在瀏覽器地址欄里,瀏覽器認為%是個轉義字元,瀏覽器會把%與%之間的編碼,兩位兩位取出後進行解碼,然後再傳遞給處理頁面,
然後由處理頁面進行再次解碼。由此我想到一直使用encodeURI方法是正確的,只是需要使用兩次encodeURI方法,例如encodeURI(encodeURI("中文"));第一次是把中文編碼成%xy的格式,
第二次是對%xy中的%進行編碼,%編碼成%25。整個傳參過程大體應該是:提交頁面使用encodeURI(encodeURI("中文"))編碼,把最後的編碼結果%25xy傳遞給處理頁面的過程中,瀏覽器獲取URL地址
(注意openModelDialog方法,瀏覽器獲取不到參數編碼)後解碼成%xy,然後把%xy傳遞給處理頁面,處理頁面使用URLDecoder.decode(request.getParameter("參數名"),"UTF-8");完成解碼。
總結:1、漢字出現在URL路徑部分的時候不需要編碼解碼;
⑶ java中urlEncoding歸屬於哪個類,怎麼使用的
您好,我來為您解答:
import java.net.URLEncoder; 歸屬java.net包下的
首先這個是: java.net.URLEncoder
主要功能是講一些特殊字元以及中文進行轉移,防止出現亂碼,特別是在與服務端交互數據的時候,如果沒有轉義可能會導致亂碼,然後服務端接收的就都是一些 ? ? ?號了.
具體用法如下:
String urll="\t" + URLEncoder.encode("需要轉義的內容", "UTF-8");
如果我的回答沒能幫助您,請繼續追問。
⑷ 求助,解釋下Java中怎樣把網址URL編碼轉義
Java在net包中提供了相應工具類,直接調用即可
import java.net.URLDecoder;
import java.net.URLEncoder;
try {
String urlEncode = URLEncoder.encode("網路一下,你就知道", "UTF-8");
System.out.println(urlEncode);
String urlDecode = URLDecoder.decode(urlEncode, "UTF-8");
System.out.println(urlDecode);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
⑸ java 接收url中參數帶 % %傳過來的值
%是URL中的轉義符,比如 %20 表示空格,如果你要表達一個%本身,需要使用 %25表示。
js中可以使用 escape() 來編碼。
⑹ URL傳遞中文、Ajax傳遞中文,Java如何編碼如何解決亂碼
地址欄中出現漢字的情況有兩種,一種是漢字出現在URL的路徑部分,一種是漢字出現在URL的傳參的部分,第二種情況的時候必須採用編碼後傳參,接受時解碼的方式完成傳參。js中編碼有escape(),encodeURI(),encodeURIComponent()三個常用的方法,escape()常常用在提交頁面和處理頁面的編碼格式相同的情況下(比如它們都是GB2312),encodeURI()和encodeURIComponent()的用法基本相同,區別在於encodeURIComponent()也對"?"等特殊字元進行編碼。
一開始遇到中文參數的時候,使用encodeURI()進行了一遍編碼,傳過去後,發現解碼出現問題,於是想到可能是編碼方法使用錯誤,於是使用escape()方法,這時發現解碼時拋出isHexDigit異常。藉助網路搜索isHexDigit異常,
發現原來,是escape()方法造成了異常,同時了解了瀏覽器傳遞地址的一些原理,在瀏覽器地址欄里,瀏覽器認為%是個轉義字元,瀏覽器會把%與%之間的編碼,兩位兩位取出後進行解碼,然後再傳遞給處理頁面,
然後由處理頁面進行再次解碼。由此我想到一直使用encodeURI方法是正確的,只是需要使用兩次encodeURI方法,例如encodeURI(encodeURI("中文"));第一次是把中文編碼成%xy的格式,
第二次是對%xy中的%進行編碼,%編碼成%25。整個傳參過程大體應該是:提交頁面使用encodeURI(encodeURI("中文"))編碼,把最後的編碼結果%25xy傳遞給處理頁面的過程中,瀏覽器獲取URL地址
(注意openModelDialog方法,瀏覽器獲取不到參數編碼)後解碼成%xy,然後把%xy傳遞給處理頁面,處理頁面使用URLDecoder.decode(request.getParameter("參數名"),"UTF-8");完成解碼。
總結:1、漢字出現在URL路徑部分的時候不需要編碼解碼;
2、使用encodeURI進行2次編碼;
3、在openModelDialog()打開的模式窗體里沒辦法用request.getParameter正確獲取參數;
客戶端和伺服器在傳遞數據時可以用過濾器filter解決字元編碼問題,但filter只能解決post方式提交的數據。對於get方式,可以使用兩次encodeURI(encodeURI(中文))並在伺服器中使用URLDecoder.decode(中文, "UTF-8");
今天用Ajax校驗數據時也遇到這個問題,盡管頁面、類和web容器都統一了字元編碼,提交的數據依然是亂碼,所以就採用了2次encodeURI()編碼方式,亂碼問題就解決了。
⑺ java匹配url的正則表達式
給你個正則表達式的資料,自己慢慢研究,授你以漁:
一、正則表達式基礎知識
我們先從簡單的開始。假設你要搜索一個包含字元「cat」的字元串,搜索用的正則表達式就是「cat」。如果搜索對大小寫不敏感,單詞「catalog」、「Catherine」、「sophisticated」都可以匹配。也就是說:
1.1 句點符號
假設你在玩英文拼字游戲,想要找出三個字母的單詞,而且這些單詞必須以「t」字母開頭,以「n」字母結束。另外,假設有一本英文字典,你可以用正則表達式搜索它的全部內容。要構造出這個正則表達式,你可以使用一個通配符——句點符號「.」。這樣,完整的表達式就是「t.n」,它匹配「tan」、「ten」、「tin」和「ton」,還匹配「t#n」、「tpn」甚至「t n」,還有其他許多無意義的組合。這是因為句點符號匹配所有字元,包括空格、Tab字元甚至換行符:
1.2 方括弧符號
為了解決句點符號匹配范圍過於廣泛這一問題,你可以在方括弧(「[]」)裡面指定看來有意義的字元。此時,只有方括弧裡面指定的字元才參與匹配。也就是說,正則表達式「t[aeio]n」只匹配「tan」、「Ten」、「tin」和「ton」。但「Toon」不匹配,因為在方括弧之內你只能匹配單個字元:
1.3 「或」符號
如果除了上面匹配的所有單詞之外,你還想要匹配「toon」,那麼,你可以使用「|」操作符。「|」操作符的基本意義就是「或」運算。要匹配「toon」,使用「t(a|e|i|o|oo)n」正則表達式。這里不能使用方擴號,因為方括弧只允許匹配單個字元;這里必須使用圓括弧「()」。圓括弧還可以用來分組,具體請參見後面介紹。
1.4 表示匹配次數的符號
表一顯示了表示匹配次數的符號,這些符號用來確定緊靠該符號左邊的符號出現的次數:
假設我們要在文本文件中搜索美國的社會安全號碼。這個號碼的格式是999-99-9999。用來匹配它的正則表達式如圖一所示。在正則表達式中,連字元(「-」)有著特殊的意義,它表示一個范圍,比如從0到9。因此,匹配社會安全號碼中的連字元號時,它的前面要加上一個轉義字元「\」。
圖一:匹配所有123-12-1234形式的社會安全號碼
假設進行搜索的時候,你希望連字元號可以出現,也可以不出現——即,999-99-9999和999999999都屬於正確的格式。這時,你可以在連字元號後面加上「?」數量限定符號,如圖二所示:
圖二:匹配所有123-12-1234和123121234形式的社會安全號碼
下面我們再來看另外一個例子。美國汽車牌照的一種格式是四個數字加上二個字母。它的正則表達式前面是數字部分「[0-9]{4}」,再加上字母部分「[A-Z]{2}」。圖三顯示了完整的正則表達式。
圖三:匹配典型的美國汽車牌照號碼,如8836KV
1.5 「否」符號
「^」符號稱為「否」符號。如果用在方括弧內,「^」表示不想要匹配的字元。例如,圖四的正則表達式匹配所有單詞,但以「X」字母開頭的單詞除外。
圖四:匹配所有單詞,但「X」開頭的除外
1.6 圓括弧和空白符號
假設要從格式為「June 26, 1951」的生日日期中提取出月份部分,用來匹配該日期的正則表達式可以如圖五所示:
圖五:匹配所有Moth DD,YYYY格式的日期
新出現的「\s」符號是空白符號,匹配所有的空白字元,包括Tab字元。如果字元串正確匹配,接下來如何提取出月份部分呢?只需在月份周圍加上一個圓括弧創建一個組,然後用ORO API(本文後面詳細討論)提取出它的值。修改後的正則表達式如圖六所示:
圖六:匹配所有Month DD,YYYY格式的日期,定義月份值為第一個組
1.7 其它符號
為簡便起見,你可以使用一些為常見正則表達式創建的快捷符號。如表二所示:
表二:常用符號
例如,在前面社會安全號碼的例子中,所有出現「[0-9]」的地方我們都可以使用「\d」。修改後的正則表達式如圖七所示:
圖七:匹配所有123-12-1234格式的社會安全號碼
二、Jakarta-ORO庫
有許多源代碼開放的正則表達式庫可供Java程序員使用,而且它們中的許多支持Perl 5兼容的正則表達式語法。我在這里選用的是Jakarta-ORO正則表達式庫,它是最全面的正則表達式API之一,而且它與Perl 5正則表達式完全兼容。另外,它也是優化得最好的API之一。
Jakarta-ORO庫以前叫做OROMatcher,Daniel Savarese大方地把它贈送給了Jakarta Project。你可以按照本文最後參考資源的說明下載它。
我首先將簡要介紹使用Jakarta-ORO庫時你必須創建和訪問的對象,然後介紹如何使用Jakarta-ORO API。
▲ PatternCompiler對象
首先,創建一個Perl5Compiler類的實例,並把它賦值給PatternCompiler介面對象。Perl5Compiler是PatternCompiler介面的一個實現,允許你把正則表達式編譯成用來匹配的Pattern對象。
▲ Pattern對象
要把正則表達式編譯成Pattern對象,調用compiler對象的compile()方法,並在調用參數中指定正則表達式。例如,你可以按照下面這種方式編譯正則表達式「t[aeio]n」:
默認情況下,編譯器創建一個大小寫敏感的模式(pattern)。因此,上面代碼編譯得到的模式只匹配「tin」、「tan」、 「ten」和「ton」,但不匹配「Tin」和「taN」。要創建一個大小寫不敏感的模式,你應該在調用編譯器的時候指定一個額外的參數:
創建好Pattern對象之後,你就可以通過PatternMatcher類用該Pattern對象進行模式匹配。
▲ PatternMatcher對象
PatternMatcher對象根據Pattern對象和字元串進行匹配檢查。你要實例化一個Perl5Matcher類並把結果賦值給PatternMatcher介面。Perl5Matcher類是PatternMatcher介面的一個實現,它根據Perl 5正則表達式語法進行模式匹配:
使用PatternMatcher對象,你可以用多個方法進行匹配操作,這些方法的第一個參數都是需要根據正則表達式進行匹配的字元串:
· boolean matches(String input, Pattern pattern):當輸入字元串和正則表達式要精確匹配時使用。換句話說,正則表達式必須完整地描述輸入字元串。
· boolean matchesPrefix(String input, Pattern pattern):當正則表達式匹配輸入字元串起始部分時使用。
· boolean contains(String input, Pattern pattern):當正則表達式要匹配輸入字元串的一部分時使用(即,它必須是一個子串)。
另外,在上面三個方法調用中,你還可以用PatternMatcherInput對象作為參數替代String對象;這時,你可以從字元串中最後一次匹配的位置開始繼續進行匹配。當字元串可能有多個子串匹配給定的正則表達式時,用PatternMatcherInput對象作為參數就很有用了。用PatternMatcherInput對象作為參數替代String時,上述三個方法的語法如下:
· boolean matches(PatternMatcherInput input, Pattern pattern)
· boolean matchesPrefix(PatternMatcherInput input, Pattern pattern)
· boolean contains(PatternMatcherInput input, Pattern pattern)
三、應用實例
下面我們來看看Jakarta-ORO庫的一些應用實例。
3.1 日誌文件處理
任務:分析一個Web伺服器日誌文件,確定每一個用戶花在網站上的時間。在典型的BEA WebLogic日誌文件中,日誌記錄的格式如下:
分析這個日誌記錄,可以發現,要從這個日誌文件提取的內容有兩項:IP地址和頁面訪問時間。你可以用分組符號(圓括弧)從日誌記錄提取出IP地址和時間標記。
首先我們來看看IP地址。IP地址有4個位元組構成,每一個位元組的值在0到255之間,各個位元組通過一個句點分隔。因此,IP地址中的每一個位元組有至少一個、最多三個數字。圖八顯示了為IP地址編寫的正則表達式:
圖八:匹配IP地址
IP地址中的句點字元必須進行轉義處理(前面加上「\」),因為IP地址中的句點具有它本來的含義,而不是採用正則表達式語法中的特殊含義。句點在正則表達式中的特殊含義本文前面已經介紹。
日誌記錄的時間部分由一對方括弧包圍。你可以按照如下思路提取出方括弧裡面的所有內容:首先搜索起始方括弧字元(「[」),提取出所有不超過結束方括弧字元(「]」)的內容,向前尋找直至找到結束方括弧字元。圖九顯示了這部分的正則表達式。
圖九:匹配至少一個字元,直至找到「]」
現在,把上述兩個正則表達式加上分組符號(圓括弧)後合並成單個表達式,這樣就可以從日誌記錄提取出IP地址和時間。注意,為了匹配「- -」(但不提取它),正則表達式中間加入了「\s-\s-\s」。完整的正則表達式如圖十所示。
圖十:匹配IP地址和時間標記
現在正則表達式已經編寫完畢,接下來可以編寫使用正則表達式庫的Java代碼了。
為使用Jakarta-ORO庫,首先創建正則表達式字元串和待分析的日誌記錄字元串:
這里使用的正則表達式與圖十的正則表達式差不多完全相同,但有一點例外:在Java中,你必須對每一個向前的斜杠(「\」)進行轉義處理。圖十不是Java的表示形式,所以我們要在每個「\」前面加上一個「\」以免出現編譯錯誤。遺憾的是,轉義處理過程很容易出現錯誤,所以應該小心謹慎。你可以首先輸入未經轉義處理的正則表達式,然後從左到右依次把每一個「\」替換成「\\」。如果要復檢,你可以試著把它輸出到屏幕上。
初始化字元串之後,實例化PatternCompiler對象,用PatternCompiler編譯正則表達式創建一個Pattern對象:
現在,創建PatternMatcher對象,調用PatternMatcher介面的contain()方法檢查匹配情況:
接下來,利用PatternMatcher介面返回的MatchResult對象,輸出匹配的組。由於logEntry字元串包含匹配的內容,你可以看到類如下面的輸出:
3.2 HTML處理實例一
下面一個任務是分析HTML頁面內FONT標記的所有屬性。HTML頁面內典型的FONT標記如下所示:
程序將按照如下形式,輸出每一個FONT標記的屬性:
在這種情況下,我建議你使用兩個正則表達式。第一個如圖十一所示,它從字體標記提取出「"face="Arial, Serif" size="+2" color="red"」。
圖十一:匹配FONT標記的所有屬性
第二個正則表達式如圖十二所示,它把各個屬性分割成名字-值對。
圖十二:匹配單個屬性,並把它分割成名字-值對
分割結果為:
現在我們來看看完成這個任務的Java代碼。首先創建兩個正則表達式字元串,用Perl5Compiler把它們編譯成Pattern對象。編譯正則表達式的時候,指定Perl5Compiler.CASE_INSENSITIVE_MASK選項,使得匹配操作不區分大小寫。
接下來,創建一個執行匹配操作的Perl5Matcher對象。
假設有一個String類型的變數html,它代表了HTML文件中的一行內容。如果html字元串包含FONT標記,匹配器將返回true。此時,你可以用匹配器對象返回的MatchResult對象獲得第一個組,它包含了FONT的所有屬性:
接下來創建一個PatternMatcherInput對象。這個對象允許你從最後一次匹配的位置開始繼續進行匹配操作,因此,它很適合於提取FONT標記內屬性的名字-值對。創建PatternMatcherInput對象,以參數形式傳入待匹配的字元串。然後,用匹配器實例提取出每一個FONT的屬性。這通過指定PatternMatcherInput對象(而不是字元串對象)為參數,反復地調用PatternMatcher對象的contains()方法完成。PatternMatcherInput對象之中的每一次迭代將把它內部的指針向前移動,下一次檢測將從前一次匹配位置的後面開始。
本例的輸出結果如下:
3.3 HTML處理實例二
下面我們來看看另一個處理HTML的例子。這一次,我們假定Web伺服器從widgets.acme.com移到了newserver.acme.com。現在你要修改一些頁面中的鏈接:
執行這個搜索的正則表達式如圖十三所示:
圖十三:匹配修改前的鏈接
如果能夠匹配這個正則表達式,你可以用下面的內容替換圖十三的鏈接:
注意#字元的後面加上了$1。Perl正則表達式語法用$1、$2等表示已經匹配且提取出來的組。圖十三的表達式把所有作為一個組匹配和提取出來的內容附加到鏈接的後面。
現在,返回Java。就象前面我們所做的那樣,你必須創建測試字元串,創建把正則表達式編譯到Pattern對象所必需的對象,以及創建一個PatternMatcher對象:
接下來,用com.oroinc.text.regex包Util類的substitute()靜態方法進行替換,輸出結果字元串:
Util.substitute()方法的語法如下:
這個調用的前兩個參數是以前創建的PatternMatcher和Pattern對象。第三個參數是一個Substiution對象,它決定了替換操作如何進行。本例使用的是Perl5Substitution對象,它能夠進行Perl5風格的替換。第四個參數是想要進行替換操作的字元串,最後一個參數允許指定是否替換模式的所有匹配子串(Util.SUBSTITUTE_ALL),或只替換指定的次數。
⑻ java urldecoder和urlencoder的區別
網頁中的表單使用POST方法提交時,數據內容的類型是 application/x-www-form-urlencoded,這種類型會:
1.字元"a"-"z","A"-"Z","0"-"9",".","-","*",和"_" 都不會被編碼;
2.將空格轉換為加號 (+) ;
3.將非文本內容轉換成"%xy"的形式,xy是兩位16進制的數值;
4.在每個 name=value 對之間放置 & 符號。
*/
URLEncoder類包含將字元串轉換為application/x-www-form-urlencoded MIME 格式的靜態方法。
web設計者面臨的眾多難題之一便是怎樣處理不同操作系統間的差異性。這些差異性能引起URL方面的問題:例如,一些操作系統允許文件名中含有空格符,有些又不允許。大多數操作系統不會認為文件名中含有符號「#」會有什麼特殊含義;但是在一個URL中,符號「#」表示該文件名已經結束,後面會緊跟一個fragment(部分)標識符。其他的特殊字元,非字母數字字元集,它們在URL或另一個操作系統上都有其特殊的含義,表述著相似的問題。為了解決這些問題,我們在URL中使用的字元就必須是一個ASCII字元集的固定字集中的元素,具體如下:
1.大寫字母A-Z
2.小寫字母a-z
3.數字 0-9
4.標點符 - _ . ! ~ * ' (和 ,)
諸如字元: / & ? @ # ; $ + = 和 %也可以被使用,但是它們各有其特殊的用途,如果一個文件名包括了這些字元( / & ? @ # ; $ + = %),這些字元和所有其他字元就應該被編碼。
編碼過程非常簡單,任何字元只要不是ASCII碼數字,字母,或者前面提到的標點符,它們都將被轉換成位元組形式,每個位元組都寫成這種形式:一個「%」後面跟著兩位16進制的數值。空格是一個特殊情況,因為它們太平常了。它除了被編碼成「%20」以外,還能編碼為一個「+」。加號(+)本身被編碼為%2B。當/ # = & 和?作為名字的一部分來使用時,而不是作為URL部分之間的分隔符來使用時,它們都應該被編碼。
WARNING這種策略在存在大量字元集的異構環境中效果不甚理想。例如:在U.S. Windows 系統中, é 被編碼為 %E9. 在 U.S. Mac中被編碼為%8E。這種不確定性的存在是現存的URI的一個明顯的不足。所以在將來URI的規范當中應該通過國際資源標識符(IRIs)進行改善。
類URL並不自動執行編碼或解碼工作。你能生成一個URL對象,它可以包括非法的ASCII和非ASCII字元和/或%xx。當用方法getPath() 和toExternalForm( ) 作為輸出方法時,這種字元和轉移符不會自動編碼或解碼。你應對被用來生成一個URL對象的字元串對象負責,確保所有字元都會被恰當地編碼。
幸運的是,java提供了一個類URLEncoder把string編碼成這種形式。Java1.2增加了一個類URLDecoder它能以這種形式解碼string。這兩個類都不用初始化:
public class URLDecoder extends Object
public class URLEncoder extends Object
一、URLEncoder
在java1.3和早期版本中,類java.net.URLEncoder包括一個簡單的靜態方法encode( ), 它對string以如下規則進行編碼:
public static String encode(String s)
這個方法總是用它所在平台的默認編碼形式,所以在不同系統上,它就會產生不同的結果。結果java1.4中,這個方法被另一種方法取代了。該方法要求你自己指定編碼形式:
public static String encode(String s, String encoding) throws UnsupportedEncodingException
兩種關於編碼的方法,都把任何非字母數字字元轉換成%xx(除了空格,下劃線(_),連字元(?),句號(。),和星號(*))。 兩者也都編碼所以的非ASCII字元。空格被轉換成一個加號。這些方法有一點過分累贅了;它們也把「~」,「『」,「()」轉換成%xx,即使它們完全用不著這樣做。盡管這樣,但是這種轉換並沒被URL規范所禁止。所以web瀏覽器會自然地處理這些被過分編碼後的URL。
兩中關於編碼的方法都返回一個新的被編碼後的string,java1.3的方法encode( ) 使用了平台的默認編碼形式,得到%xx。這些編碼形式典型的有:在 U.S. Unix 系統上的ISO-8859-1, 在U.S. Windows 系統上的Cp1252,在U.S. Macs上的MacRoman,和其他本地字元集等。因為編碼解碼過程都是與本地操作平台相關的,所以這些方法是令人不爽的,不能跨平台的。
這就明確地回答了為什麼在java1.4中這種方法被拋棄了,轉而投向了要求以自己指定編碼形式的這種方法。盡管如此,如果你執意要使用所在平台的默認編碼形式,你的程序將會像在java1.3中的程序一樣,是本地平台相關的。在另一種編碼的方法中,你應該總是用UTF-8,而不是其他什麼。UTF-8比起你選的其他的編碼形式來說,它能與新的web瀏覽器和更多的其他軟體相兼容。
例子7-8是使用URLEncoder.encode( ) 來列印輸出各種被編碼後的string。它需要在java1.4或更新的版本中編譯和運行。
Example 7-8. x-www-form-urlencoded strings
import java.net.URLEncoder;
import java.net.URLDecoder;
import java.io.UnsupportedEncodingException;
public class EncoderTest {
public static void main(String[] args) {
try {
System.out.println(URLEncoder.encode("This string has spaces","UTF-8"));
System.out.println(URLEncoder.encode("This*string*has*asterisks","UTF-8"));
System.out.println(URLEncoder.encode("This%string%has%percent%signs", "UTF-8"));
System.out.println(URLEncoder.encode("This+string+has+pluses","UTF-8"));
System.out.println(URLEncoder.encode("This/string/has/slashes","UTF-8"));
System.out.println(URLEncoder.encode("This\"string\"has\"quote\"marks", "UTF-8"));
System.out.println(URLEncoder.encode("This:string:has:colons","UTF-8"));
System.out.println(URLEncoder.encode("This~string~has~tildes","UTF-8"));
System.out.println(URLEncoder.encode("This(string)has(parentheses)", "UTF-8"));
System.out.println(URLEncoder.encode("This.string.has.periods","UTF-8"));
System.out.println(URLEncoder.encode("This=string=has=equals=signs", "UTF-8"));
System.out.println(URLEncoder.encode("This&string&has&ersands","UTF-8"));
System.out.println(URLEncoder.encode("Thiséstringéhasé non-ASCII characters","UTF-8"));
// System.out.println(URLEncoder.encode("this中華人民共和國","UTF-8"));
} catch (UnsupportedEncodingException ex) {throw new RuntimeException("Broken VM does not support UTF-8");
}
}
}
下面就是它的輸出。需要注意的是這些代碼應該以其他編碼形式被保存而不是以ASCII碼的形式,還有就是你選擇的編碼形式應該作為一個參數傳給編譯器,讓編譯器能據此對源代碼中的非ASCII字元作出正確的解釋。
% javac -encoding UTF8 EncoderTest %
java EncoderTest
This+string+has+spaces
This*string*has*asterisks
This%25string%25has%25percent%25signs
This%2Bstring%2Bhas%2Bpluses
This%2Fstring%2Fhas%2Fslashes
This%22string%22has%22quote%22marks
This%3Astring%3Ahas%3Acolons
This%7Estring%7Ehas%7Etildes
This%28string%29has%28parentheses%29
This.string.has.periods
This%3Dstring%3Dhas%3Dequals%3Dsigns
This%26string%26has%26ampersands
This%C3%A9string%C3%A9has%C3%A9non-ASCII+characters
特別需要注意的是這個方法編碼了符號,「\」 ,&,=,和:。它不會嘗試著去規定在一個URL中這些字元怎樣被使用。由此,所以你不得不分塊編碼你的URL,而不是把整個URL一次傳給這個方法。這是很重要的,因為對類URLEncoder最通常的用法就是查詢string,為了和伺服器端使用GET方法的程序進行交互。例如,假設你想編碼這個查詢sting,它用來搜索AltaVista網站:
pg=q&kl=XX&stype=stext&q=+"Java+I/O"&search.x=38&search.y=3
這段代碼對其進行編碼:
String query = URLEncoder.encode( "pg=q&kl=XX&stype=stext&q=+\"Java+I/O\"&search.x=38&search.y=3");System.out.println(query);
不幸的是,得到的輸出是:
pg%3Dq%26kl%3DXX%26stype%3Dstext%26q%3D%2B%22Java%2BI%2FO%22%26search.x%3D38%26search.y%3D3
出現這個問題就是方法URLEncoder.encode( ) 在進行盲目地編碼。它不能區分在URL或者查詢string中被用到的特殊字元(象前面string中的「=」,和「&」)和確實需要被編碼的字元。由此,所以URL需要像下面這樣一次只編碼一塊:
String query = URLEncoder.encode("pg");
query += "=";
query += URLEncoder.encode("q");
query += "&";
query += URLEncoder.encode("kl");
query += "=";
query += URLEncoder.encode("XX");
query += "&";
query += URLEncoder.encode("stype");
query += "=";
query += URLEncoder.encode("stext");
query += "&";
query += URLEncoder.encode("q");
query += "=";
query += URLEncoder.encode("\"Java I/O\"");
query += "&";
query += URLEncoder.encode("search.x");
query += "=";
query += URLEncoder.encode("38");
query += "&";
query += URLEncoder.encode("search.y");
query += "=";
query += URLEncoder.encode("3");
System.out.println(query);
這才是你真正想得到的輸出:
pg=q&kl=XX&stype=stext&q=%2B%22Java+I%2FO%22&search.x=38&search.y=3
例子7-9是一個QueryString類。在一個java對象中,它使用了類URLEncoder來編碼連續的屬性名和屬性值對,這個java對象被用來發送數據到伺服器端的程序。
當你在創建一個QueryString對象時,你可以把查詢string中的第一個屬性對傳遞給類QueryString的構造函數,得到初始string。如果要繼續加入後面的屬性對,就應調用方法add(),它也能接受兩個string作為參數,能對它們進行編碼。方法getQuery( )返回一個屬性對被逐個編碼後得到的整個string。
Example 7-9. -The QueryString class
package com.macfaq.net;
import java.net.URLEncoder;
import java.io.UnsupportedEncodingException;
public class QueryString {
private StringBuffer query = new StringBuffer();
public QueryString(String name, String value) {
encode(name, value);
}
public synchronized void add(String name, String value) {
query.append('&');
encode(name, value);
}
private synchronized void encode(String name, String value) {
try {
query.append(URLEncoder.encode(name, "UTF-8"));
query.append('=');
query.append(URLEncoder.encode(value, "UTF-8"));
} catch (UnsupportedEncodingException ex) {
throw new RuntimeException("Broken VM does not support UTF-8");
}
}
public String getQuery() {
return query.toString();
}
public String toString() {
return getQuery();
}
}
利用這個類,現在我們就能對前面那個例子中的string進行編碼了:
QueryString qs = new QueryString("pg", "q");
qs.add("kl", "XX");
qs.add("stype", "stext");
qs.add("q", "+\"Java I/O\"");
qs.add("search.x", "38");
qs.add("search.y", "3");
String url = "http://www.altavista.com/cgi-bin/query?" + qs;
System.out.println(url);
二、URLDecoder
與URLEncoder 類相對應的URLDecoder 類有兩種靜態方法。它們解碼以x-www-form-url-encoded這種形式編碼的string。也就是說,它們把所有的加號(+)轉換成空格符,把所有的%xx分別轉換成與之相對應的字元:
public static String decode(String s) throws Exception
public static String decode(String s, String encoding) // Java 1.4 throws UnsupportedEncodingException
第一種解碼方法在java1.3和java1.2中使用。第二種解碼方法在java1.4和更新的版本中使用。如果你拿不定主意用哪種編碼方式,那就選擇UTF-8吧。它比其他任何的編碼形式更有可能得到正確的結果。
如果string包含了一個「%」,但緊跟其後的不是兩位16進制的數或者被解碼成非法序列,該方法就會拋出IllegalArgumentException 異常。當下次再出現這種情況時,它可能就不會被拋出了。這是與運行環境相關的,當檢查到有非法序列時,拋不拋出IllegalArgumentException 異常,這時到底會發生什麼是不確定的。在Sun's JDK 1.4中,不會拋出什麼異常,它會把一些莫名其妙的位元組加進不能被順利編碼的string中。這的確令人頭疼,可能就是一個安全漏洞。
由於這個方法沒有觸及到非轉義字元,所以你可以把整個URL作為參數傳給該方法,不用像之前那樣分塊進行。例如:
String input = "http://www.altavista.com/cgi-bin/" + "query?pg=q&kl=XX&stype=stext&q=%2B%22Java+I%2FO%22&search.x=38&search.y=3";
try {
String output = URLDecoder.decode(input, "UTF-8");
System.out.println(output);
}