Java編碼的字元串

發布時間: 2022-11-12 07:22:36

❶ java 中如何查看字元串的編碼類型

可以通過以下方法來進行編碼格式判斷，輸入一個字元串，之後返回字元串編碼類型。
public static String getEncoding(String str) {
String encode = "GB2312";
try {
if (str.equals(new String(str.getBytes(encode), encode))) { //判斷是不是GB2312
String s = encode;
return s; //是的話，返回「GB2312「，以下代碼同理
}
} catch (Exception exception) {
}
encode = "ISO-8859-1";
try {
if (str.equals(new String(str.getBytes(encode), encode))) { //判斷是不是ISO-8859-1
String s1 = encode;
return s1;
}
} catch (Exception exception1) {
}
encode = "UTF-8";
try {
if (str.equals(new String(str.getBytes(encode), encode))) { //判斷是不是UTF-8
String s2 = encode;
return s2;
}
} catch (Exception exception2) {
}
encode = "GBK";
try {
if (str.equals(new String(str.getBytes(encode), encode))) { //判斷是不是GBK
String s3 = encode;
return s3;
}
} catch (Exception exception3) {
}
return ""; //如果都不是，說明輸入的內容不屬於常見的編碼格式。
}

❷ JAVA 字元串位元組編碼問題高手來

編程序的時候如果：String str="中文";在存成文件時，需要把這段文字存為數據（每個位元組byte=8bit），即要編碼，按照不同的編碼方式（比如gb2312或者unicode），所以保存文件的時候需要指定編碼，一般編輯器默認跟系統一致。java編譯器，將源程序編碼時，採用的是unicode編碼方式，所以存在class文件中的位元組碼里的中文常量也是unicode的。這是源程序
在程序處理時，你如果想把str="中文"，以一定的編碼方式變成存儲時的數據(byte數組)，就需要str.getBytes("encoding")，同理，你從文件或者其他地方讀取到數據後，想轉換成字元串，那麼你就要知道他之前是用什麼編碼方式變成的數據，然後用new String(bytes, "encoding")
就可以了。

❸ 請問java如何改變字元串的編碼方式

byte[] b=string.getBytes("GB2312");//使用GB2312編碼方式對字元串string進行編碼
//這時要想將位元組數組b的內容正確解碼只能使用GB2312的編碼方式進行解碼，即
String str=new String(b,"GB2312");//這里若使用UTF-8編碼方式來進行解碼就會亂碼
//將eclipse默認的編碼方式改為UTF-8，只是用該編碼方式對.java源文件進行編碼保存
//這個對new String(string.getBytes("GB2312"),"UTF-8")沒啥影響的
//因為從java源文件獲取字元串string時，已經通過UTF-8編碼方式進行解碼了
//而string.getBytes("GB2312")是使用指定的編碼方式對字元串string進行從新編碼
//這兩者之間沒啥關系的

❹ JAVA字元串編碼問題！

這種編碼問題真是很tricky的問題。說它tricky是因為這至少涉及到以下4種編碼選取的排列組合(有時甚至更多)，更有時乃至會發生錯進錯出，負負得正，中間過程錯了但反而到不是亂碼的情況。

(1)源代碼的編碼
(2)編譯時告訴java編譯器的源代碼編碼
(3)運行時jvm參數file.encoding
(4)輸出終端對輸出位元組流的解碼所採用的碼組

在這簡單情況下(1)和(2)一致，(3)和(4)一致就不會因為編解碼映射錯誤(當然字元向終端字體映射的錯誤是另一回事，如字體缺失之類)。而(1)(2)和(3)(4)不必一致，這樣就使得不必強求開發編譯環境和運行應用環境的編碼必須一致。

源代碼的錄入與編譯若在在一個平台上時，大多數情況沒有問題(反而用聰明的Idea IDE設置錯誤時會亂套，越是簡陋的開發環境越不太會錯)。但是如果你在中文GBK編碼平台上的源代碼在別人的unicode編碼平台上編譯，就有問題了。所以和別人，特別是和不同母語的人合作編程時，建議要麼約定一律用unicode作為源文件編碼；要麼只用ASCII字元，反正其他編碼一般都和ASCII兼容的，對於非ASCII字元，用Java的/uxxxx表示機制，比如"中國"就表示為"\u4e2d\u56fd"。4e2d和56fd分別是中國二字的unicode十六進制編碼。

但我認為樓主在這里其實主要關心的是運行時的編碼一致問題，即(3)和(4)。所以言歸正傳，讓我們來檢查它們是否一致。

由於正如上述，iso8859-1編碼集其實是被其他所有公認的編碼集所兼容的，也就是說它是所有公認編碼集的公共子集。所以以iso8859-1為基礎可以外延到任何一個公認編碼集。事實上大多數情況也是這樣做的。比如java System property里設定了encoding為iso8859-1，事實上不僅僅是一個Latin字母的映射，在非Latin區域按JVM宿主操作系統的編碼擴展。即選iso8859-1其實是選擇了宿主操作系統的默認編碼。

假設樓主的操作系統編碼是GBK,那麼file.encoding=iso8859-1相當於選擇了file.encoding=GBK。那麼System.out.println(...)這個核心類方法會將china字元轉換為file.encoding指定的編碼(GBK)位元組由out流輸出給最終out所綁定的終端。比如console一般採用系統默認編碼也是GBK的話，那就和file.encoding一致，能正常解碼，不會亂碼。

至於System.out.write()直接寫位元組流。由於該位元組流是由china.getBytes()得到的，在不指定編碼的時候使用file.encoding指定的默認值的(即GBK)，因此Str->Byte的編碼方法GBK和console採用的解碼方法GBK又是一致的，所以也不是亂碼。

但是這時候用toHexString列印出的兩個位元組串是不一樣的。先直接把china逐字強行轉換為int的情況，不涉及輸出編碼，總是unicode的。(JVM規范規定class里字串必須unicode編碼)只要上述(1) (2)匹配，java編譯器會自動從各種編碼的源文件正確轉成class文件里統一unicode編碼的字串。相反，作為一個題外話提一下，當(1)(2)不匹配時會在特定的一種配合(1)(2)的(3)(4)也不匹配的情況下會負負得正輸出正常，但這是絕對錯誤的做法，因為任何要求(1)(2)和(3)(4)有匹配關系的要求都是在應用中可能無法滿足的。java編譯器對這種情況也會報告warning，但不fail。

綜上，一旦file.encoding設成宿主操作系統默認而系統consle也採用操作系統默認編解碼的話，(3)(4)總是一致的，無論系統選擇的是GBK還是utf-8等等。

那麼如果file.encoding不選系統默認呢？比如utf-8。那就很可能出現亂碼了。但是，慢著，試驗的結果還是沒有亂碼。那是因為file.encoding是靜態的JVM系統參數，在程序里像樓主那樣設定是不起作用的(我不知道有沒有辦法發一個什麼通知讓這種程序改變生效的)。必須作為JVM參數直接傳給java程序讓它構造虛擬機的時候就得到這個參數，否則JVM會去拿宿主系統的默認值，就相當於又回到設file.encoding=iso8859-1了。
java -Dfile.encoding=utf-8 A
這下終於亂碼了，而且兩個都亂了。列印出的位元組串一個還是unicode，另一個從GBK變到utf-8了。

如果你發現試驗的現象和我上面說的正好相反，請注意檢查console的編碼設置，我們上面假設它也採用了宿主系統默認編碼，但有些console很高級的嘞，可以設置成不通編碼的(其實幾乎所有的都可以)。那麼分析的方法和上面一樣，結果可能正好相反。

❺ 怎麼用java把一個字元串進行utf8編碼

String text = 「字元串」;

byte[] b_utf8 = text.getBytes("UTF-8"); //utf-8

byte[] b_iso88591 = text.getBytes("ISO8859-1"); //iso8859-1

byte[] b_gbk = text.getBytes("GBK"); //gbk

string unicode = getUnicode(text);//unicode

public static String getUnicode(String source) {

String result = "";

for (int i = 0; i < source.length(); i++) {

result += "\u"+Integer.toHexString((int) source.charAt(i));

}

return result;

}

❻ java中如何修改字元串編碼

假設你的字元串的位元組數組是buf，按照GBK解析這個字元串的方法就是如下
String
str=new
String(buf,0,buf.length,"GBK");
如果是utf-8編碼，就把GBK換成utf-8即可

❼ 怎麼知道 java字元串編碼格式

Stringcharset="xxx";//假定編碼格式
Stringstr="中文"；
booleanflag=str.equals(newString(str.getBytes(),charset));

flag為true則表明str的編碼格式是假定的編碼格式。其中說明str.getBytes()該方法就是按其自身編碼格式去解碼。其自身編碼格式跟你的操作系統編碼格式或你使用的IDE設置的文件的Text file encoding有關。

❽ java字元串默認的是什麼編碼

System.out.println(Charset.defaultCharset());

字元編碼（英語：Character encoding）也稱字集碼，是把字元集中的字元編碼為指定集合中某一對象（例如：比特模式、自然數序列、8位組或者電脈沖），以便文本在計算機中存儲和通過通信網路的傳遞。常見的例子包括將拉丁字母表編碼成摩斯電碼和ASCII。其中，ASCII將字母、數字和其它符號編號，並用7比特的二進制來表示這個整數。通常會額外使用一個擴充的比特，以便於以1個位元組的方式存儲。
在計算機技術發展的早期，如ASCII（1963年）和EBCDIC（1964年）這樣的字元集逐漸成為標准。但這些字元集的局限很快就變得明顯，於是人們開發了許多方法來擴展它們。對於支持包括東亞CJK字元家族在內的寫作系統的要求能支持更大量的字元，並且需要一種系統而不是臨時的方法實現這些字元的編碼。

❾ java里關於String的編碼與解碼

public
byte[]
getBytes(String
charsetName)
使用指定的字元集將此String編碼為byte序列，結果存在一個byte數組中
public
String(byte[]
bytes,
String
charsetName)
通過使用指定的
charset
解碼指定的
byte
數組，構造一個新的
String。
在網路傳輸中，信息都是以位元組序列的方式傳輸的。所以，發送方的String要按照某種編碼方式(如UTF-8,GBK)編碼為位元組序列，在網路中傳輸後，接收方取得這個位元組序列，按照相同的編碼方式將位元組序列解碼為String。
請看下面的代碼片段：
String
name
=
"張三";
byte[]
b1
=
name.getBytes("UTF-8");
String
name1
=
new
String(b1,
"UTF-8");
//編碼解碼相同，正常顯示
System.out.println(name1);
String
name2
=
new
String(b1,
"GBK");
//編碼解碼不同，亂碼
System.out.println(name2);
byte[]
b2
=
name.getBytes("GBK");
String
name3
=
new
String(b2,
"GBK");
//編碼解碼相同，正常顯示
System.out.println(name3);
String
name4
=
new
String(b2,
"UTF-8");
//編碼解碼不同，亂碼
System.out.println(name4);
至於你的那個情況，要先用gbk編碼，然後再用utf-8解碼才能獲得正常的字元串，我估計是因為
1.傳輸過來的位元組碼是用utf-8編碼的,假設位元組碼為b。
2.你獲得的那個字元串，假設為s，是用gbk對b進行解碼獲得的字元串，所以是亂碼。
3.你使用gbk對s進行編碼，用gbk解碼之後再編碼，於是獲得了原來的b。
4.你使用utf-8解碼，所以獲得了正常的字元串。
簡單的說：
b
->
(gbk解碼)
->
亂碼
->
[此處開始是你做的](gbk編碼)
->
b
->
(utf-8解碼)
->
正常字元串
研究完編碼收獲會不小的，對以後理解Java的輸入輸出(尤其是網路通信和文件讀寫)都很有幫助。

❿ 怎麼知道 java字元串編碼格式

這樣的測試方法是不正確的。getBytes(charset)是解碼，new
String(byte[],
charset)是編碼。new
String(str.getBytes(charset),charset)是解碼再編碼，無論charset是什麼編碼格式，返回的字元串內容原始str是一致，因此equals方法都是返回true，達不到測試字元串編碼格式的目的。個人觀點：正確的測試姿勢應該是這樣的：
String charset ="xxx"; //假定編碼格式
String str = "中文"；
boolean flag = str.equals(new String(str.getBytes(),charset));flag為true則表明str的編碼格式是假定的編碼格式。其中說明str.getBytes()該方法就是按其自身編碼格式去解碼。其自身編碼格式跟你的操作系統編碼格式或你使用的IDE設置的文件的Text
file
encoding有關。

閱讀全文

熱點內容

華為nm存儲卡軟體未響應發布：2025-03-09 09:57:44 瀏覽：607

問你個密碼是多少發布：2025-03-09 09:56:05 瀏覽：868

phpsession目錄發布：2025-03-09 09:25:35 瀏覽：892

dpc壓縮機發布：2025-03-09 09:25:34 瀏覽：602

pythondictinlist 發布：2025-03-09 09:24:05 瀏覽：938

單身解壓發布：2025-03-09 09:19:24 瀏覽：431

圖片分布式存儲方案發布：2025-03-09 08:54:49 瀏覽：59

火影手游競技場腳本發布：2025-03-09 08:48:31 瀏覽：744

電腦如何訪問谷歌發布：2025-03-09 08:39:37 瀏覽：174

安卓怎麼多開微信發布：2025-03-09 08:34:02 瀏覽：595

Java編碼的字元串

與Java編碼的字元串相關的資訊