java語言使用的字元集是
Ⅰ 一、 判斷正誤 9、 java語言中使用的是unicode字元集,每個字元在內存中佔8位
漢字好像是用2個位元組存儲的。即16位
Ⅱ Java中的字元採用的是兩個位元組編碼的什麼字元集。
java平台採用UTF-16(Unicode)編碼,一個字元佔2個位元組(不論英文,還是中文字元)。
Ⅲ Java語言所使用的字元集是什麼
Java語言所使用的字元集是16位Unicode編碼。另外再介紹一些常見的字元集:
1、最早在dos下寫pascal的時候,就遇到ASCII字元集,後來還是dos下寫c,也是ascii字元集
特點:目前最通用的單位元組編碼字元集
表示:單位元組
最早ascii用7bit表示,總共能表示2^7=128個字元,後來擴展到8bit,就表示2^8=256個字元
2、GB2312又稱為GB2312-80字元集,全稱為《信息交換用漢字編碼字元集·基本集》,由原中國國家標准總局發布,1981年5月1日實施。
特點:當然是能表示99%的中國漢字,還包括拉丁字母、日文假名、希臘字母、俄文字母、漢語拼音符號、漢語注音字母等
表示:雙位元組
3、GBK是漢字編碼標准之一,全稱《漢字內碼擴展規范》,GBK 向下與GB2312編碼兼容,向上支持ISO10646.1國際標准。可以認為GBK是在GB2313基礎上通過內碼擴展出來的一個標准。
特點:完全兼容GB2312標准,支持國際標准ISO/IEC10646-1和國家標准GB13000-1中的全部中日韓漢字,並包含了BIG5編碼中的所有漢字
表示:雙位元組
4、Big5,台灣那邊使用比較多。
5、GB 18030,全稱是GB18030-2000《信息交換用漢字編碼字元集基本集的擴充》,是我國政府於2000年3月17日發布的新的漢字編碼國家標准,2001年8月31日後在中國市場上發布的軟體必須符合本標准。
特點:就是強大。覆蓋中文、日文、朝鮮語和中國少數民族文字。滿足中國大陸、香港、台灣、日本和韓國等東亞地區信息交換多文種、大字量、多用途、統一編碼格式的要求。並且與Unicode 3.0版本兼容,填補Unicode擴展字元字匯「統一漢字擴展A」的內容。並且與以前的國家字元編碼標准(GB2312,GB13000.1)兼容。
表示:單位元組、雙位元組、四位元組三種方式
6、Unicode野心更大(當然有一個國際統一標准當然是好事)
特點:Unicode是一種在計算機上使用的字元編碼。它為每種語言中的每個字元設定了統一並且唯一的二進制編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。
表示:utf-8,utf-16,utf-32
這里可能有點不好理解,舉個例子
首先,把unicode理解成對所有字元做了一個統一的編號,比如:「字」這個字元,編號是23383,這個是unicode定義的
但是,在計算機中,如何存儲這個編號呢?方式就有很多,存儲unicode的方式,就是utf-8,utf-16,utf-32
23383數值的16進製表示:0x5b57
utf-8用3個位元組來表示漢字,所以utf-8的表示為:0xE5AD97
utf-16用2個位元組來表示漢字,所以utf-16的表示為:0x5b57 剛好和數值是一樣的
utf-32用4個位元組來表示漢字,所以utf-32的表示為:0x00005b57 和數值是一樣的,不過浪費空間
7、再來講講utf-8,它是一種變長的字元集
表示:單位元組來表示字母,雙位元組來表示一些希臘字母,三位元組來表示漢字,當然也有四位元組的
這么做當然會增加表示和識別的難度,不過,可以節省空間。這也是為什麼utf-8在網路編碼中流行的原因。
Ⅳ 請問java默認的字元集是utf8是嗎,那麼下面這個
呃,以前沒注意到呢。
java是定義了char為兩個位元組,同時String的實現也是用char數組的,這應該就是說String是兩個位元組字元構成的了。可是UTF8規定是英文字元一個位元組,中文字元三個位元組。這樣貌似說java的字元村在內部是用UTF8編碼的就貌似矛盾了。
在維基網路上有這么一段話:在通常用法下,Java程序語言在通過InputStreamReader 和OutputStreamWriter讀取和寫入串的時候支持標准UTF-8。而沒有說到java字元串到底是不是UTF8構成的。
同時我們知道java字面轉義是\uxxxx的,也就是兩個位元組的,也就是兩個位元組確實可以編碼所有字元才對。
補充:
好吧,差了資料,在類 Character的文檔裡面看到了這么些東西。
「char 數據類型(和 Character 對象封裝的值)基於原始的 Unicode 規范,將字元定義為固定寬度的 16 位實體。Unicode 標准曾做過修改,以允許那些其表示形式需要超過 16 位的字元。合法代碼點 的范圍現在是從 U+0000 到 U+10FFFF,即通常所說的 Unicode 標量值。」
嗯,也就是說Unicode原先是定義為2個位元組的,但是後來改動了,進行了擴展。而java語言在定義的時候已經定義了char為2個位元組,所以Unicode改了java卻不能跟著把語言的基礎也改了,所以又有——「從 U+0000 到 U+FFFF 的字元集有時也稱為 Basic Multilingual Plane (BMP)。代碼點大於 U+FFFF 的字元稱為增補字元。Java 2 平台在 char 數組以及 String 和 StringBuffer 類中使用 UTF-16 表示形式。在這種表現形式中,增補字元表示為一對 char 值,第一個值取自高代理項 范圍,即 (\uD800-\uDBFF),第二個值取自低代理項 范圍,即 (\uDC00-\uDFFF)。 」也就是用兩個char字元來表示一個Unicode值。
總的來說就是char還是兩個位元組的,但是在表示一些特殊字元的時候需要用到兩個連續的char來表示,同時String通過保存了一個char序列來表示字元串。而String的getBytes("utf-8")獲得的則是現在標準的UTF8編碼位元組序列,所以得到的是一個字母是一個位元組,一個漢字是三個位元組的結果。
哎~~也是亂七八糟的描述,鬼知道Unicode要變動呢這是。。
Ⅳ java的符號,謝過!
Java的基本符號(token) Java的單詞符號有五種:關鍵字、標識符、常量、分隔符和操作符。 Java的字元集 Java 採用一種稱為unicode的字元集,該字元集合是一種新的編碼標准,與常見的ASCII碼的區別在於: unicode使用16位二進制而不是8位來表示一個字元。 unicode字元集中增加了許多非拉丁語字元。 標識符 Java標識符必須以字母,數字,美元符號"$",下劃線"_"組成,標識符第一個字元不可用數字。 Java語言對字母的大小寫是敏感的,在語法中嚴格區分大小寫。 關鍵字 關鍵字是為特定目的而保留的保留字,程序員不要將關鍵字作為自己的標識符。 Java的關鍵字有: abstract boolean break byte case catch char class continue do double else extends false find finally float for implements import instanceof int interface long native new null package private public return short static super switch synchronized this throw true try void while 常量 常量可分為整型常量,浮點數常量,字元常量,字元串常量和布爾常量。 整型常量:可分為int型和long型兩種,預設為int型,long型數值後加L。 整型常量可用10、8和16進製表示。 如:123(十進制) 052(八進制) 0x3c(十六進制) 浮點數常量:有單精度和雙精度之分,預設為雙精度,單精度在數值後加f。另外,浮點數常量也可用普通計數法和科學計數法來表示。 如:1.23f 1.1E-2 字元常量:用『 『括起來的一個字元。如『a『,『H『。 使用16位的unicode字元集。 Java 語言可使用轉義字元『「『來標記特殊字元。如『「n『表示換行符。 字元串常量用" "包括,如"Hello World"。 布爾常量只有兩個值,true和false。 分隔符 分隔符起分隔單詞符號的作用。包括分號";"、花括弧"{}"和空白符號。
Ⅵ Java語言使用的是Unicode字元集,每個字元在內存中佔8位。請問是對還是錯
這句話是錯的,Unicode字元集每個字元在內存里佔2byte,也就是16位(bit)
Ⅶ Java中字元集有哪些呢
字元集(character set)是一個系統支持的所有抽象字元的集合。字元(character)就是各種文字和符號,包括國家文字、標點符號、圖形符號、數字等。
如果僅僅是抽象的字元集,其實是顧名思義的,但是我們常說的字元集,其實是指編碼字元集(coded character set),比如: Unicode、ASCII、GB2312、GBK等等。什麼是編碼字元集呢?編碼字元集是指,這個字元集里的每一個字元,都對應到唯一的一個代碼值,這些代碼值叫做代碼點(code point),可以看做是這個字元在編碼字元集里的序號,字元在給定的編碼方式下的二進制比特序列稱為代碼單元(code unit)。在Unicode字元集中,字母A對應的數值是十六進制下的0041,書寫時前面加U+,所以Unicode里A的代碼點是U+0041。
常見的編碼字元集有:
Unicode:也叫統一字元集,它包含了幾乎世界上所有的已經發現且需要使用的字元(如中文、日文、英文、德文等)。
ASCII:早期的計算機系統只能處理英文,所以ASCII也就成為了計算機的預設字元集,包含了英文所需要的所有字元。
GB2312:中文字元集,包含ASCII字元集。ASCII部分用單位元組表示,剩餘部分用雙位元組表示。
GBK:GB2312的擴展,完整包含了GB2312的所有內容。
GB18030:GBK字元集的超集,常叫大漢字字元集,也叫CJK(Chinese,Japanese,Korea)字元集,包含了中、日、韓三國語言中的所有字元。
學習相關java類知識,推薦來北京尚學堂,優秀的師資和科學的授課方式,會帶給你完美的學習體驗。
Ⅷ 「java」語言與其他的語言相比有什麼優點
具體如下:
1、跨平台性,雖然是很好的優勢,可以讓JAVA在任何的系統中運行,但是前提是該系統要安裝JAVA虛擬機,這樣導致一些JAVA編寫的桌面程序無法在一般的用戶(沒有安裝JAVA虛擬機的用戶)上使用
2、JAVA的身後是SUN公司,提供及時的API更新,但是過多的版本導致JAVA的向下兼容性很差。而SUN公司在J2EE上的標準定義的並不是完美,導致在J2EE的開發中多數使用開源框架,開源框架是好東西,但是更新速度並不快。
3、都說面向對象的語言先進與面向過程,JAVA是OOP語言,但是它適合的是BS系統,在WEB項目中JAVA的實力毋庸置疑,但是轉到了底層的程序卻無法同C++抗衡。
4、個人認為JAVA的最大優點是開源,但是這往往也成了最大的缺陷了,無法定義一個好的標准使得開發時使用了框架,在新的程序員來到公司時必須先了解框架,延緩了開發的時間。
Ⅸ 關於計算機字元集及字元編碼的書籍推薦
Java語言所使用的字元集是16位Unicode編碼。另外再介紹一些常見的字元集: 1、最早在dos下寫pascal的時候,就遇到ASCII字元集,後來還是dos下寫c,也是ascii字元集特點:目前最通用的單位元組編碼字元集表示:單位元組最早ascii用7bit表示,總共能表示2^7=128個字元,後來擴展到8bit,就表示2^8=256個字元 2、GB2312又稱為GB2312-80字元集,全稱為《信息交換用漢字編碼字元集·基本集》,由原中國國家標准總局發布,1981年5月1日實施。特點:當然是能表示99%的中國漢字,還包括拉丁字母、日文假名、希臘字母、俄文字母、漢語拼音符號、漢語注音字母等表示:雙位元組 3、GBK是漢字編碼標准之一,全稱《漢字內碼擴展規范》,GBK 向下與GB2312編碼兼容,向上支持ISO10646.1國際標准。可以認為GBK是在GB2313基礎上通過內碼擴展出來的一個標准。特點:完全兼容GB2312標准,支持國際標准ISO/IEC10646-1和國家標准GB13000-1中的全部中日韓漢字,並包含了BIG5編碼中的所有漢字表示:雙位元組 4、Big5,台灣那邊使用比較多。 5、GB 18030,全稱是GB18030-2000《信息交換用漢字編碼字元集基本集的擴充》,是我國政府於2000年3月17日發布的新的漢字編碼國家標准,2001年8月31日後在中國市場上發布的軟體必須符合本標准。特點:就是強大。覆蓋中文、日文、朝鮮語和中國少數民族文字。滿足中國大陸、香港、台灣、日本和韓國等東亞地區信息交換多文種、大字量、多用途、統一編碼格式的要求。並且與Unicode 3.0版本兼容,填補Unicode擴展字元字匯「統一漢字擴展A」的內容。並且與以前的國家字元編碼標准(GB2312,GB13000.1)兼容。表示:單位元組、雙位元組、四位元組三種方式 6、Unicode野心更大(當然有一個國際統一標准當然是好事)特點:Unicode是一種在計算機上使用的字元編碼。它為每種語言中的每個字元設定了統一並且唯一的二進制編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。表示:utf-8,utf-16,utf-32 這里可能有點不好理解,舉個例子首先,把unicode理解成對所有字元做了一個統一的編號,比如:「字」這個字元,編號是23383,這個是unicode定義的但是,在計算機中,如何存儲這個編號呢?方式就有很多,存儲unicode的方式,就是utf-8,utf-16,utf-32 23383數值的16進製表示:0x5b57 utf-8用3個位元組來表示漢字,所以utf-8的表示為:0xE5AD97 utf-16用2個位元組來表示漢字,所以utf-16的表示為:0x5b57 剛好和數值是一樣的 utf-32用4個位元組來表示漢字,所以utf-32的表示為:0x00005b57 和數值是一樣的,不過浪費空間 7、再來講講utf-8,它是一種變長的字元集表示:單位元組來表示字母,雙位元組來表示一些希臘字母,三位元組來表示漢字,當然也有四位元組的這么做當然會增加表示和識別的難度,不過,可以節省空間。這也是為什麼utf-8在網路編碼中流行的原因。
Ⅹ JAVA語言和C/C++語言有什麼異同
Java 是由 C++發展而來的,保留了 C++的大部分內容,其編程方式類似於 C++。但 Java 的句法更清晰、規模更小、更易學。Sun 公司對多種程序設計語言進行了深入研究,並摒棄了其他語言的不足之處,最終退出了 Java。正是這樣,Java 從根本上解決了 C++的固有缺陷,形成了一種新的完全面向對象的語言。Java 和 C/C++的相似之處多於不同之處,有 C 基礎的讀者,學習 Java 會更容易。相比較而言,Java 的編程環境更為簡單。
剛開始的時候我們也搞不清這些概念,不過後來就慢慢清晰了,首先和大家談談Java和js的區別,最簡單的區別就是一個是後端,一個是前端。
1.指針
JAVA語言讓編程者無法找到指針來直接訪問內存無指針,並且增添了自動的內存管理功能,從而有效地防止了c/c++語言中指針操作失誤,如野指針所造成的系統崩潰。但也不是說JAVA沒有指針,虛擬機內部還是使用了指針,只是外人不得使用而已。這有利於Java程序的安全。
2.多重繼承
c++支持多重繼承,這是c++的一個特徵,它允許多父類派生一個類。盡管多重繼承功能很強,但使用復雜,而且會引起許多麻煩,編譯程序實現它也很不容易。Java不支持多重繼承,但允許一個類繼承多個介面(extends+implement),實現了c++多重繼承的功能,又避免了c++中的多重繼承實現方式帶來的諸多不便。
3.數據類型及類
Java是完全面向對象的語言,所有函數和變數部必須是類的一部分。除了基本數據類型之外,其餘的都作為類對象,包括數組。對象將數據和方法結合起來,把它們封裝在類中,這樣每個對象都可實現自己的特點和行為。而c++允許將函數和變數定義為全局的。此外,Java中取消了c/c++中的結構和聯合,消除了不必要的麻煩。
4.自動內存管理
Java程序中所有的對象都是用new操作符建立在內存堆棧上,這個操作符類似於c++的new操作符。下面的語句由一個建立了一個類Read的對象,然後調用該對象的work方法: