當前位置:首頁 » 編程軟體 » 漢字編譯法

漢字編譯法

發布時間: 2022-03-04 03:49:43

A. 什麼是漢字編碼

每天,我們都窩在格子間里噼里啪啦敲代碼敲到脫發,對代碼我們是再熟悉不過的老朋友了。


但不知道小夥伴們有沒有想過這樣一個問題:


那些讓我們「英年早禿」的代碼,到底是怎麼來的呢?


今天,麗斯老師就帶大家看看,這個讓我們愛恨兩難的「老朋友」究竟是何方神聖。


什麼是編碼?


編碼,是信息從一種形式或格式轉換為另一種形式的過程,簡單來講就是語言的翻譯過程。


我們都知道計算機使用的是機器語言即二進制碼,相信大部分人都無法流暢的閱讀二進制碼。


於是為了能夠讓人類更好的理解計算機輸出的結果就需要將機器語言轉換為自然語言。


比如英語、俄語和中文等。


這看似簡單的語言轉換過程,隨著計算機的普及,與互聯網化對語言字元的編碼沖擊也越來越大。


編碼規范的調整也伴隨著整個計算機發展歷史在逐步完善,甚至「愈演愈烈」。


UTF-8又是什麼


Unicode確實是一套能夠滿足全球使用的字元集,但是難道真的需要每一個字元都佔用4個位元組嗎?


雖然現在的存儲空間已經足夠大了,但是4個位元組一個字元的方式還是很不明智的。


比如字元「A」二進制碼01000001卻需要以的方式存儲。


這一定不是我們想要的。


於是UTF(Unicode/UCS Transformation Format)應運而生。


UTF是字元編碼五層次模型的第三層,通過特定的規則對Unicode字元編碼進行一定的壓縮和轉換以便快捷傳輸。



UTF的代表就是UTF-16和UTF-8。


千萬不要以為UTF-16比UTF-8更厲害能夠容納更多字元。


字元容納數量都是是Unicode編碼集所確定的范圍,UTF只是通過不同的轉換形式更快更高效的找到特定字元。


而UFT-16 比較奇葩,它使用 2 個或者 4 個位元組來存儲。


對於 Unicode 編號范圍在 0 ~ FFFF 之間的字元,UTF-16 使用兩個位元組存儲,並且直接存儲 Unicode 編號,不用進行編碼轉換,這跟 UTF-32 非常類似。


對於 Unicode 編號范圍在 10000~10FFFF 之間的字元。


UTF-16 使用四個位元組存儲,具體來說就是:


將字元編號的所有比特位分成兩部分。


較高的一些比特位用一個值介於 D800~DBFF 之間的雙位元組存儲。


較低的一些比特位(剩下的比特位)用一個值介於 DC00~DFFF 之間的雙位元組存儲。


設計UTF-8編碼表達方式的理由:

1、單位元組字元的最高有效比特永遠是0(大家可以看看其他編碼方式如何別扭的兼容ASCII碼的);


2、多位元組序列中的首個字元組的幾個最高有效比特決定了序列的長度。最高有效位為110的是2位元組序列,而1110的是三位元組序列,如此類推;


3、多位元組序列中其餘的位元組中的首兩個最高有效比特為10。


轉換關系如下圖:



這樣我們根據所要兼容的語言不同根據UTF-8多位元組最高有效比特,去判斷編碼最終使用了多少個位元組來存儲。


其餘的位元組也都滿足最高有效比特為10的特點有了一定的糾錯功能。


簡單一些理解就是UTF-16就是通過2個位元組16位來控制壓縮比例。


而UTF-8已經以高精度的1個位元組8位來控制壓縮比例了。


當然還有中UTF-32就可想而知,基本跟Unicode如出一轍。

B. 百度搜索時解釋漢字的叫什麼編譯方法

UTF-8編碼或者gbk(GB2312)編碼

中文的gbk(GB2312)編碼

如果是中文的gbk(GB2312)編碼,那麼它的形式應該是這樣的,即一個漢字對應兩組%xx,即%xx%xx,比如http://www..com/?tn=&word=%D6%D0%B9%FA 這個網頁地址是網路的,網路是使用GB2312編碼的,這個網址中我們可以看到的特殊代碼是「%D6%D0%B9%FA」,其中前面的「%D6%D0」就對應中文漢字「中」字,後面的「%B9%FA」就對應中國漢字「國」字。

中文的UTF-8編碼

如果是中文的UTF-8編碼,那麼它的形式應該是這樣的,即一個漢字對應三組%xx,即%xx%xx%xx,比如http://www.icpoline.com/tag/%e7%bd%91%e6%b0%91 ,這個網址是本站IcpOline.com的網頁,IcpOline使用的是UTF-8編碼,這個網址中的」%e7%bd%91%e6%b0%91〃對應著中文漢字「網民」,即「%e7%bd%91」對應漢字「網」,「%e6%b0%91」對應中文漢字「民」。

C. 下列漢字編碼方法中,採用4個位元組進行編碼的是—— A。GB2312-80 B.GBK C.BIG5 D.UCS/Unicode

D
前三個選項都只有雙位元組編碼。UCS/Unicode有2/4/8位元組編碼。

D. 漢字編碼有哪些類型,各有什麼特點

漢字編碼有五種類型,分別是整字輸入法、字形分解法、字形為主字音為輔的編碼法、拼音為主字形為輔的編碼法、全拼音輸入法。具體特點如下:

1、整字輸入法

將三四千個常用漢字排列在一個具有三四百個鍵位的大鍵盤上;一字一格(鍵),無重碼,直觀性好,操作簡單;但需特製鍵盤,速度較慢。

2、字形分解法

漢字的形體分解成筆畫或部件,按一定順序輸進機器;按形取碼,不涉及字音,因而不認識的字也同樣可以編碼輸入;漢字形體結構非常復雜,寫法也有許多差異,分解標准不易統一。

3、字形為主、字音為輔的編碼法

要利用某些字音信息,如有的方案為了簡化編碼規則,縮短碼長,在字形碼上附加字音碼;有的方案為了採用標准英文電傳機,將分解歸納出來的字素通過關系字的讀音轉化為拉丁字母。

4、全拼音輸入法

以現行的漢語拼音方案為基礎進行設計;操作簡捷,可以「盲打」,不受漢字簡化、字形改變的影響,符合拼音化方向,並且還便於作進一步信息處理。

5、拼音為主、字形為輔的編碼法

在拼音碼前面或後面再添加一些字形碼,拼音碼有用現行漢語拼音方案或稍加簡化的,還有的為了縮短碼長而把聲母和韻母都用單字母或單字鍵表示的「雙拼方案」或「雙打方案」;除了大部分採用偏旁部首的信息外,還有採用起末筆或採用語義類別的。

(4)漢字編譯法擴展閱讀:

定型標准

1、定型化

編碼方案的定型化,即一般所說的選優工作,對計算機的普及應用非常重要。當然,定型或選優並不意味著只定一種或只選一種,而要照顧到多種用戶的需要。

2、標准化

1981年,國家標准局公布了《信息交換用漢字編碼字元集基本集》(簡稱漢字標准交換碼),共分兩級,一級3755個字,二級3008個字,共6763個字。這種漢字標准交換碼可以為各種輸入輸出設備的設計提供統一的標准,使各種系統之間的信息交換有共同一致性。

E. 漢字涉及到幾種編碼

漢字在計算機上的編碼主要有三種:輸入碼、機,內碼和輸出碼,1.用於輸入的漢字的編碼——輸入碼(外碼)
計算機上輸入漢字的方法很多,如鍵盤編碼輸入、語音輸入、手寫輸入、掃描輸入等,其中鍵盤編碼輸入是最容易實現和最常用的一種漢字輸入方法。英文等可以用鍵盤上的每個字母鍵來輸入,而輸入漢字則不同,不可能用有限的按鍵來對應每一個漢字,為了讓用戶能直接使用英文鍵盤輸入漢字,於是就有了輸入漢字時使用的漢字輸入碼,它一般由鍵盤上的字母或數字組成,代表某個漢字或某些漢字、片語或句子。當前用於漢字輸入的編碼方案很多,如區位碼、拼音碼、王碼(五筆字型)、自然碼等。
2.用於儲存漢字的編碼——機內碼(內碼)
由於漢字輸入碼的編碼方案多種多樣,同一個漢字如果採用的編碼方案不一樣,其輸入碼就有可能不一樣。如果計算機內部存放的是漢字輸入碼本身,就會造成相同漢字在機內可以用不同的編碼表示,這樣顯然不合理,也給計算機內部的漢字處理增加了難度。為了將漢字的各種輸入碼在計算機內部統一起來,就引進了漢字的機內碼。
3.用於輸出漢字的編碼——輸出碼(字型碼)
存儲在計算機內的漢字在屏幕上顯示或在列印機上列印出來時,必須以漢字字形輸出,才能被人們所接受和理解。漢字的輸出碼實際上是漢字的字型碼,它是由漢字的字模信息所組成的。漢字是一種象形文字,每個漢字東可以看成一個特定的圖形,這種圖形可以用點陣、向量等方式表示,而最基本的是用點陣表示。所謂點陣方式,就是將漢字分解成由若干個「點」??組成的點陣字型,將此點陣字型至於網狀方格上,每個方各試點陣中的一個「點」。

F. 漢字編碼方法及計算機漢字輸入方法能申請專利嗎

漢字編碼方法屬於一種信息表述方法,它與聲音信號、語
言信號、可視顯示信號或者交通指示信號等各種信息表述方式
一樣,解決的問題僅取決於人的表達意願,採用的解決手段僅
是人為規定的編碼規則,實施該編碼方法的結果僅僅是一個符
號/字母數字串,解決的問題、採用的解決手段和獲得的效果
也未遵循自然規律。因此,僅僅涉及漢字編碼方法的發明專利
申請屬於專利法第二十五條第一款第(二) 項規定的智力活動
的規則和方法,不屬於專利保護的客體。

但是,如果把漢字編碼方法與該編碼方法可使用的特定鍵
盤相結合,構成計算機系統處理漢字的一種計算機漢字輸入方
法或者計算機漢字信息處理方法,使計算機系統能夠以漢字信
息為指令,運行程序,從而控制或處理外部對象或者內部對
象,則這種計算機漢字輸入方法或者計算機漢字信息處理方法
構成專利法第二條第二款所說的技術方案,不再屬於智力活動
的規則和方法,而屬於專利保護的客體。

G. 什麼軟體能把漢字編譯成C語言

C語言、JAVA語言,這些可以統稱為機器語言。
機器語言就是「電腦編譯器可以看得懂的語言」,目前絕大部分機器語言都是用英語語系,中文語系的機器語言並不成熟,有個「易語言」算是半成品。
但無論使用什麼語言,人可以理解的文字和機器可以理解的文字,有本質區別。目前還沒有可能「將人可以看得懂的變成機器可以看得懂的」這樣的工具,目前最先進的,也不過是用漢字寫成的「偽代碼」或流程圖變成C語言,但這也是個非常復雜的工程,缺乏准確性。
如果這個從「人看得懂的漢字」變成了C語言 實現了,那麼,具有創造力的智能機器人 就很可能實現了,這是世界難題。

H. 漢字編碼按編碼方法不同,可分為哪四大類

漢字編碼主要分為四大類:漢字輸入碼、漢字交換碼、漢字內碼和漢字字形碼。
(1)漢字的外部碼
漢字的外部碼簡稱外碼,又叫輸人碼,是輸人漢字的一組鍵盤符號。使用不同的輸入方法,同一漢字的外部碼不同。用戶應選用易記憶、操作簡單、位碼少、重碼少和輸人速度快的外碼。
(2)漢字的內部碼
漢字的內部碼又稱漢字內碼或漢字機內碼。機器接收到外碼後,要轉換成內碼進行存儲、運算和傳送。用二個位元組表示漢字的內碼。為了和西文符號區分,內碼的最高位設為「1」。內碼通常用漢字在車庫中的物理位置表示,可以是漢字在字型檔中的序號,也可以是字型檔中的存儲位置。
(3)漢字交換碼
在計算機之間交換信息時,要求傳送的漢字代碼符合國家規定的交換碼標准,即符合GB2312-80信息交換用漢字編碼集,又稱為國標碼。國標碼收集了7445個圖形字元,其中有6763個漢字和各種符號709個。
國標碼規定,每個漢字用兩個位元組表示,每個位元組僅用低7位,最高位為0。漢字的國標碼和內碼有—一對應關系,即將高位加l,國標碼就變為內碼。
(4)漢字字形碼
在顯示或列印漢字時,還涉及到字形碼,又稱輸出碼。漢字字形是指原來鉛字排版漢字的大小和形狀,在計算機中指組成漢字的點陣。盡管漢字字形有多種變化,筆畫繁簡不一,但都是方塊字且大小相同,都可以寫在同樣的方塊中。把一個方塊看成m行n列矩陣,共有m×n個點,稱為漢字點陣。如16×16點陣的漢字,共有256個點
漢字點陣和字形的對應關系是,有筆畫處的點為1,無筆畫處的點為0。這樣,漢字的點陣可以對應若干位元組長的字形碼。這種表示漢字點陣的方法稱為漢字字形的數字化表示法。

I. 漢字如何使用摩斯密碼編譯

一是直接發拼音,二是用不同組合的數字代替漢語的意思,三是拍發英文的縮寫。(摩爾斯碼就是由「·」和「—」組成,不同的組合組成數字或字母,比劃目前是沒有,太費勁了,畢竟是外國發明的)

J. 漢字編碼分為哪四種

漢字編碼主要分為四大類:漢字輸入碼、漢字交換碼、漢字內碼和漢字字形碼。

(1)漢字的外部碼

漢字的外部碼簡稱外碼,又叫輸人碼,是輸人漢字的一組鍵盤符號。使用不同的輸入方法,同一漢字的外部碼不同。用戶應選用易記憶、操作簡單、位碼少、重碼少和輸人速度快的外碼。

(2)漢字的內部碼

漢字的內部碼又稱漢字內碼或漢字機內碼。機器接收到外碼後,要轉換成內碼進行存儲、運算和傳送。用二個位元組表示漢字的內碼。為了和西文符號區分,內碼的最高位設為「1」。內碼通常用漢字在車庫中的物理位置表示,可以是漢字在字型檔中的序號,也可以是字型檔中的存儲位置。

(3)漢字交換碼

在計算機之間交換信息時,要求傳送的漢字代碼符合國家規定的交換碼標准,即符合GB2312-80信息交換用漢字編碼集,又稱為國標碼。國標碼收集了7445個圖形字元,其中有6763個漢字和各種符號709個。

(4)漢字字形碼

在顯示或列印漢字時,還涉及到字形碼,又稱輸出碼。漢字字形是指原來鉛字排版漢字的大小和形狀,在計算機中指組成漢字的點陣。

盡管漢字字形有多種變化,筆畫繁簡不一,但都是方塊字且大小相同,都可以寫在同樣的方塊中。把一個方塊看成m行n列矩陣,共有m×n個點,稱為漢字點陣。如16×16點陣的漢字,共有256個點。

漢字編碼

漢字編碼(Chinese character encoding )是為漢字設計的一種便於輸入計算機的代碼。由於電子計算機現有的輸入鍵盤與英文打字機鍵盤完全兼容。因而如何輸入非拉丁字母的文字(包括漢字)便成了多年來人們研究的課題。

漢字信息處理系統一般包括編碼、輸入、存儲、編輯、輸出和傳輸。編碼是關鍵。不解決這個問題,漢字就不能進入計算機。

漢字進入計算機的三種途徑 分別為:

①機器自動識別漢字:計算機通過「視覺」裝置(光學字元閱讀器或其他),用光電掃描等方法識別漢字。

②通過語音識別輸入:計算機利用人們給它配備的「聽覺器官」,自動辨別漢語語音要素,從不同的音節中找出不同的漢字,或從相同音節中判斷出不同漢字。

③通過漢字編碼輸入:根據一定的編碼方法,由人藉助輸入設備將漢字輸入計算機。

機器自動識別漢字和漢語語音識別,國內外都在研究,雖然取得了不少進展,但由於難度大,預計還要經過相當一段時間才能得到解決。在現階段,比較現實的就是通過漢字編碼方法使漢字進入計算機。

熱點內容
scratch少兒編程課程 發布:2025-04-16 17:11:44 瀏覽:624
榮耀x10從哪裡設置密碼 發布:2025-04-16 17:11:43 瀏覽:355
java從入門到精通視頻 發布:2025-04-16 17:11:43 瀏覽:69
php微信介面教程 發布:2025-04-16 17:07:30 瀏覽:294
android實現陰影 發布:2025-04-16 16:50:08 瀏覽:786
粉筆直播課緩存 發布:2025-04-16 16:31:21 瀏覽:336
機頂盒都有什麼配置 發布:2025-04-16 16:24:37 瀏覽:201
編寫手游反編譯都需要學習什麼 發布:2025-04-16 16:19:36 瀏覽:796
proteus編譯文件位置 發布:2025-04-16 16:18:44 瀏覽:353
土壓縮的本質 發布:2025-04-16 16:13:21 瀏覽:581