漢字在計算機內部存儲
『壹』 漢字在計算機內部都是以()形式存儲的 a:交換碼 b:機內碼 c:國標碼 d:區位碼
d:區位碼。
漢字是以機內碼的形式存儲的
『貳』 漢字系統中的漢字字型檔里存放的漢字的(謝謝回答) A 機內碼 B輸入碼 C 字形碼 D國標碼
漢字系統中的漢字字型檔里存放的漢字的是C字形碼。
A機內碼:漢字在計算機內存儲、處理時的編碼
B輸入碼:輸入漢字時使用的編碼,如全拼輸入「中」時,中的輸入碼為「zhong」
C字形碼:為在計算機內表示漢字而統一的編碼方式形成漢字編碼叫內碼,內碼是惟一的。為方便漢字輸入而形成的漢字編碼為輸入碼,屬於漢字的外碼,輸入碼因編碼方式不同而不同,是多種多樣的。為顯示和列印輸出漢字而形成的漢字編碼為字形碼,計算機通過漢字內碼在字模庫中找出漢字的字形碼,實現其轉換。
D國標碼:中華人民共和國官方強制使用GB 18030標准,但較舊的計算機仍然使用GB 2312。
所以正確答案為C。
(2)漢字在計算機內部存儲擴展閱讀:
漢字編碼的類型。
整字輸入法:將三四千個常用漢字排列在一個具有三四百個鍵位的大鍵盤上。大多是將這些漢字按XY坐標排列在一張字表上,通常叫「字表法」,或「筆觸字表法」。
字形分解法:將漢字的形體分解成筆畫或部件,按一定順序輸進機器。筆畫一般分成 8種:橫一、豎(丨)、撇(丿)、點(丶)、折(□)、彎(□)、叉十、方(口)。部件一般歸納出一二百個。
字形為主、字音為輔的編碼法:這種編碼法與字形分解法的不同在於還要利用某些字音信息。如有的方案為了簡化編碼規則,縮短碼長,在字形碼上附加字音碼,有的方案為了採用標准英文電傳機,將分解歸納出來的字素通過關系字的讀音轉化為拉丁字母。
全拼音輸入法:絕大多數是以現行的漢語拼音方案為基礎進行設計。關鍵問題是區分同音字,因而有的方案提出「以詞定字」的方法,還有的方案提出「拼音-漢字轉換法」,即「漢語拼音輸入 ──機內軟體變換(實為查機器詞表)──漢字輸出」系統。
拼音為主、字形為輔的編碼法:在拼音碼前面或後面再添加一些字形碼。拼音碼有用現行漢語拼音方案或稍加簡化的,還有的為了縮短碼長而把聲母和韻母都用單字母或單字鍵表示的「雙拼方案」或「雙打方案」。
『叄』 什麼是內碼和外碼
我們常說漢字的"內碼"與"外碼"。
內碼是漢字在計算機內部存儲,處理和傳輸用的信息編碼。它必須與ASCII碼兼容但又不能沖突。
所以把國標碼兩個位元組的最高位置'1',以區別於西文,這就是內碼。漢字的輸入碼稱為"外碼"。輸入碼即指我們輸入漢字時使用的編碼。常見的外碼分為數字編碼(如區位碼),拼音編碼和字形編碼(如五筆)。
再說區位碼,"啊"的區位碼是1601,寫成16進制是0x10,0x01。這和計算機廣泛使用的ASCII編碼沖突。為了兼容00-7f的 ASCII編碼,我們在區位碼的高、低位元組上分別加上A0。這樣"啊"的編碼就成為B0A1。我們將加過兩個A0的編碼也稱為GB2312編碼,雖然 GB2312的原文根本沒提到這一點。
內碼是指操作系統內部的字元編碼。早期操作系統的內碼是與語言相關的.現在的Windows在內部統一使用Unicode,然後用代碼頁適應各種語言,"內碼"的概念就比較模糊了。我們一般將預設代碼頁指定的編碼說成是內碼。內碼這個詞彙,並沒有什麼官方的定義。代碼頁也只是微軟的一種習慣叫法。作為程序員,我們只要知道它們是什麼東西,沒有必要過多地考證這些名詞。
所謂代碼頁(code page)就是針對一種語言文字的字元編碼。例如GBK的code page是CP936,BIG5的code page是CP950,GB2312的code page是CP20936。
Windows中有預設代碼頁的概念,即預設用什麼編碼來解釋字元。例如Windows的記事本打開了一個文本文件,裡面的內容是位元組流:BA、BA、 D7、D6。Windows應該去怎麼解釋它呢?是按照Unicode編碼解釋、還是按照GBK解釋、還是按照BIG5解釋,還是按照ISO8859-1 去解釋?如果按GBK去解釋,就會得到"漢字"兩個字。按照其它編碼解釋,可能找不到對應的字元,也可能找到錯誤的字元。所謂"錯誤"是指與文本作者的本意不符,這時就產生了亂碼。
答案是Windows按照當前的預設代碼頁去解釋文本文件里的位元組流。預設代碼頁可以通過控制面板的區域選項設置。記事本的另存為中有一項ANSI,其實就是按照預設代碼頁的編碼方法保存。
Windows的內碼是Unicode,它在技術上可以同時支持多個代碼頁。只要文件能說明自己使用什麼編碼,用戶又安裝了對應的代碼頁,Windows就能正確顯示,例如在HTML文件中就可以指定charset。
有的HTML文件作者,特別是英文作者,認為世界上所有人都使用英文,在文件中不指定charset。如果他使用了0x80-0xff之間的字元,中文Windows又按照預設的GBK去解釋,就會出現亂碼。這時只要在這個html文件中加上指定charset的語句,例如:
<meta http-equiv="Content-Type" content="text/html; charset=ISO8859-1">
如果原作者使用的代碼頁和ISO8859-1兼容,就不會出現亂碼了