漢字存儲和處理
⑴ 計算機對漢字進行處理和存儲時使用漢字的什麼碼
一般都是ASCII或者Unicode比較多,如果是字型檔量非常少的有可能只用區位碼,就像以往的高考報名。
⑵ 在計算機內部,對漢字進行傳輸、處理和存儲時使用的是漢字的()
在電腦內部對漢字進行傳輸處理和存儲時使用漢字的機內碼。
電腦內部漢字信息的存儲運算的代碼有四種:輸入碼、國標碼、內碼和字型碼。
輸入碼:包括拼音編碼和字型編碼。微軟拼音ABC就是拼音編碼,五筆字型輸入法就是字型編碼。
國標碼:又稱為漢字交換碼,在計算機之間交換信息用。用兩個位元組來表示,每個位元組的最高位均為0,因此可以表示的漢字數為2的14次冪,就是16384個。將漢字區位碼的高位位元組、低位位元組各加十進制數32(即十六進制數的20),便得到國標碼。例如「中」字的毀含國標碼為8680(十進制)或7468(十六進制)。
內碼:漢字內碼是在設備和信息處理系統內部存儲、處理、傳輸漢字用的代碼。無論使用何種輸入碼,進入計算機後就立即被轉換為機內碼。規則是將國標碼的高位位元組、低位位元組各自加上128(十進制)或80(十六進制)。例如,「中」字的內碼以十六進製表示時應為F4E8。這樣做的目的是使漢字內碼區數悉別於西文的ASCII,因為每個西文字母的ASCII的高位均為0,而漢字內碼的每個位元組的高位均為1。
字型碼:表示漢字字形的字模數據,因此也稱為字模碼,是漢字的輸出形式。通常用點陣、矢量函數等表示。用點陣表示時,字形碼指的就是這個漢字字形點陣的代碼。根據輸出漢字的要求不同,點陣的多少也不同。簡易型漢字為16′16點陣、提高型漢字為24′24點陣、48′48點陣等。如果是24′24點陣,每行24個點就是24個二進制位,存儲一行代碼需要3個位元組。那麼,24行共佔用3′24=72個位元組。計算公纖畢笑式:每行點數/8′行數。依此,對於48′48的點陣,一個漢字字形需要佔用的存儲空間為48/8′48=6′48=288個位元組。
⑶ 什麼編碼用於漢字的存取、處理和傳輸
漢字機內碼用於漢字的存取、處理和傳輸。
漢字機內碼,又稱「漢字ASCII碼」,簡稱「內碼」,指計算機內部存儲,處理加工和傳輸漢字時所用的由0和1符號組成的代碼。
機內碼是漢字最基本的編碼,不管是什麼漢字系統和漢字輸入方法,輸入的漢字外碼到機器內部都要轉換成機內碼,才能被存儲和進行各種處理。
(3)漢字存儲和處理擴展閱讀:
內碼是指計算機漢字系統中使用的二進制字元編碼,是溝通輸入、輸出與系統平台之間的交換碼,通過內碼可以達到通用和高效率傳輸文本的目的。
英文ASCII字元採用一個位元組的內碼表示,中文字元如國標字元集中,GB2312、GB12345、GB13000皆用雙位元組內碼。
GB18030(27,533漢字)雙位元組內碼漢字為20,902個,其餘6,631個漢字用四位元組內碼。
⑷ 漢字數字化存儲必須使用格式處理的方式
採用Unicode編碼Unicode是一種國際標準的字元編碼,可以將漢字轉換為統一的編碼,從而使漢字能夠跨平台存儲和傳輸。
1、採用GBK/GB2312編碼GBK/GB2312是漢字編碼的國家標准,它可以將漢字進行編碼,從而使漢字能夠在中文系統中存儲和傳輸。則銀
2、採用GB18030編碼山搏GB18030是一種漢字編碼,它支持更多的漢字,可以支持更多語種,從而使漢字能夠在多種語言環境中存儲和傳輸。
3、採用UTF-8編碼UTF-8是一種Unicode的編碼,它可逗盯祥以支持多種語言,從而使漢字可以在多種語言環境中存儲和傳輸。