當前位置:首頁 » 操作系統 » oracle資料庫字元集

oracle資料庫字元集

發布時間: 2023-06-09 21:45:40

1. oracle如何查看客戶端的字元集

查看資料庫字元集,涉及三方面的字元集:

  1. 查詢oracle server端的字元集 :比較直觀的查詢方法是以種:sql>selectuserenv(『language』) from al;結果類似如下:AMERICAN _ AMERICA. ZHS16GBK

  2. 如何查詢dmp文件的字元集 :用oracle的exp工具導出的dmp文件也包含了字元集信息,dmp文件的第2和第3個位元組記錄了dmp文件的字元集。如果dmp文件不大,比如只有 幾M或幾十M,可以用UltraEdit打開(16進制方式),看第2第3個位元組的內容,如0354,然後用以下SQL查出它對應的字元集:SQL> select nls_charset_name(to_number('0354','xxxx')) from al;如果dmp文件很大,比如有2G以上(這也是最常見的情況),用文本編輯器打開很慢或者完全打不開,可以用以下命令(在unix主機上):cat exp.dmp |od -x|head -1|awk '{print $2 $3}'|cut -c 3-6 ,然後用上述SQL也可以得到它對應的字元集。

  3. 查詢oracle client端的字元集:在windows平台下,就是注冊表裡面相應OracleHome的NLS_LANG。還可以在dos窗口裡面自己設置,比如:set nls_lang=AMERICAN_AMERICA.ZHS16GBK ,這樣就隻影響這個窗口裡面的環境變數。在unix平台下,就是環境變數NLS_LANG。

2. oracle資料庫中有哪些字元集,字元集之間的子集和超集關系是怎麼樣的

理解ORACLE資料庫字元集

一.引言

ORACLE資料庫字元集,即Oracle全球化支持(Globalization Support),或即國家語言支持(NLS)其作用是用本國語言和格式來存儲、處理和檢索數據。利用全球化支持,ORACLE為用戶提供自己熟悉的資料庫母語環境,諸如日期格式、數字格式和存儲序列等。Oracle可以支持多種語言及字元集,其中oracle8i支持48種語言、76個國家地域、229種字元集,而oracle9i則支持57種語言、88個國家地域、235種字元集。由於oracle字元集種類多,且在存儲、檢索、遷移oracle數據時多個環節與字元集的設置密切相關,因此在實際的應用中,資料庫開發和管理人員經常會遇到有關oracle字元集方面的問題。本文通過以下幾個方面闡述,對oracle字元集做簡要分析

二.字元集基本知識

2.1字元集
實質就是按照一定的字元編碼方案,對一組特定的符號,分別賦予不同數值編碼的集合。Oracle資料庫最早支持的編碼方案是US7ASCII。
Oracle 的字元集命名遵循以下命名規則 :

即: <語言><比特位數><編碼 >
比如: ZHS16GBK表示採用GBK編碼格式、16位(兩個位元組)簡體中文字元集

2.2字元編碼方案
2.2.1 單位元組編碼
(1)單位元組7位字元集,可以定義128個字元,最常用的字元集為 US7ASCII
(2)單位元組8位字元集,可以定義256個字元,適合於歐洲大部分國家
例如:WE8ISO8859P1(西歐、8位、ISO標准8859P1編碼 )
2.2.2 多位元組編碼
(1)變長多位元組編碼
某些字元用一個位元組表示,其它字元用兩個或多個字元表示,變長多位元組編碼常用於對亞洲語言的支持, 例如日語、漢語、印地語等
例如:AL32UTF8(其中AL代表ALL,指適用於所有語言)、 zhs16cgb231280
(2)定長多位元組編碼
每一個字元都使用固定長度位元組的編碼方案,目前oracle唯一支持的定長多位元組編碼是AF16UTF16,也是僅用於國家字元集
2.2.3 unicode 編碼
Unicode 是一個涵蓋了目前全世界使用的所有已知字元的單一編碼方案,也就是說Unicode為每一個字元提供唯一的編碼。UTF-16是unicode的16位編碼方式,是一種定長多位元組編碼,用2個位元組表示一個unicode字元,AF16UTF16是UTF-16編碼字元集。
UTF-8 是unicode的8位編碼方式,是一種變長多位元組編碼,這種編碼可以用1、2、3個位元組表示一個unicode字元,AL32UTF8,UTF8、UTFE是UTF-8編碼字元集

2.3 字元集超級
當一種字元集(字元集A)的編碼數值包含所有另一種字元集(字元集B)的編碼數值,並且兩種字元集相同編碼數值代表相同的字元時,則字元集A是字元集B的超級,或稱字元集B是字元集A的子集。
Oracle8i 和oracle9i官方文檔資料中備有子集-超級對照表(subset-superset pairs),例如:WE8ISO8859P1是WE8MSWIN1252的子集。由於US7ASCII是最早的Oracle資料庫編碼格式,因此有許多字元集是US7ASCII的超集,例如WE8ISO8859P1、ZHS16CGB231280、ZHS16GBK都是US7ASCII的超集。

2.4 資料庫字元集(oracle伺服器端字元集)
資料庫字元集在創建資料庫時指定,在創建後通常不能更改。在創建資料庫時,可以指定字元集(CHARACTER SET)和國家字元集(NATIONAL CHARACTER SET)。
2.4.1 字元集
(1) 用來存儲CHAR, VARCHAR2, CLOB, LONG等類型數據
(2) 用來標示諸如表名、列名以及PL/SQL變數等
(3) 用來存儲SQL和PL/SQL程序單元等
2.4.2 國家字元集:
(1) 用以存儲NCHAR, NVARCHAR2, NCLOB等類型數據
(2) 國家字元集實質上是為oracle選擇的附加字元集,主要作用是為了增強oracle的字元處理能力,因為NCHAR數據類型可以提供對亞洲使用定長多位元組編碼的支持,而資料庫字元集則不能。國家字元集在oracle9i中進行了重新定義,只能在unicode編碼中的AF16UTF16和UTF8中選擇,默認值是 AF16UTF16
2.4.3查詢字元集參數
可以查詢以下數據字典或視圖查看字元集設置情況
nls_database_parameters 、props$、 v$nls_parameters
查詢結果中NLS_CHARACTERSET表示字元集,NLS_NCHAR_CHARACTERSET表示國家字元集
2.4.4 修改資料庫字元集
按照上文所說,資料庫字元集在創建後原則上不能更改。如果需要修改字元集,通常需要導出資料庫數據,重建資料庫,再導入資料庫數據的方式來轉換,或通過ALTER DATABASE CHARACTER SET語句修改字元集,但創建資料庫後修改字元集是有限制的,只有新的字元集是當前字元集的超集時才能修改資料庫字元集,例如UTF8是US7ASCII的超集,修改資料庫字元集可使用ALTER DATABASE CHARACTER SET UTF8。

2.5 客戶端字元集(NLS_LANG參數)
2.5.1 客戶端字元集含義
客戶端字元集定義了客戶端字元數據的編碼方式,任何發自或發往客戶端的字元數據均使用客戶端定義的字元集編碼,客戶端可以看作是能與資料庫直接連接的各種應用,例如sqlplus,exp/imp等。客戶端字元集是通過設置NLS_LANG參數來設定的。
2.5.2 NLS_LANG 參數格式
NLS_LANG=_.
Language: 顯示oracle消息,校驗,日期命名
Territory :指定默認日期、數字、貨幣等格式
Client character set :指定客戶端將使用的字元集
例如: NLS_LANG=AMERICAN_AMERICA.US7ASCII
AMERICAN是語言,AMERICA是地區,US7ASCII是客戶端字元集
2.5.3 客戶端字元集設置方法
1)UNIX 環境
$NLS_LANG=「simplified chinese」_china.zhs16gbk
$export NLS_LANG
編輯oracle用戶的profile文件
2)Windows 環境
編輯注冊表
Regedit.exe---HKEY_LOCAL_MACHINE---SOFTWARE---ORACLE—HOME0
2.5.4 NLS 參數查詢
Oracle 提供若干NLS參數定製資料庫和用戶機以適應本地格式,例如有NLS_LANGUAGE,NLS_DATE_FORMAT,NLS_CALENDER等,可以通過查詢以下數據字典或v$視圖查看。
NLS_DATABASE_PARAMETERS-- 顯示資料庫當前NLS參數取值,包括資料庫字元集取值
NLS_SESSION_PARAMETERS-- 顯示由NLS_LANG 設置的參數,或經過alter session 改變後的參數值(不包括由NLS_LANG 設置的客戶端字元集)
NLS_INSTANCE_PARAMETE-- 顯示由參數文件init.ora 定義的參數V$NLS_PARAMETERS--顯示資料庫當前NLS參數取值
2.5.5 修改NLS參數
使用下列方法可以修改NLS參數
(1)修改實例啟動時使用的初始化參數文件
(2)修改環境變數 NLS_LANG
(3)使用ALTER SESSION語句,在oracle會話中修改
(4)使用某些SQL函數
NLS 作用優先順序別:Sql function>alter session>環境變數或注冊表>參數文件>資料庫默認參數

三.導入/導出與字元集轉換

3.1 EXP/IMP
Export 和 Import 是一對讀寫Oracle數據的工具。Export 將 Oracle 資料庫中的數據輸出到操作系統文件中, Import 把這些文件中的數據讀到Oracle 資料庫中,由於使用exp/imp進行數據遷移時,數據從源資料庫到目標資料庫的過程中有四個環節涉及到字元集,如果這四個環節的字元集不一致,將會發生字元集轉換。

EXP
____________ _________________ _____________
|imp導入文件|<-><->
------------ ----------------- -------------

IMP
____________ _________________ _____________
|imp導入文件|->|環境變數NLS_LANG|->|資料庫字元集|
------------ ----------------- -------------

四個字元集是
(1)源資料庫字元集
(2)Export過程中用戶會話字元集(通過NLS_LANG設定)
(3)Import過程中用戶會話字元集(通過NLS_LANG設定)
(4)目標資料庫字元集

3.2導出的轉換過程
在Export過程中,如果源資料庫字元集與Export用戶會話字元集不一致,會發生字元集轉換,並在導出文件的頭部幾個位元組中存儲Export用戶會話字元集的ID號。在這個轉換過程中可能發生數據的丟失。
例:如果源資料庫使用ZHS16GBK,而Export用戶會話字元集使用US7ASCII,由於ZHS16GBK是16位字元集,而US7ASCII是7位字元集,這個轉換過程中,中文字元在US7ASCII中不能夠找到對等的字元,所以所有中文字元都會丟失而變成「?? 」形式,這樣轉換後生成的Dmp文件已經發生了數據丟失。
因此如果想正確導出源資料庫數據,則Export過程中用戶會話字元集應等於源資料庫字元集或是源資料庫字元集的超集

3.3導入的轉換過程
(1)確定導出資料庫字元集環境
通過讀取導出文件頭,可以獲得導出文件的字元集設置
(2)確定導入session的字元集,即導入Session使用的NLS_LANG環境變數
(3)IMP讀取導出文件
讀取導出文件字元集ID,和導入進程的NLS_LANG進行比較
(4)如果導出文件字元集和導入Session字元集相同,那麼在這一步驟內就不需要轉換,如果不同,就需要把數據轉換為導入Session使用的字元集。可以看出,導入數據到資料庫過程中發生兩次字元集轉換
第一次:導入文件字元集與導入Session使用的字元集之間的轉換,如果這個轉換過程不能正確完成,Import向目標資料庫的導入過程也就不能完成。
第二次:導入Session字元集與資料庫字元集之間的轉換。
然而,oracle8i的這種轉換只能在單位元組字元集之間進行,oracle8i導入Session不支持多位元組字元集之間的轉換,因此為了避免第一次轉換,導入Session使用的NLS_LANG與導出文件字元集相同,第二次轉換(通過SQL*Net)支持任何兩種字元集。以上情況在Oracle9i中略有不同

四.亂碼問題

oracle在數據存儲、遷移過程中經常發生字元亂碼問題,歸根到底是由於字元集使用不當引起。下面以使用客戶端sqlplus向資料庫插入數據和導入/導出(EXP/IMP)過程為例,說明亂碼產生的原因。

4.1使用客戶端sqlplus向資料庫存儲數據
這個過程存在3個字元集設置
(1)客戶端應用字元集
(2)客戶端NLS_LANG參數設置
(3)伺服器端資料庫字元集(Character Set)設置
客戶端應用sqlplus中能夠顯示什麼樣的字元取決於客戶端操作系統語言環境(客戶端應用字元集),但在應用中錄入這些字元後,這些字元能否在資料庫中正常存儲,還與另外兩個字元集設置緊密相關,其中客戶端NLS_LANG參數主要用於字元數據傳輸過程中的轉換判斷。常見的亂碼大致有兩種情形:
(1)漢字變成問號「?」;
當從字元集A 轉換成字元集B時,如果轉換字元之間不存在對應關系,NLS_LANG使用替代字元「?」替代無法映射的字元
(2)漢字變成未知字元(雖然有些是漢字,但與原字元含義不同)
轉換存在對應關系,但字元集A 中的字元編碼與字元集B 中的字元編碼代表不同含義

4.2發生亂碼原因
亂碼產生是由於幾個字元集之間轉換不匹配造成,分以下幾種情況:
(註:字元集之間如果不存在子集、超集對應關系時的情況不予考慮,因為這種情況下字元集之間轉換必產生亂碼)
1)伺服器端資料庫字元集與客戶端應用字元集相同,與客戶端NLS_LANG參數設置不同
如果客戶端NLS_LANG字元集是其它兩種字元集的子集,轉換過程將出現亂碼。
解決方法:將三種字元集設置成同一字元集,或NLS_LANG字元集是其它兩種字元集的超集
2 )伺服器端資料庫字元集與客戶端NLS_LANG參數設置相同,與客戶端應用字元集不同
如果客戶端應用字元集是其它兩種字元集的超集時,轉換過程將出現亂碼,但對於單位元組編碼存儲中文問題,可參看本文第5章節的分析
3 )客戶端應用字元集、客戶端NLS_LANG參數設置、伺服器端資料庫字元集互不相同
此種情況較為復雜,但三種字元集之間只要有不能轉換的字元,則必產生亂碼

4.3導入/導出過程出現亂碼原因
這個過程存在4個字元集設置,在3.1章節中已分析
(1)源資料庫字元集
(2)EXP過程中NLS_LANG參數
(3)IMP過程中NLS_LANG參數
(4)目標資料庫字元集
出現亂碼原因
1 )當源資料庫字元集不等於EXP過程中NLS_LANG參數,且源資料庫字元集是EXP過程中NLS_LANG的子集,才能保證導出文件正確,其他情況則導出文件字元亂碼
2 )EXP過程中NLS_LANG字元集不等於IMP過程中NLS_LANG字元集,且EXP過程中NLS_LANG字元集是IMP過程中NLS_LANG字元集的子級, 才能保證第一次轉換正常,否則第一次轉換中出現亂碼。
3 )如果第一次轉換正常,IMP過程中NLS_LANG字元集是目標資料庫字元集的子集或相同,才能保證第二次轉換正常,否則則第二次轉換中出現亂碼

五.單位元組編碼存儲中文問題

由於歷史的原因,早期的oracle沒有中文字元集(如oracle6、oracle7、oracle7.1),但有的用戶從那時起就使用資料庫了,並用US7ASCII字元集存儲了中文,或是有的用戶在創建資料庫時,不考慮清楚,隨意選擇一個默認的字元集,如WE8ISO8859P1或US7ASCII,而這兩個字元集都沒有漢字編碼,雖然有些時候選用這種字元集好象也能正常使用,但用這種字元集存儲漢字信息從原則上說就是錯誤的,它會給資料庫的使用與維護帶來一系列的麻煩。
正常情況下,要將漢字存入資料庫,資料庫字元集必須支持中文,而將資料庫字元集設置為US7ASCII等單位元組字元集是不合適的。US7ASCII字元集只定義了128個符號,並不支持漢字。另外,如果在SQL*PLUS中能夠輸入中文,操作系統預設應該是支持中文的,但如果在NLS_LANG中的字元集設置為US7ASCII,顯然也是不正確的,它沒有反映客戶端的實際情況。但在實際應用中漢字顯示卻是正確的,這主要是因為Oracle檢查資料庫與客戶端的字元集設置是同樣的,那麼數據在客戶與資料庫之間的存取過程中將不發生任何轉換,但是這實際上導致了資料庫標識的字元集與實際存入的內容是不相符的。而在SELECT的過程中,Oracle同樣檢查發現資料庫與客戶端的字元集設置是相同的,所以它也將存入的內容原封不動地傳送到客戶端,而客戶端操作系統識別出這是漢字編碼所以能夠正確顯示。
在這個例子中,資料庫與客戶端都沒有設置成中文字元集,但卻能正常顯示中文,從應用的角度看好象沒問題。然而這裡面卻存在著極大的隱患,比如在應用length或substr等字元串函數時,就可能得到意外的結果。
對於早期使用US7ASCII字元集資料庫的數據遷移到oracle8i/9i中(使用zhs16gbk),由於原始數據已經按照US7ASCII格式存儲,對於這種情況,可以通過使用Oracle8i的導出工具,設置導出字元集為US7ASCII,導出後使用UltraEdit等工具打開dmp文件,修改第二、三字元,修改 0001 為0354,這樣就可以將US7ASCII字元集的數據正確導入到ZHS16GBK的資料庫中。

六.結束語

為了避免在資料庫遷移過程中由於字元集不同導致的數據損失,oracle提供了字元集掃描工具(character set scanner),通過這個工具我們可以測試在數據遷移過程中由於字元集轉換可能帶來的問題,然後根據測試結果,確定數據遷移過程中最佳字元集解決方案。

參考文獻
[1]Biju Thomas , Bob Bryla 《oracle9i DBA基礎I 學習指南》電子工業出版社 2002

3. 如何查看oracle用的什麼字元集

查看oracle字元集方法如下:

1、單機電腦做小腳windows圖標,輸入框中輸入「cmd」

(3)oracle資料庫字元集擴展閱讀:

甲骨文公司,全稱甲骨文股份有限公司(甲骨文軟體系統有限公司),是全球最大的企業級軟體公司,總部位於美國加利福尼亞州的紅木灘。1989年正式進入中國市場。2013年,甲骨文已超越IBM,成為繼Microsoft後全球第二大軟體公司。

2017年6月7日發布的2017年美國《財富》500強,甲骨文公司排名第81位。 2017年6月,《2017年BrandZ最具價值全球品牌100強》公布,甲骨文公司排名第46位。

字元(Character)是各種文字和符號的總稱,包括各國家文字、標點符號、圖形符號、數字等。字元集(Character set)是多個字元的集合,字元集種類較多,每個字元集包含的字元個數不同,常見字元集名稱:ASCII字元集、GB2312字元集、BIG5字元集、 GB18030字元集、Unicode字元集等。計算機要准確的處理各種字元集文字,需要進行字元編碼,以便計算機能夠識別和存儲各種文字。中文文字數目大,而且還分為簡體中文和繁體中文兩種不同書寫規則的文字,而計算機最初是按英語單位元組字元設計的,因此,對中文字元進行編碼,是中文信息交流的技術基礎。

網路-字元集

網路-甲骨文公司



4. 如何查看和修改Oracle資料庫伺服器端的字元集

  1. A、oracle server 端字元集查詢

    select userenv('language') from al

    其中NLS_CHARACTERSET 為server端字元集

    NLS_LANGUAGE 為 server端字元顯示形式

    B、查詢oracle client端的字元集

    $echo $NLS_LANG

    如果發現你select 出來的數據是亂碼,請把client端的字元集配置成與linux操作系統相同的字元集。如果還是有亂碼,則有可能是資料庫中的數據存在問題,或者是oracle服務端的配置存在問題。

    C、server端字元集修改

    將資料庫啟動到RESTRICTED模式下做字元集更改:

    SQL> conn /as sysdba Connected.

    SQL> shutdown immediate;

    Database closed.

    Database dismounted.

    ORACLE instance shut down.

  2. 如果發現你select 出來的數據是亂碼,請把client端的字元集配置成與linux操作系統相同的字元集。如果還是有亂碼,則有可能是資料庫中的數據存在問題,或者是oracle服務端的配置存在問題。

  3. .1.oracle server端字元集查詢 復制代碼代碼如下: select userenv('language') from al; server字元集修改: 將資料庫啟動到RESTRICTED模式下做字元集更改:&??

  4. oracle10g伺服器端是安裝在AIX 6.0系統上,客戶端是安裝在windows server 2008 系統上,客戶端與伺服器已成功連接,但是資料庫表裡的中文字無法顯示,顯示為「?」,用SQLPLUS查得伺服器端的字元集為AL16uTF16,如何修改該字元集使之支持中文呢?另外oracle10G客戶端的字元集需不需要設置,如何查看和設置呢?

5. 怎樣修改查看Oracle字元集

[Q]怎麼樣查看資料庫字元集 [A]資料庫伺服器字元集select * from nls_database_parameters 其來源於props$ 是表示資料庫的字元集 客戶端字元集環境select * from nls_instance_parameters 其來源於v$parameter 表示客戶端的字元集的設置 可能是參數文件 環境變數或者是注冊表會話字元集環境 select * from nls_session_parameters 其來源於v$nls_parameters 表示會話自己的設置 可能是會話的環境變數或者是alter session完成 如果會話沒有特殊的設置 將與nls_instance_parameters一致 客戶端的字元集要求與伺服器一致 才能正確顯示資料庫的非Ascii字元 如果多個設置存在的時候 alter session>環境變數>注冊表>參數文件字元集要求一致 但是語言設置卻可以不同 語言設置建議用英文 如字元集是zhs gbk 則nls_lang可以是American_America zhs gbk [Q]怎麼樣修改字元集 [A] i以上版本可以通過alter database來修改字元集 但也只限於子集到超集 不建議修改props$表 將可能導致嚴重錯誤 Startup nomount;Alter database mount exclusive;Alter system enable restricted session;Alter system set job_queue_process= ;Alter database open;Alter database character set zhs gbk; lishixin/Article/program/Oracle/201311/17182

熱點內容
我的世界伺服器生存地址 發布:2025-04-06 08:20:25 瀏覽:722
des演算法缺點 發布:2025-04-06 08:13:51 瀏覽:571
電腦伺服器數據連接不上access 發布:2025-04-06 08:12:21 瀏覽:208
堆調整演算法 發布:2025-04-06 08:08:38 瀏覽:603
網頁點上傳 發布:2025-04-06 07:59:54 瀏覽:782
c高級編程第八版 發布:2025-04-06 07:55:20 瀏覽:986
ftp伺服器怎麼填寫ip地址 發布:2025-04-06 07:54:04 瀏覽:835
c語言的二維數組賦值 發布:2025-04-06 07:51:52 瀏覽:802
java忙 發布:2025-04-06 07:29:39 瀏覽:215
安卓移動終端平台是什麼 發布:2025-04-06 07:24:52 瀏覽:777