mysql存儲中文
一、轉碼失敗
在數據寫入到表的過程中轉碼失敗,資料庫端也沒有進行恰當的處理,導致存放在表裡的數據亂碼。
針對這種情況,前幾篇文章介紹過客戶端發送請求到服務端。
其中任意一個編碼不一致,都會導致表裡的數據存入不正確的編碼而產生亂碼。
比如下面簡單一條語句:
set @a = "文本字元串";
insert into t1 values(@a);
變數 @a 的字元編碼是由參數 CHARACTER_SET_CLIENT 決定的,假設此時編碼為 A,也就是變數 @a 的編碼。
2. 寫入語句在發送到 MySQL 服務端之前的編碼由 CHARACTER_SET_CONNECTION 決定,假設此時編碼為 B。
3. 經過 MySQL 一系列詞法,語法解析等處理後,寫入到表 t1,表 t1 的編碼為 C。
那這里編碼 A、編碼 B、編碼 C 如果不兼容,寫入的數據就直接亂碼。
二、客戶端亂碼
表數據正常,但是客戶端展示後出現亂碼。
這一類場景,指的是從 MySQL 表裡拿數據出來返回到客戶端,MySQL 里的數據本身沒有問題。客戶端發送請求到 MySQL,表的編碼為 D,從 MySQL 拿到記錄結果傳輸到客戶端,此時記錄編碼為 E(CHARACTER_SET_RESULTS)。
那以上編碼 E 和 D 如果不兼容,檢索出來的數據就看起來亂碼了。但是由於數據本身沒有被破壞,所以換個兼容的編碼就可以獲取正確的結果。
這一類又分為以下三個不同的小類:
1)欄位編碼和表一致,客戶端是不同的編碼
比如下面例子, 表數據的編碼是 utf8mb4,而 SESSION 1 發起的連接編碼為 gbk。那由於編碼不兼容,檢索出來的數據肯定為亂碼。
2)表編碼和客戶端的編碼一致,但是記錄之間編碼存在不一致的情形
比如表編碼是 utf8mb4,應用端編碼也是 utf8mb4,但是表裡的數據可能一半編碼是 utf8mb4,另外一半是 gbk。那麼此時表的數據也是正常的,不過此時採用哪種編碼都讀不到所有完整的數據。這樣數據產生的原因很多,比如其中一種可能性就是表編碼多次變更而且每次變更不徹底導致(變更不徹底,我之前的篇章里有介紹)。舉個例子,表 t3 的編碼之前是 utf8mb4,現在是 gbk,而且兩次編碼期間都被寫入了正常的數據。
3)每個欄位的編碼不一致,導致亂碼和第二點一樣的場景。不同的是:非記錄間的編碼不統一,而是每個欄位編碼不統一。舉個例子,表 c1 欄位 a1,a2。a1 編碼 gbk,a2 編碼是 utf8mb4。那每個欄位單獨讀出來數據是完整的,但是所有欄位一起讀出來,數據總會有一部分亂碼。
三、LATIN1
還有一種情形就是以 LATIN1 的編碼存儲數據
估計大家都知道字元集 LATIN1,LATIN1 對所有字元都是單位元組流處理,遇到不能處理的位元組流,保持原樣,那麼在以上兩種存入和檢索的過程中都能保證數據一致,所以 MySQL 長期以來默認的編碼都是 LATIN1。這種情形,看起來也沒啥不對的點,數據也沒亂碼,那為什麼還有選用其他的編碼呢?原因就是對字元存儲的位元組數不一樣,比如 emoji 字元 "❤",如果用 utf8mb4 存儲,佔用 3 個位元組,那 varchar(12) 就能存放 12 個字元,但是換成 LATIN1,只能存 4 個字元。
2. mysql字元集是latin1,如何將中文存進去
中文不管用什麼字元集來表示(GBK\GB2312\UTF8等),最終都是位元組的整數倍,而latin1或者說ISO-8859-1就是滿8byte(整位元組)的編碼方式。無論你傳多少個位元組進去,mysql都可以認為它是一個或者多個latin字元而已。是不是亂碼取決於讀出來之後的解碼方式,或者說客戶端的處理方式。客戶端如果知道讀出來的是中文,那麼就會按照中文的方式來嘗試解碼,自然就得不到亂碼,如果按照其它編碼方式來解碼,自然就可能是亂碼。
3. mysql中要存儲漢字要將數據類型定義為什麼
設置為gbk即可.可以寫一個my.ini來自動設置:
在Windows的系統安裝目錄下 (如:C:\WINDOWS\my.ini) 新建一個「my.ini」文件,注意後綴名是「ini」。內容如下:
[WinMySQLAdmin]
Server=c:/apps/mysql/bin/mysqld-nt.exe
[mysqld]
basedir=c:/apps/mysql
datadir=c:/dev/mysql data/data
default-character-set=gbk
[client]
default-character-set=gbk
上面「Server」指向MySQL的執行主程序,「basedir」指向MySQL的安裝目錄,「datadir」指向MySQL的數據存放目錄(因為我改變了它,所以需要特別指定),設置」default-charseter-set=gbk」是為了支持默認為中文。然後把「c:\apps\mysql\bin」追加到「環境變數」的「path」變數中 。
4. mysql中varchar(50)最多能存多少個漢字
首先要確定mysql版本,一般一個漢字2個位元組,50即可存25個漢字。
4.0版本以下,varchar(50),指的是50位元組,如果存放UTF8漢字時,只能存16個(每個漢字3位元組)。
5.0版本以上,varchar(50),指的是50字元,無論存放的是數字、字母還是UTF8漢字(每個漢字3位元組),都可以存放50個。最好是在自己資料庫中建個表試試可以放多少漢字,現在mysql已經有5.0了,varchar(50)是可以存50個漢字的。
存儲引擎
MyISAMMySQL 5.0 之前的默認資料庫引擎,最為常用。擁有較高的插入,查詢速度,但不支持事務。
InnoDB事務型資料庫的首選引擎,支持ACID事務,支持行級鎖定, MySQL 5.5 起成為默認資料庫引擎。
BDB源 自 Berkeley DB,事務型資料庫的另一種選擇,支持Commit 和Rollback 等其他事務特性。
Memory所有數據置於內存的存儲引擎,擁有極高的插入,更新和查詢效率。但是會佔用和數據量成正比的內存空間。並且其內容會在 MySQL 重新啟動時丟失。
以上內容參考:網路-mySQL
5. mysql 資料庫varchar可以存儲多少個漢字和多少個數字
首先要確定mysql版本,一般一個漢字2個位元組,50即可存25個漢字。
4.0版本以下,varchar(100),指的是100位元組,如果存放UTF8漢字時,只能存33個(每個漢字3位元組)
5.0版本以上,varchar(100),指的是100字元,無論存放的是數字、字母還是UTF8漢字(每個漢字3位元組),都可以存放100個。
varchar特點
1、使用比固定長度類型(char)佔用更少存儲空間(除了使用ROW_FORMAT=FIXED創建的MyISAM表)。
2、使用額外的1-2位元組來存儲值長度,列長度<=255使用1位元組保存,其它情況使用2位元組保存。例如varchar(10)會佔用11位元組存儲空間,varchar(500)會佔用502位元組存儲空間。
3、節約空間,所以性能會有幫助。在更新的時候會產生額外的工作。
以上內容參考:網路-varchar
6. Mysql如何儲存中文字元
資料庫是latin1也可以存入中文的~創建表欄位的時候,設置欄位字元集為UTF-8(utf8 general)就行了
7. MySQL 中如何存中文
MySQL 中何存中文方法如下:
1、create table的時候加上:ENGINE=InnoDB DEFAULT CHARSET=gbk;
例如:
CREATE TABLE t_department (
sid varchar(32) NOT NULL,
pid varchar(32) NOT NULL,
thedata varchar(50) NOT NULL
ENGINE=InnoDB DEFAULT CHARSET=gbk;
2、打開MySQL目錄下的my.ini文件,把裡面所有的default-character-set選項設為GBK或者GB2312,保存後重啟MySQL。
8. 如何讓mysql一個表中存在中文和數字
你問得這個問題很詭異,不知道你是啥目的。首先能存中文是很簡單的,復雜點可能就是把編碼設置成utf8,但這是很基本的,不應成為一個問題,就像是在問8能分成正整數幾和幾相加那麼簡單一樣。
9. MySQL資料庫表中怎麼存入漢字
UTF-8 編碼可以存儲中文 將 MySQL 的編碼格式設置為 UTF-8 即可
10. MySQL儲存中文因該用什麼數據格式
中文存儲應該用UTF8或者GBK,但是國際通用UTF-8存儲中文,別的形式很容易出現亂碼現象。在設計表時就應該選擇編碼。