當前位置:首頁 » 編程語言 » python字元串位元組

python字元串位元組

發布時間: 2023-09-21 21:38:04

python str與bytes編碼解碼

下面一張圖搞懂編碼、解碼、編碼表之間的關系。

不難看出,它們是一種根據編碼表進行翻譯、映射的過程:

實際上,字元串類型只有encode()方法,沒有decode()方法,而bytes類型只有decode()方法而沒有encode()方法。

二進制格式的數據也常稱為裸數據(raw data),所以str數據經過編碼後得到raw data,raw data解碼後得到的str。

上面說了,編碼是將字元數據轉換成位元組數據(raw data),解碼是將位元組數據轉換成字元數據。在Python中字元數據也就是字元串,即str類型,位元組數據也就是bytes類型或bytearray類型。

編碼時,可以使用位元組類型的構造方法bytes()、bytearray()來構造位元組,也可以使用str類型的encode()方法來轉換。

解碼時,可以使用str類型的構造方法str()來構造字元串,也可以使用bytes、bytearray()類型的decode()方法。

另外需要注意的是,編碼和解碼的過程中都需要指定編碼表(字元集),默認採用的是utf-8字元集。

例如,使用encode()的方式將str編碼為bytes數據。

使用bytes()和bytearray()將str構造成bytes或bytearray數據,這兩個方法都要求str->byte的過程中給定編碼。

實際上,bytes()、bytearray()這兩個方法構造位元組數據的時候還有點復雜,因為可以從多個數據源來構造,比如字元串、整數值、buffer。如何使用這兩個方法構造位元組數據,詳細內容參考help(bytes)和help(bytearray)給出的說明,這里給幾個簡單示例。

構造bytes的方式:

構造bytearray的方式:

解碼是位元組序列到str類型的轉換。

例如,使用decode()方法進行解碼"我"字,它的utf-8的編碼對應為"\xe6\x88\x91":

使用str()進行轉換。

當編碼、解碼的過程使用了不同的(不兼容的)編碼表時,就會出現亂碼。所以,解決亂碼的唯一方式是指定對應的編碼表進行編碼、解碼。

例如,使用utf-8編碼"我"字,得到一個bytes序列,然後使用gbk解碼這個bytes序列。

這里報錯了,因為utf-8的位元組序列里有gbk無法解碼的位元組。如果使用文本編輯器一樣的工具去顯化這個過程,得到的將是亂碼字元。

原文地址: https://www.cnblogs.com/f-ck-need-u/p/10185965.html

Ⅱ Python字元編碼使用什麼碼

Python 2.x 和 Python 3.x 的字元編碼存在較大的區別。下面將分別介紹它們的編碼原理及相關內容。

Python 2.x 字元編碼

在 Python 2.x 中,str 類型默認使用 ASCII 編碼。ASCII 編碼是在 1960 年代初開發的一種編碼方式,用於將英文字母、數字、符號等字元表示為位元組。由於 ASCII 編碼只使用了 7 位二進制數,因此只能表示 128 種字元。

當需要使用非 ASCII 字元時,在 str 類型前添加 u 前綴,即可將字元串轉換為 Unicode 類型,如下所示:

str1 = 'hello' # 默認使用 ASCII 編碼

str2 = u'你好' # 使用 Unicode 編碼

Python 3.x 字元編碼

在 Python 3.x 中,str 類型默認使用 Unicode 編碼,即 Python 2.x 中的 Unicode 類型。Unicode 編碼是一種支持全球范圍內的字元集,褲歲正能夠表示幾乎所有語言的字元,包括漢字、日文、希臘字母等。

為了支持位元組和 Unicode 類型之間的轉換,Python3.x 新增了 bytes 類型。bytes 類型與 str 類型的區別在於,bytes 類型會自動將字元串轉雀猛換成位元組,而 str 類型會自動將位元組轉換成字元串。

bytes 類型使用 b 前綴表示,如下所示:

str1 = 'hello' # 默認使用胡悔 Unicode 編碼,即 Python 2.x 中的 Unicode 類型

str2 = b'hello' # 使用 bytes 類型

編碼原理及注意事項

  • 字元編碼的原理在於將字元轉換為二進製表示,以便計算機能夠處理。

  • ASCII 編碼使用 7 位二進制數對字元進行編碼,而 Unicode 編碼使用 16 位或 32 位二進制數對字元進行編碼。

  • 在 Python 中,可以使用 encode 方法將 Unicode 字元串轉換為位元組類型,使用 decode 方法將位元組類型轉換為 Unicode 字元串。編碼方式有多種,如 UTF-8、GBK、Unicode 等,需要根據實際業務需求進行選擇。

  • UTF-8 編碼是一種常用的 Unicode 字元編碼方式,它使用變長位元組對字元進行編碼,能夠表示幾乎所有的字元。GBK 編碼是一種用於漢字編碼的字元集,只能表示中文字元。

  • Python 3.x 默認使用 UTF-8 編碼,因此在讀取文件或進行網路傳輸時,需要明確指定編碼方式以避免出現亂碼等問題。

總結

由於字元編碼十分復雜,涉及到的知識點較多,因此學習時需要耐心且注意細節。在使用 Python 進行編程時,需要根據實際情況選擇合適的編碼方式,以避免出現亂碼等問題。

希望我的回答能夠對您有所幫助!

Ⅲ Python 16進制位元組數組轉字元串

bytes_object = [0xAA, 0xAB, 0x11]

w = " ".join("%02x" % b for b in bytes_object)

print(w)

輸出結果:aa ab 11

熱點內容
電視現在什麼配置好 發布:2025-03-07 06:01:06 瀏覽:625
安卓內存很大為什麼還是卡 發布:2025-03-07 05:43:53 瀏覽:533
什麼配置的車厲害 發布:2025-03-07 05:43:06 瀏覽:456
魅族應用加密 發布:2025-03-07 05:41:51 瀏覽:652
c盤windows文件夾多大 發布:2025-03-07 05:35:58 瀏覽:615
長江存儲凈資產 發布:2025-03-07 05:35:50 瀏覽:218
gridview載入資料庫 發布:2025-03-07 05:20:31 瀏覽:372
miui默認存儲位置 發布:2025-03-07 05:20:30 瀏覽:849
hookandroidapi 發布:2025-03-07 05:19:33 瀏覽:461
存儲器的主要指標 發布:2025-03-07 05:16:55 瀏覽:872