python3bytes
❶ python文件處理里encoding和encode有事區別,bytes類型是什麼意思
python問題我來回答你。
首先你要知道的是,字元串在Python內部的表示是unicode(統一碼、萬國碼)編碼,很多編程語言都是這么設計的,各個國家通用編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼,即先將其他編碼的字元串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼。
decode的作用是將其他編碼的字元串轉換成unicode編碼,如str1.decode('gb2312'),表示將gb2312編碼的字元串str1轉換成unicode編碼。
encode的作用是將unicode編碼轉換成其他編碼的字元串,如str2.encode('gb2312'),表示將unicode編碼的字元串str2轉換成gb2312編碼。
因此,轉碼的時候一定要先搞明白,字元串str是什麼編碼,然後decode成unicode,然後再encode成其他編碼。
bytes類型是 Python 3.x版本新增的數據類型,在 Python 2.x 中是不存在的。字元串是以字元為單位進行處理的,bytes類型是以位元組為單位處理的。
bytes 只負責以位元組序列的形式(二進制形式)來存儲數據,至於這些數據到底表示什麼內容(字元串、數字、圖片、音頻等),完全由程序的解析方式決定。
說白了,bytes 只是簡單地記錄內存中的原始數據,至於如何使用這些數據,bytes 並不在意,你想怎麼使用就怎麼使用,bytes 並不約束你的行為。
bytes 類型的數據非常適合在互聯網上傳輸,可以用於網路通信編程;bytes 也可以用來存儲圖片、音頻、視頻等二進制格式的文件。
舉個例子:
b = b'' # 創建一個空的bytes
b = byte() # 創建一個空的bytes
b = b'hello' # 直接指定這個hello是bytes類型
b = bytes('string',encoding='編碼類型') #利用內置bytes方法,將字元串轉換為指定編碼的bytes
b = str.encode('編碼類型') # 利用字元串的encode方法編碼成bytes,默認為utf-8類型
bytes.decode('編碼類型'):將bytes對象解碼成字元串,默認使用utf-8進行解碼。
❷ Python字元編碼使用什麼碼
Python 2.x 和 Python 3.x 的字元編碼存在較大的區別。下面將分別介紹它們的編碼原理及相關內容。
Python 2.x 字元編碼
在 Python 2.x 中,str 類型默認使用 ASCII 編碼。ASCII 編碼是在 1960 年代初開發的一種編碼方式,用於將英文字母、數字、符號等字元表示為位元組。由於 ASCII 編碼只使用了 7 位二進制數,因此只能表示 128 種字元。
當需要使用非 ASCII 字元時,在 str 類型前添加 u 前綴,即可將字元串轉換為 Unicode 類型,如下所示:
str1 = 'hello' # 默認使用 ASCII 編碼
str2 = u'你好' # 使用 Unicode 編碼
Python 3.x 字元編碼
在 Python 3.x 中,str 類型默認使用 Unicode 編碼,即 Python 2.x 中的 Unicode 類型。Unicode 編碼是一種支持全球范圍內的字元集,褲歲正能夠表示幾乎所有語言的字元,包括漢字、日文、希臘字母等。
為了支持位元組和 Unicode 類型之間的轉換,Python3.x 新增了 bytes 類型。bytes 類型與 str 類型的區別在於,bytes 類型會自動將字元串轉雀猛換成位元組,而 str 類型會自動將位元組轉換成字元串。
bytes 類型使用 b 前綴表示,如下所示:
str1 = 'hello' # 默認使用胡悔 Unicode 編碼,即 Python 2.x 中的 Unicode 類型
str2 = b'hello' # 使用 bytes 類型
編碼原理及注意事項
字元編碼的原理在於將字元轉換為二進製表示,以便計算機能夠處理。
ASCII 編碼使用 7 位二進制數對字元進行編碼,而 Unicode 編碼使用 16 位或 32 位二進制數對字元進行編碼。
在 Python 中,可以使用 encode 方法將 Unicode 字元串轉換為位元組類型,使用 decode 方法將位元組類型轉換為 Unicode 字元串。編碼方式有多種,如 UTF-8、GBK、Unicode 等,需要根據實際業務需求進行選擇。
UTF-8 編碼是一種常用的 Unicode 字元編碼方式,它使用變長位元組對字元進行編碼,能夠表示幾乎所有的字元。GBK 編碼是一種用於漢字編碼的字元集,只能表示中文字元。
Python 3.x 默認使用 UTF-8 編碼,因此在讀取文件或進行網路傳輸時,需要明確指定編碼方式以避免出現亂碼等問題。
總結
由於字元編碼十分復雜,涉及到的知識點較多,因此學習時需要耐心且注意細節。在使用 Python 進行編程時,需要根據實際情況選擇合適的編碼方式,以避免出現亂碼等問題。
希望我的回答能夠對您有所幫助!
❸ python3里的bytes和str還有int有什麼區別
一、python3的基本數據類型就下面9大類,沒有bytes,只有在文件讀取的時候有個b模式,就是二進制讀取模式,所以不明白bytes為何跟str和int並列。
1、字元串 2、布爾類型 3、整數 4、浮點數 5、數字 6、列表 7、元組 8、字典 9、日期
其中字元串就是str,整數就是int,python中沒有字元這個類型,整體都是字元串。
二、int轉字元串簡單,只需要加上str()就行了,比如
a=100
print("a值是 %s" % a)
字元串沒有轉成int的,但是單個字元可以轉換成對應的ASCII碼,方法是ord(),逆方法是chr(),比如:
b = "a"
c = 97
print("b對應的ASCII碼是%d" % ord(b))
#結果是:b對應的ASCII碼是97
print("c對應的字元是%s" % chr(c))
#結果是:c對應的字元是a
❹ python3二進制文件讀寫直接加b不行嗎
二進制模式,通常用來讀取圖片、視頻等二進制文件。注意,它在讀寫的時候是以bytes類型讀寫的,因此獲得的是一個bytes對象而不是字元串。在這個讀寫過程中,需要自己指定編碼格式。在使用帶b的模式時一定要注意傳入的數據類型,確保為bytes類型。
s = 'this is a test'
b = bytes(s,encoding='utf-8')
f = open('test.txt','w')
f.write(s)
##這樣沒問題,正常寫入了文件。
##-------------------------------------------------
s = 'this is a test'
b = bytes(s,encoding='utf-8')
f = open('test.txt','wb') ##注意多了個b
f.write(s)
##報錯
TypeError: a bytes-like object is required, not 'str'
##意思是它需要一個bytes類型數據,你卻給了個字元串
##---------------------------------------------------
s = 'this is a test'
b = bytes(s,encoding='utf-8')
f = open('test.txt','wb') ##注意多了個b
f.write(b) ##將變數b傳給它,b是個bytes類型
二、 + 模式:
對於w+模式,在讀寫之前都會清空文件的內容,建議不要使用!
對於a+模式,永遠只能在文件的末尾寫入,有局限性,建議不要使用!
對於r+模式,也就是讀寫模式,配合seek()和tell()方法,可以實現更多操作。
三、 編碼問題
要讀取非UTF-8編碼的文件,需要給open()函數傳入encoding參數,例如,讀取GBK編碼的文件:
>>> f = open('gbk.txt', 'r', encoding='gbk')
>>> f.read()
'GBK'
遇到有些編碼不規范的文件,可能會拋出UnicodeDecodeError異常,這表示在文件中可能夾雜了一些非法編碼的字元。遇到這種情況,可以提供errors參數,表示如果遇到編碼錯誤後如何處理。
>>> f = open('gbk.txt', 'r', encoding='gbk', errors='ignore')
四、 文件對象操作
每當我們用open方法打開一個文件時,將返回一個文件對象。這個對象內置了很多操作方法。下面假設,已經打開了一個f文件對象。
1. f.read(size)
讀取一定大小的數據, 然後作為字元串或位元組對象返回。size是一個可選的數字類型的參數,用於指定讀取的數據量。當size被忽略了或者為負值,那麼該文件的所有內容都將被讀取並且返回。
f = open("1.txt", "r")
str = f.read()
print(str)
f.close()
如果文件體積較大,請不要使用read()方法一次性讀入內存,而是read(512)這種一點一點的讀。
2. f.readline()
從文件中讀取一行n內容。換行符為' '。如果返回一個空字元串,說明已經已經讀取到最後一行。這種方法,通常是讀一行,處理一行,並且不能回頭,只能前進,讀過的行不能再讀了。
f = open("1.txt", "r")
str = f.readline()
print(str)
f.close()
3. f.readlines()
將文件中所有的行,一行一行全部讀入一個列表內,按順序一個一個作為列表的元素,並返回這個列表。readlines方法會一次性將文件全部讀入內存,所以也存在一定的風險。但是它有個好處,每行都保存在列表裡,可以隨意存取。
f = open("1.txt", "r")
a = f.readlines()
print(a)
f.close()
4. 遍歷文件
實際上,更多的時候,我們將文件對象作為一個迭代器來使用。
# 打開一個文件
f = open("1.txt", "r")
for line in f:
print(line, end='')
# 關閉打開的文件
f.close()
這個方法很簡單, 不需要將文件一次性讀出,但是同樣沒有提供一個很好的控制,與readline方法一樣只能前進,不能回退。
幾種不同的讀取和遍歷文件的方法比較:如果文件很小,read()一次性讀取最方便;如果不能確定文件大小,反復調用read(size)比較保險;如果是配置文件,調用readlines()最方便。普通情況,使用for循環更好,速度更快。
5. f.write()
將字元串或bytes類型的數據寫入文件內。write()動作可以多次重復進行,其實都是在內存中的操作,並不會立刻寫回硬碟,直到執行close()方法後,才會將所有的寫入操作反映到硬碟上。在這過程中,如果想將內存中的修改,立刻保存到硬碟上,可以使用f.flush()方法,但這可能造成數據的不一致。
# 打開一個文件
f = open("/tmp/foo.txt", "w")
f.write("Python 是一種非常好的語言。
我喜歡Python!!
")
# 關閉打開的文件
f.close()
6. f.tell()
返迴文件讀寫指針當前所處的位置,它是從文件開頭開始算起的位元組數。一定要注意了,是位元組數,不是字元數。
7. f.seek()
如果要改變位置指針的位置, 可以使用f.seek(offset, from_what)方法。seek()經常和tell()方法配合使用。
from_what的值,如果是0表示從文件開頭計算,如果是1表示從文件讀寫指針的當前位置開始計算,2表示從文件的結尾開始計算,默認為0,例如:
offset:表示偏移量。
seek(x,0) : 從起始位置即文件首行首字元開始移動 x 個字元
seek(x,1) : 表示從當前位置往後移動x個字元
seek(-x,2):表示從文件的結尾往前移動x個字元
看一個例子:
>>> f = open("d:\1.txt", "rb+")
>>> f.write(b"1232312adsfalafds")
17
>>> f.tell()
17
>>> f.seek(5)
5
>>> f.read(1)
b'1'
>>> f.seek(-3, 2)
14
>>> f.read(1)
b'f'
8. f.close()
關閉文件對象。當處理完一個文件後,調用f.close()來關閉文件並釋放系統的資源。文件關閉後,如果嘗試再次調用該文件對象,則會拋出異常。忘記調用close()的後果是數據可能只寫了一部分到磁碟,剩下的丟失了,或者更糟糕的結果。也就是說大象塞進冰箱後,一定不要忘記關上冰箱的門。
❺ python3字元串都是什麼編碼
編碼
字元串是一種數據類型,但是,字元串比較特殊的是還有一個編碼問題。
因為計算機只能處理數字,如果要處理文本,就必須先把文本轉換為數字才能處理。最早的計算機在設計時採用8個比特(bit)作為一個位元組(byte),所以,一個位元組能表示的最大的整數就是255(二進制11111111=十進制255),如果要表示更大的整數,就必須用更多的位元組。比如兩個位元組可以表示的最大整數是65535,4個位元組可以表示的最大整數是4294967295。
由於計算機是美國人發明的,因此,最早只有127個字母被編碼到計算機里,也就是大小寫英文字母、數字和一些符號,這個編碼表被稱為ASCII編碼,比如大寫字母A的編碼是65,小寫字母z的編碼是122。
Unicode
Unicode把所有語言都統一到一套編碼里,這樣就不會再有亂碼問題了。
Unicode標准也在不斷發展,但最常用的是用兩個位元組表示一個字元(如果要用到非常偏僻的字元,就需要4個位元組)。現代操作系統和大多數編程語言都直接支持Unicode。
現在,捋一捋ASCII編碼和Unicode編碼的區別:ASCII編碼是1個位元組,而Unicode編碼通常是2個位元組。
字母A用ASCII編碼是十進制的65,二進制的01000001;
字元0用ASCII編碼是十進制的48,二進制的00110000,注意字元'0'和整數0是不同的;
漢字已經超出了ASCII編碼的范圍,用Unicode編碼是十進制的20013,二進制的01001110 00101101。
如果把ASCII編碼的A用Unicode編碼,只需要在前面補0就可以,因此,A的Unicode編碼是00000000 01000001。
新的問題又出現了:如果統一成Unicode編碼,亂碼問題從此消失了。但是,如果你寫的文本基本上全部是英文的話,用Unicode編碼比ASCII編碼需要多一倍的存儲空間,在存儲和傳輸上就十分不劃算。
所以,又出現了把Unicode編碼轉化為「可變長編碼」的UTF-8編碼。UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組,常用的英文字母被編碼成1個位元組,漢字通常是3個位元組,只有很生僻的字元才會被編碼成4-6個位元組。如果你要傳輸的文本包含大量英文字元,用UTF-8編碼就能節省空間:
字元
ASCII
Unicode
UTF-8
A 01000001 00000000 01000001 01000001
中 x 01001110 00101101 11100100 10111000 10101101
從上面的表格還可以發現,UTF-8編碼有一個額外的好處,就是ASCII編碼實際上可以被看成是UTF-8編碼的一部分,所以,大量只支持ASCII編碼的歷史遺留軟體可以在UTF-8編碼下繼續工作。
搞清楚了ASCII、Unicode和UTF-8的關系,我們就可以總結一下現在計算機系統通用的字元編碼工作方式:
在計算機內存中,統一使用Unicode編碼,當需要保存到硬碟或者需要傳輸的時候,就轉換為UTF-8編碼。
用記事本編輯的時候,從文件讀取的UTF-8字元被轉換為Unicode字元到內存里,編輯完成後,保存的時候再把Unicode轉換為UTF-8保存到文件:
瀏覽網頁的時候,伺服器會把動態生成的Unicode內容轉換為UTF-8再傳輸到瀏覽器:
所以你看到很多網頁的源碼上會有類似<meta charset="UTF-8" />的信息,表示該網頁正是用的UTF-8編碼。
Python的字元串
在最新的Python 3版本中,字元串是以Unicode編碼的,也就是說,Python的字元串支持多語言,例如:
>>> print('包含中文的str')
包含中文的str
對於單個字元的編碼,Python提供了ord()函數獲取字元的整數表示,chr()函數把編碼轉換為對應的字元:
1個中文字元經過UTF-8編碼後通常會佔用3個位元組,而1個英文字元只佔用1個位元組。
在操作字元串時,我們經常遇到str和bytes的互相轉換。為了避免亂碼問題,應當始終堅持使用UTF-8編碼對str和bytes進行轉換。
Python源代碼也是一個文本文件,所以,當你的源代碼中包含中文的時候,在保存源代碼時,就需要務必指定保存為UTF-8編碼。當Python解釋器讀取源代碼時,為了讓它按UTF-8編碼讀取,我們通常在文件開頭寫上這兩行
#!/usr/bin/env python3# -*- coding: utf-8 -*-
第二行注釋是為了告訴Python解釋器,按照UTF-8編碼讀取源代碼,否則,你在源代碼中寫的中文輸出可能會有亂碼。
格式化:
在Python中,採用的格式化方式和C語言是一致的,用%實現,舉例如下:
format % (...params)
>>> 'Hello, %s' % 'world''Hello, world'>>> 'Hi, %s, you have $%d.' % ('Michael', 1000000)'Hi, Michael, you have $1000000.'
%運算符就是用來格式化字元串的。在字元串內部,%s表示用字元串替換,%d表示用整數替換,%x表示16進制整數,有幾個%?佔位符,後面就跟幾個變數或者值,順序要對應好。如果只有一個%?,括弧可以省略。
格式化整數和浮點數還可以指定是否補0和整數與小數的位數:
>>> '%2d-%02d' % (3, 1)' 3-01'>>> '%.2f' % 3.1415926'3.14'
有些時候,字元串裡面的%是一個普通字元怎麼辦?這個時候就需要轉義,用%%來表示一個%:
>>> 'growth rate: %d %%' % 7'growth rate: 7 %'
❻ python3 bytes轉字元串的問題
s='xE6x88x90xE5x8Ax9F'
b=bytes(map(ord,s))
s1=b.decode('utf-8')
print(s1)