python3unicode
❶ python3讀取unicode文件名的問題
python3默認就是unicode存儲。如果是從文件讀取的,在open的參數中指定encoding關鍵字參數就行
❷ 如何理解python3的unicode,以及全形半形轉換
1. unicode是一個編碼的standard,表明了字元與數字之間的映射,是可變長的。
2. 映射後的數據如何編碼為位元組?這個就是具體的編碼規則:目前最主流的是UTF-8,同樣,它也是變字長的。
python3中的str都是unicode的:「The default encoding for Python source code is UTF-8」
python3中的encode:按照encode()括弧中的參數對字元串進行編碼,就是生成bytes。
所以:
In:'中文'.encode('utf-8')
Out:b'\xe4\xb8\xad\xe6\x96\x87'
這里的b就是Byte,\x表示這個x是被轉義的,意思就是0x。又如:
In: 'abc'.encode('utf-8')
Out: b'abc'
上面的b'a'其實表示的是數字97,b'a'的意思就是字元串'a'的binary數字:
[In]:'abc'.encode('utf-8')[0]
[Out]: 97
同時可以把b'\x'進行解碼,即:
In:b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
Out:'中文'
除了encode('utf-8')外,用ord可以獲得單個utf-8字元對應的數字:
In [60]: ord('a')
Out[60]: 97
In [61]: ord('a')#這個是全形的a
Out[61]: 65345
除了decode('utf-8')外,用chr可以獲得數字對應的utf-8字元:
In [62]: chr(97)
Out[62]: 'a'
除了unicode還有別的編碼標准嗎?有啊,比如我國的GBK,別名也叫cp936。
全形和半形之分,是指同樣一個意義的字元,顯示的大小不同.具體來說,全形和半形的編碼是兩個結果:
In [70]: "mn".encode('utf-8')
Out[70]: b'\xef\xbd\x8d\xef\xbd\x8e
[In]:"mn".encode('utf-8')
[Out]:b'mn'
它們有什麼對應關系呢?(引自這里)
轉換說明
全形半形轉換說明
有規律(不含空格):
全形字元unicode編碼從65281~65374 (十六進制 0xFF01 ~ 0xFF5E)
半形字元unicode編碼從33~126 (十六進制 0x21~ 0x7E)
特例:
空格比較特殊,全形為 12288(0x3000),半形為 32(0x20)
除空格外,全形/半形按unicode編碼排序在順序上是對應的(半形 + 0x7e= 全形),所以可以直接通過用+-法來處理非空格數據,對空格單獨處理。
代碼在此基礎上改動一下(將unichr改為chr即可,適應python3),即:
def strQ2B(ustring):
"""全形轉半形"""
rstring = ""
for uchar in ustring:
inside_code=ord(uchar)
if inside_code == 12288: #全形空格直接轉換
inside_code = 32
elif (inside_code >= 65281 and inside_code <= 65374): #全形字元(除空格)根據關系轉化
inside_code -= 65248
rstring += chr(inside_code)
return rstring
In [69]: strQ2B('你好python')
Out[69]: '你好python'
❸ python3如何把字元串轉換成系統默認編碼
python 3和2很大區別就是python本身改為默認用unicode編碼。
字元串不再區分"abc"和u"abc", 字元串"abc"默認就是unicode,不再代表本地編碼、
由於有這種內部編碼,像c#和java類似,再沒有必要在語言環境內做類似設置編碼,比如「sys.setdefaultencoding」;
也因此也python 3的代碼和包管理上打破了和2.x的兼容。2.x的擴展包要適應這種情況改寫。
另一個問題是語言環境內只有unicode怎麼輸出gbk之類的本地編碼。
答按慣例都在(序列化)輸出時才轉換成本地編碼。
比如
1
file.write("GBK的中文".encode("GBK"))
python環境內字元串用str.encode("GBK")方法輸出成位元組串用於和其他環境交流。
❹ python 3中使用Unicode字元串操作符u的結果為什麼是這樣的
Unicode是一種字元編碼,它把各種語言的符號,編排起來,用一個數字表示。
每一種語言的符號都大致有一個區間,比如:
4E00~9FA5這個區間是「中日韓統一表意文字」
輸入u'\u4e00'可以發現這個字是「一」,u'\u4e01'是「丁」
查詢網路可以知道u'\u1234'這個字元所在衣索比亞文字這個區間。
❺ python3 pickle中怎麼使用unicode編碼
Python特有編碼
Python還內置一些特有的編碼集。
4.2.4.1 文本編碼
Python提供了下面從字元串到位元組數組的編碼,以及位元組數據到字元串的解碼:
Codec
Aliases
Purpose
idna
Implements RFC 3490, see also encodings.idna. Only errors='strict' is supported.
mbcs
dbcs
Windows only: Encode operand according to the ANSI codepage (CP_ACP)
palmos
Encoding of PalmOS 3.5
punycode
Implements RFC 3492. Stateful codecs are not supported.
raw_unicode_escape
Latin-1 encoding with \uXXXX and \UXXXXXXXX for other code points. Existing backslashes are not escaped in any way. It is used in the Python pickle protocol.
undefined
Raise an exception for all conversions, even empty strings. The error handler is ignored.
unicode_escape
Encoding suitable as the contents of a Unicode literal in ASCII-encoded Python source code, except that quotes are not escaped. Decodes from Latin-1 source code. Beware that Python source code actually uses UTF-8 by default.
unicode_internal
Return the internal representation of the operand. Stateful codecs are not supported.
Deprecated since version 3.3: This representation is obsoleted by PEP 393
4.2.4.2 二進制編碼轉換
Python提供下面的二進制編碼轉換:位元組對象到位元組對象映射轉換,不支持使用bytes.decode()。
Codec
Aliases
Purpose
Encoder / decoder
base64_codec [1]
base64, base_64
Convert operand to MIME base64 (the result always includes a trailing '\n')
Changed in version 3.4: accepts any bytes-like object as input for encoding and decoding
base64.b64encode() / base64.b64decode()
bz2_codec
bz2
Compress the operand using bz2
bz2.compress() / bz2.decompress()
hex_codec
hex
Convert operand to hexadecimal representation, with two digits per byte
base64.b16encode() / base64.b16decode()
quopri_codec
quopri, quotedprintable, quoted_printable
Convert operand to MIME quoted printable
quopri.encodestring() / quopri.decodestring()
uu_codec
uu
Convert the operand using uuencode
uu.encode() / uu.decode()
zlib_codec
zip, zlib
Compress the operand using gzip
zlib.compress() / zlib.decompress()
4.2.4.3 文本編碼轉換
下面編解碼器支持字元串到字元串的轉換:
Codec
Aliases
Purpose
rot_13
rot13
Returns the Caesar-cypher encryption of the operand
4.2.5 encodings.idna--國際化域名的應用
本模塊實現了RFC 3490(Internationalized Domain Names in Applications)和RFC 3492(Nameprep: A Stringprep Profile for Internationalized Domain Names (IDN) 的功能。它實現的功能建立在punycode編碼和stringprep模塊之上。
這兩個RFC定義了非ASCII字元表示域名的規范。如果一個域名含有非ASCII字元,需要把它轉換為ASCII兼容編碼的域名(ACE),因為有一些網路協議不支持非ASCII字元的域名,比如DNS查詢、HTTP主機等等。因此這些轉換工作可以人工轉換,也可以是程序轉換。在程序里轉換,需要把UNICODE的域名轉換為ACE兼容的域名之後,才能進行處理,當要給用戶顯示時需要從ACE反向轉換為UNICODE域名。
Python提供了好幾種方法來做轉換的工作:使用idna編解碼來操作UNICODE與ACE之間相互轉換;把輸入字元串分離成標記,然後通過RFC3490進行查表,再合並成相應的域名;最後一種是把輸入字元串分成標記,通過ACE標記轉換。在socket模塊里,就透明地實現了從UNICODE主機名稱轉換為ACE域名,所以應用程序在調用這個模塊時就不需要考慮UNICODE域名轉換為ACE域名的工作了。基於socket模塊之上的功能,比如http.client和ftplib都可以接受UNICODE域名。
當從網路收到的域名,它是不會自動轉換為 UNICODE域名的,需要應用程序進行轉換之後,才能以UNICODE域名顯示給用戶。
模塊encodings.idna也實現nameprep的處理,它能實現主機名稱的標准化處理,域名的大小寫統一化,如果需要這些功能是可以直接使用。
encodings.idna.nameprep(label)
返回label的國際化標志名稱。
encodings.idna.ToASCII(label)
轉換label為ASCII表示,符合標准RFC 3490。
encodings.idna.ToUnicode(label)
轉換label為UNICODE表示,符合標准RFC 3490.
4.2.6 encodings.mbcs--Windows的ANSI編碼
本模塊實現從ANSI(CP_ACP)代碼進行編碼的功能。僅在Windows系統上可用。
4.2.7 encodings.utf_8_sig-UTF-8帶BOM標記的codec編碼
本模塊實現UTF-8的編碼和解碼:把帶有BOM的UTF-8編碼轉換為不帶BOM的UTF-8編碼。當在生成BOM時,只在第一次時生成;當在解碼時跳過相應的BOM標記位元組,再進行解碼。
❻ python3.3裡面,怎麼將漢字存成unicode文本
python2
unicode("文字")
python3,直接輸入字元串就是unicode
❼ python中怎樣將unicode轉換成原來的中文
python默認就是unicode存儲。如果是從文件讀取的,在open的參數中指定encoding關鍵字參數就行。如下:
#coding=utf-8/importjson /defLoadQuestion(): /f=open("test.json",'r') qas=json.load(f) question=qas['documents'] /returnquestion/t=LoadQuestion() /printstr(t).decode("unicode-escape")
拓展資料:
通常python2時所有IO讀寫都是byte方式。也就是編碼後的。java也是這樣子。只有python3還有某些特定的模塊才會自動將byte重新轉換成unicode
在python2里的確可以使用s.decode('gbk','ignore')之類的變成unicode。不過在python3里應該是這樣子, s.encode('gbk','ignore')這樣就變成了byte
如果你喜歡 utf-8,可以s.encode(『utf-8','ignore')和s.decode(『utf-8','ignore')
❽ python3 有 unicode嗎
有的,python3的編碼方式默認就是unicode
你可以直接encode其他任何編碼方式
❾ Python2和3中關於str和unicode以及UTF-8的更改到底是什麼意思
Python2.x中:
str格式本質含義是「某種編碼格式」,絕大多數情況下,被引號框起來的字元串,就是str,這時的字元串編碼類型,其實就是你Python文件的編碼類型,比如在Windows里,默認用的是GBK編碼。
Unicode格式的含義就是「用unicode編碼的字元串」。Python在進入2.0版後正式定義了了Unicode字元串這個奇怪的特性,目的就是為了處理太多種語言編碼的文本。從那時開始,Python語言中的字元串類型就分為兩種:一種是傳統的Python字元串(各種花樣編碼),另一種則是新出現的Unicode。
後來到了Python3.x時代:
str格式的定義變更為」Unicode類型的字元串「,也就是說在默認情況下,被引號框起來的字元串,是使用Unicode編碼的。
而「不是Unicode的某種編碼格式」,比如UTF-8、GBK,這些編碼方式被定義為了bytes,這里的bytes和py2中的str有很多相似的地方。