python網頁編碼

發布時間: 2024-10-21 21:33:08

1. python編碼有多少(2023年最新解答)

導讀：很多朋友問到關於python編碼有多少的相關問題，本文首席CTO筆記就來為大家做個詳細解答，供大家參考，希望對大家有所幫助！一起來看看吧！

python的編碼格式

python的源代碼通常使用UTF-8編碼保存

執行時如果沒有其他編碼提示，Python將默認使用ASCII作為標准編碼

python是什麼編碼格式

python編碼總結：

1).首先python有兩種格式的字元串，str和unicode，其中unicode相當於位元組碼那樣，可以跨平台使用。

str轉化為unicode可以通過unicode()，u，str.decode三種方式

unicode轉化為str，如果有中文的話，一般通過encode的方式

2).如果代碼中有中文的話，我們一般會添加"#coding=utf-8"，這個是什麼作用呢，一般如下：

如果代碼中有中文注釋，就需要此聲明比較高級的編輯器（比如我的emacs），會根據頭部聲明，將此作為代碼文件的格式。程序會通過

頭部聲明，解碼初始化u」人生苦短」，這樣的unicode對象，（所以頭部聲明和代碼的存儲格式要一致

所以，當我們填上編碼頭的時候，使用s="中文"，實際上type(s)是一個str，是已經將unicode以utf-8格式編碼成str。

其次，如果我們在代碼中使用s=u'中文'，相當於將str以utf-8解碼成unicode。

推薦學習《python教程》。

Python編碼聲明都有哪幾種寫法，utf

Python的默認編碼是ASCII格式：ASCII()，是一種單位元組的編碼。計算機世界裡一開始只有英文，而單位元組可以表示256個不同的字元，可以表示所有的英文字元和許多的控制符號；源代碼文件中，如果有用到非ASCII字元，則需要在文件頭部進行字元編碼的聲明，如下：#-*-coding:UTF-8-*-實際上Python只檢查#、coding和編碼字元串，其他的字元都是為了美觀加上的。另外，Python中可用的字元編碼有很多，並且還有許多別名，還不區分大小寫，比如UTF-8可以寫成u8。

python3.4編碼有哪些

Python3中的編碼問題前，第一個段落對位元組、ASCII與Unicode與UTF-8等進行基本介紹，如果不對這幾種編碼犯頭暈，可直接跳過。

ASCII與Unicode與UTF-8與GBK

首先從老大哥說起。跟很多人一樣，大學讀了這么久，久仰ASCII編碼的大名。要說這個老大哥，我們再先從位元組說起。一個位元組包括八個比特位，每個比特位表示0或1，一個位元組即可表示從00000000到11111111共2^8=256個數字。一個ASCII編碼使用一個位元組（除去位元組的最高位作為作奇偶校驗位），ASCII編碼實際使用一個位元組中的7個比特位來表示字元，共可表示2^7=128個字元。比如那時寫C語言的程序，就經常要背下ASCII編碼中的01000001（即十進制的65）表示字元『A』，01000001加上32之後的01100001（即十進制的97）表示字元『a』。現在打開Python，調用chr和ord函數，我們可以看到Python為我們對ASCII編碼進行了轉換。

第一個00000000表示空字元，因此ASCII編碼實際上只包括了

字母、標點符號、特殊符號等共127個字元。因為ASCII是在美國出生的，對於由字母組成單詞進而用單詞表達的英文來說也是夠了。但是中國人、日本人、

韓國人等其他語言的人不服了。中文是一個字一個字，ASCII編碼用上了渾身解數256個字元都不夠用。

因此後來出現了Unicode編碼。Unicode編碼通常由兩個位元組組成，共表示256*256個字元，即所謂的UCS-2。某些偏僻字還會用到四個位元組，即所謂的UCS-4。也就是說Unicode標准也還在發展。但UCS-4出現的比較少，我們先記住：最原始的ASCII編碼使用一個位元組編碼，但由於語言差異字元眾多，人們用上了兩個位元組，出現了統一的、囊括多國語言的Unicode編碼。

在Unicode中，原本ASCII中的127個字元只需在前面補一個全零的位元組即可，比如前文談到的字元『a』：01100001，在Unicode中變成了0000000001100001。不久，美國人不開心了，吃上了世界民族之林的大鍋飯，原本只需一個位元組就能傳輸的英文現在變成兩個位元組，非常浪費存儲空間和傳輸速度。

人們再發揮聰明才智，於是出現了UTF-8編碼。因為針對的是空間浪費問題，因此這種UTF-8編碼是可變長短的，從英文字母的一個位元組，到中文的通常的三個位元組，再到某些生僻字的六個位元組。解決了空間問題，UTF-8編碼還有一個神奇的附加功能，那就是兼容了老大哥的ASCII編碼。一些老古董軟體現在在UTF-8編碼中可以繼續工作。

注意除了英文字母相同，漢字在Unicode編碼和UTF-8編碼中通常是不同的。比如漢字的『中』字在Unicode中是01001110

00101101，而在UTF-8編碼中是1110010010111000

10101101。

我們祖國母親自然也有自己的一套標准。那就是GB2312和GBK。當然現在挺少看到。通常都是直接使用UTF-8。記得我唯一一次看到GB編碼的網頁，是一個成人網站。

Python3中的默認編碼

Python3中默認是UTF-8，我們通過以下代碼：

importsys

sys.getdefaultencoding()

可查看Python3的默認編碼。

Python3中的encode和decode

Python3中字元編碼經常會使用到decode和encode函數。特別是在抓取網頁中，這兩個函數用的熟練非常有好處。我的理解，encode的作用，使我們看到的直觀的字元轉換成計算機內的位元組形式。decode剛好相反，把位元組形式的字元轉換成我們看的懂的、直觀的、「人模人樣」的形式。如下圖。

x表示後面是十六進制，xe4xb8xad即是二進制的1110010010111000

10101101。也就是說漢字『中』encode成位元組形式，是1110010010111000

10101101。同理，我們拿11100100

1011100010101101也就是xe4xb8xad來decode回來，就是漢字『中』。完整的應該是b'xe4xb8xad'，在Python3中，以位元組形式表示的字元串則必須加上前綴b，也就是寫成上文的b'xxxx'形式。

前文說的Python3的默認編碼是UTF-8，所以我們可以看到，Python處理這些字元的時候是以UTF-8來處理的。因此從上圖可以看到，就算我們通過encode('utf-8')特意把字元encode為UTF-8編碼，出來的結果還是相同：b'xe4xb8xad'。

明白了這一點，同時我們知道UTF-8兼容ASCII，我們可以猜想大學時經常背誦的『A』對應ASCII中的65，在這里是不是也能正確的decode出來呢。十進制的65轉換成十六進制是41，我們嘗試下：

b'x41'.decode()

結果如下。果然是字元『A』

Python3中的編碼轉換

據說字元在計算機的內存中統一是以Unicode編碼的。只有在字元要被寫進文件、存進硬碟或者從伺服器發送至客戶端（例如網頁前端的代碼）時會變成utf-8。但其實我比較關心怎麼把這些字元以Unicode的位元組形式表現出來，露出它在內存中的廬山正面目的。這里有個照妖鏡：

xxxx.encode/decode('unicode-escape')

輸出如下

b'\u4e2d'還是b'u4e2d，一個斜杠貌似沒影響。同時可以發現在shell窗口中，直接輸'u4e2d'和輸入b'u4e2d'.decode('unicode-escape')是相同的，都會列印出漢字『中』，反而是'u4e2d'.decode('unicode-escape')會報錯。說明說明Python3不僅支持Unicode，而且一個『uxxxx』格式的Unicode字元可被辨識且被等價於str類型。

如果我們知道一個Unicode位元組碼，怎麼變成UTF-8的位元組碼呢。懂了以上這些，現在我們就有思路了，先decode，再encode。代碼如下：

xxx.decode('unicode-escape').encode()

測試如下：

可以看到最後輸出的UTF-8位元組與上面的相同。嘗試成功。所以其他的編碼之間的轉換，大概也是如此。

最後的擴展

還記得剛剛那個ord嗎。時代變遷，老大哥ASCII被人合並，但ord還是有用武之地。試試ord('中')，輸出結果是20013。20013是什麼呢，我們再試試hex(ord('中'))，輸出結果是Ɔx4e2d'，也就是20013是我們在上文見面了無數次的x4e2d的十進制值。這里說下hex，是用來轉換成十六進制的函數，學過單片機的人對hex肯定不會陌生。

最後的擴展，在網上看到的他人的問題。我們寫下類似於'u4e2d'的字元，Python3知道我們想表達什麼。但是讓Python讀取某個文件的時候出現了'u4e2d'，是不是計算機就不認識它了呢？後來下文有人給出了答案。如下：

importcodecs

file=codecs.open("a.txt","r","unicode-escape")

u=file.read()

print(u)

結語：以上就是首席CTO筆記為大家整理的關於python編碼有多少的全部內容了，感謝您花時間閱讀本站內容，希望對您有所幫助，更多關於python編碼有多少的相關內容別忘了在本站進行查找喔。

2. python有哪幾種編碼方式

第一種：ASCII碼。是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語和其他西歐語言，它是現今最通用的單位元組編碼系統，並等同於國際標准IS/IEC
646。
由於計算機是美國人發明的，因此，最早只有127個字母被編碼到計算機李，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母A的編碼是65，小寫字母a的編碼是97，後128個稱為擴展ASCII碼。
第二種：GBK和GB2312。能在計算機中顯示中文字元是至關重要的，然而ASCII表裡一個偏旁部首都沒有，所以我們需要一個關於中文和數字對應的關系表，一個位元組只能最多表示256個字元，用處理中文顯然一個位元組是不夠的，所以我們需要採用兩個位元組來表示，所以中國制定了GB2312編碼，用來將中文編寫進去。
第三種：Unicode。因為各個國家都有一套自己的編碼，所以無法避免沖突，因此Unicode誕生了。它可以把所有語言都統一到一套編碼里，這樣就不會存在亂碼問題了，現代操作系統和大多數編程語言都直接支持Unicode。
第四種：UFT-8。基於節約的原則，出現了把Unicode編碼轉化為可變長編碼的UTF-8編碼。而UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成一個位元組，漢字通常是3個位元組，只有很生僻的字元才會被編碼成4-6個位元組，如果你要傳輸的文本包含大量英文字元，用UTF-8編碼就能節省空間。

3. url編碼問題在python中怎麼解決

最近在抓取一些js代碼產生的動態數據，需要模擬js請求獲得所需用的數據，遇到對url進行編碼和解碼的問題，就把遇到的問題總結一下，有總結才有進步，才能使學到的知識更加清晰。對url進行編碼和解碼，python提供了很方便的介面進行調用。

url中的query帶有特殊字元（不是url的保留字）時需要進行編碼。當url中帶有漢字時，需要特殊的處理才能正確編碼，以下都只針對這種情形，當然也適用於純英文字元的url。

(1) url編碼：

import urllib

url = 'wd=哈哈' #如果此網站編碼是gbk的話，需要進行解碼，從gbk解碼成unicode，再從Unicode編碼編碼為utf-8格式。

url = url.decode('gbk', 'replace')

print urllib.quote(url.encode('utf-8', 'replace'))

結果: 3a%2f%2ftest.com%2fs%3fwd%3d%e5%93%88%e5%93%88

(2) url解碼:

import urllib

encoded_url = est.com%2fs%3fwd%3d%e5%93%88%e5%93%88'

print urllib.unquote(encoded_url).decode('utf-8', 'replace').encode('gbk', 'replace') #反過來

函數調用的參數以及結果都是utf-8編碼的，所以在對url編碼時，需要將參數串的編碼從原始編碼轉換成utf-8，

對url解碼時，需要將解碼結果從utf-8轉換成原始編碼格式。

依據網站採用的編碼不同，或是gbk或是utf-8，賦賦予不同的編碼，進行不同的url轉碼。GBK格式，一個中文字元轉為%xx%xx，共兩組；utf-8格式，一個中文字元轉為%xx%xx%xx，共三組。

>>>importsys,urllib
>>>s='杭州'
>>>urllib.quote(s.decode(sys.stdin.encoding).encode('gbk'))
%BA%BC%D6%DD
>>>urllib.quote(s.decode(sys.stdin.encoding).encode('utf8'))
'%E6%9D%AD%E5%B7%9E'

[python]view plain

a="墨西哥女孩被拐4年接客4萬次生的孩子成為人質-搜狐新聞"
printurllib.quote(urllib.quote(a))

進行兩次編碼轉換後，會變為：%25E5%25A2%25A8%25E8%25A5%25BF%25E5%2593%25A5%25E5%25A5%25B3%25E5%25AD%25A9%25E8%25A2%25AB%25E6%258B%25904%25E5%25B9.................................................................................這樣的形式。

同樣需要兩次解碼後才能得到中文。

最近用python寫了個小爬蟲自動下點東西，但是url 是含中文的，而且中文似乎是 gbk 編碼然後轉成 url的。舉個例子吧，我如果有個unicode字元串「歷史上那些牛人們.pdf」，那麼我轉換成url之後是，
t="%20%E5%8E%86%E5%8F%B2%E4%B8%8A%E9%82%A3%E4%BA%9B%E7%89%9B%E4%BA%BA%E4%BB%AC.pdf"，
但是對方網站給的是 s="%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF"

>>>print urllib.unquote("%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF").decode('gbk').encode('utf-8')

>>>歷史上那些牛人們.PDF

閱讀全文

熱點內容

fsb文件解壓發布：2025-03-20 12:31:34 瀏覽：135

3d源碼棋牌發布：2025-03-20 12:30:31 瀏覽：237

什麼叫伺服器訪問限制發布：2025-03-20 12:23:53 瀏覽：944

機架式伺服器如何拆裝發布：2025-03-20 12:23:53 瀏覽：22

交叉編譯器缺少庫發布：2025-03-20 12:20:12 瀏覽：716

tt語音新人簽到領皮膚腳本發布：2025-03-20 12:20:05 瀏覽：693

編程招標網發布：2025-03-20 12:19:28 瀏覽：1000

風險防控平台伺服器地址是什麼發布：2025-03-20 11:59:04 瀏覽：231

什麼為有效wifi密碼發布：2025-03-20 11:57:22 瀏覽：704

聯發科安卓哪個好發布：2025-03-20 11:56:26 瀏覽：356

python網頁編碼

與python網頁編碼相關的資訊