python編碼格式獲取
『壹』 python怎麼知道一個字元串的編碼方式
字元串的編碼,有很多種如utf-8,gb2312,gbk,gb18030,bz2,zlib,big5,bzse64
python 對編碼的處理有兩個方法,decode()和 encode()方法
a='你好'
b='python'
printa.decode('utf-8').encode('gbk')##decode方法把字元串轉換為unicode對象,然後通過encode方法轉換為指定的編碼字元串對象
printb.decode('utf-8')##decode方法把字元串轉換為unicode對象
所以要讓python(或者說機器)來識別字元串的編碼,是一件很困難的事。編碼就是漢字和整數之間的對應,同一個整數,可以在不同的編碼中,都有對應的漢字。比如下面的例子,比特流'xe6xb0xb4xe5xa3xb6'在四種編碼中都有對應的漢字,但只有在utf-8編碼下,它對應的漢字才有意義。我們可以一眼看出這點,可是要讓計算機做到這點,就很難了。
>>>s='水壺'
>>>s
18:'xe6xb0xb4xe5xa3xb6'
>>>printunicode(s,'big5')
瘞游ㄥ
>>>printunicode(s,'gbk')
姘村6
>>>printunicode(s,'gb2312')
姘村6
>>>printunicode(s,'utf-8')
水壺
『貳』 Python基本編碼格式
1、一般來說,聲明編碼格式在腳本中是必需的。2、如果Python源碼文件沒有聲明編碼格式,Python解釋器會默認使用ASCII編碼。但出現非ASCII編碼的字元,Python解釋器就會報錯。
1、Python 採用代碼縮進和冒號( : )來區分代碼塊之間的層次。2、在 Python 中,對於類定義、函數定義、流程式控制制語句、異常處理語句等,行尾的冒號和下一行的縮進,表示下一個代碼塊的開始,而縮進的結束則表示此代碼塊的結束。3、Python 中實現對代碼的縮進,可以使用空格或者 Tab 鍵實現。但無論是手動敲空格,還是使用 Tab 鍵,通常情況下都是採用 4 個空格長度作為一個縮進量(默認情況下,一個 Tab 鍵就表示 4 個空格)。4、對於 Python 縮進規則,初學者可以這樣理解,Python 要求屬於同一作用域中的各行代碼,它們的縮進量必須一致,但具體縮進量為多少,並不做硬性規定。
正確示例代碼:
錯誤示例代碼:
Python中使用 # 進行注釋,我們在使用# 的時候,# 號後面要空一格在行內注釋的時候,中間應該至少加兩個空格
print("你好,世界") # 注釋
** 使用的一般性原則:**
1、在二元運算符兩邊各空一格,算術操作符兩邊的空格可靈活使用,但兩側務必要保持一致2、不要在逗號、分號、冒號前面加空格,但應該在它們後面加(除非在行尾)3、函數的參數列表中,逗號之後要有空格4、函數的參數列表中,默認值等號兩邊不要添加空格5、左括弧之後,右括弧之前不要加添加空格6、參數列表, 索引或切片的左括弧前不應加空格
使用的一般性原則:
1、編碼格式聲明、模塊導入、常量和全局變數聲明、頂級定義和執行代碼之間空兩行2、頂級定義之間空兩行,方法定義之間空一行3、在函數或方法內部,可以在必要的地方空一行以增強節奏感,但應避免連續空行
1、導入總應該放在文件頂部,位於模塊注釋和文檔字元串之後,模塊全局變數和常量之前。
2、導入應該按照從最通用到最不通用的順序分組,分組之間空一行:
3、每個 import 語句只導入一個模塊,盡量避免一次導入多個模塊
命名規范這一塊的大家應該都比較熟悉了,但是不同的編程語言之間的明明規范也是有所區別的~
Python命名建議遵循的一般性原則:
引號使用的一般性原則:
Python跟其他幾個主流編程語言的分號使用區別很大Python的代碼末尾不需要加分號,而Java和C#等都需要添加
不要在行尾添加分號,也不要用分號將兩條命令放在同一行,例如:
Python學習日記
『叄』 python 怎麼查看當前字元串的編碼格式
查看當前字元串的編碼格式的代碼為:Type "now", "right", "credits" or "license" for more information.
『肆』 python 讀取文本里有多種編碼
讀取ANSI編碼文件
建立一個文件test.txt,文件格式用ANSI,內容為:
abc中文
用Python來讀取
# coding=gbk
print open("Test.txt").read()
結果:abc中文
讀取utf-8編碼文件(無BOM)
把文件格式改成UTF-8:
結果:abc涓 枃
顯然,這里需要解碼:
# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")
結果:abc中文
讀取utf-8編碼文件(有BOM)
某些軟體在保存一個以UTF-8編碼的文件時,默認會在文件開始的地方插入三個不可見的字元(0xEF 0xBB 0xBF,即BOM)。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下,在讀取時需要自己去掉這些字元,python中的codecs mole定義了這個常量:
『伍』 python中怎麼求ascii碼7、8、9的編碼
度知道 提問
搜一搜
python中怎麼求ascii碼7、8、9的編碼
社會我飛哥16888
今天 01:21 超過161用戶採納過TA的回答
關注
我們可以使用for循環和ord()函數來獲取字元串的 ASCII 值。ord()函數返回傳遞字元串的 Unicode。它接受1作為字元串的長度。for循環用於迭代序列:列表、元組、字典、集合或字元串。因此,我們可以使用for循環來解析字元串的每個字元並將其轉換為 ASCII 值。
在下面的代碼中,text 是一個保存用戶輸入的變數。ascii_values 最初是一個空列表,稍後將保存字元串中每個字元的 ASCII 值。一旦循環完成其循環,我們將向用戶顯示 ascii_values 的內容作為輸出。append() 函數在每次迭代後向列表 ascii_values 添加一個新項目。
當我們運行這個程序時,用戶會收到一個字元串提示,一旦用戶提供了一個字元串,它就會被存儲在一個變數 text 中。在示例中,輸入是字元串 hello。列印字元串中每個字元的 ASCII 值。
示例代碼:
#python 3.x
text = input("enter a string to convert into ascii values:")
ascii_values = []
for character in text:
ascii_values.append(ord(character))
print(ascii_values)
輸出:
enter a string to convert into ASCII values: hello
[104, 101, 108, 108, 111]
二、在 Python 中使用 List Comprehension 和 ord() 函數獲取字元串的 ASCII
我們可以使用列表推導來實現相同的結果。Python 中的列表推導式是一種簡單而緊湊的語法,用於從字元串或其他列表創建列表。這是一種通過對現有列表中的每個項目進行操作來創建新列表的簡潔方法。列表推導比使用 for 循環處理列錶快得多。
在下面的代碼中,外部沒有 for 或 while 循環。但是在列表推導中,我們使用 for 循環來獲取 text 的每個 character。
示例代碼:
#python 3.x
text = input("enter a string to convert into ascii values: ")
ascii_values = [ord(character) for character in text]
print(ascii_values)
輸出:
enter a string to convert into ASCII values: hello
[104, 101, 108, 108, 111]
三、使用用戶定義的函數 to_ascii() 在 Python 中獲取字元串的 ASCII
另一種編寫代碼以實現相同目標的方法是使用用戶定義的函數。用戶定義函數是用於在策略正文中組織代碼的函數。一旦你定義了一個函數,你就可以像內置的動作和解析器函數一樣調用它。傳遞給函數的變數是通過引用而不是通過值傳遞的。
在下面的代碼中,我們使用用戶定義的函數 to_ascii 將 text 作為參數。在函數內部,定義了塊操作,並通過關鍵字 return 傳遞結果。當從提供 text 的主模塊調用函數 to_ascii 作為參數控制轉移到 to_ascii 函數並執行代碼塊時,我們會在列表中獲得給定字元串的 ASCII 值。
示例代碼:
#python 3.x
def to_ascii(text):
ascii_values = [ord(character) for character in text]
return ascii_values
text = input("Enter a string: ")
print(to_ascii(text))
輸出:
Enter a string:
hello
[104, 101, 108, 108, 111]
『陸』 python中如何獲取中文的utf8編碼
首先要表示一個漢字,至少需要2個位元組碼
如果需要以utf解碼你的漢字,可以用如下辦法
>>>unicode('人','utf-16')
u'ucbc8'
如果需要以gbk解碼你的漢字,可以用如下辦法
>>>unicode('人','gbk')
u'u4eba
『柒』 Python:查看文件的編碼格式-chardet
其中, encoding 為檢測出的編碼, confidence 為可信度, language 是語言。
另外一個例子:
檢測的編碼是GB2312,注意到GBK是GB2312的超集,兩者是同一種編碼,檢測正確的概率是74%,language欄位指出的語言是'Chinese'。
注意:chardet支持檢測的編碼列表請參考官方文檔 Supported encodings 。
『捌』 Python字元編碼使用什麼碼
Python 2.x 和 Python 3.x 的字元編碼存在較大的區別。下面將分別介紹它們的編碼原理及相關內容。
Python 2.x 字元編碼
在 Python 2.x 中,str 類型默認使用 ASCII 編碼。ASCII 編碼是在 1960 年代初開發的一種編碼方式,用於將英文字母、數字、符號等字元表示為位元組。由於 ASCII 編碼只使用了 7 位二進制數,因此只能表示 128 種字元。
當需要使用非 ASCII 字元時,在 str 類型前添加 u 前綴,即可將字元串轉換為 Unicode 類型,如下所示:
str1 = 'hello' # 默認使用 ASCII 編碼
str2 = u'你好' # 使用 Unicode 編碼
Python 3.x 字元編碼
在 Python 3.x 中,str 類型默認使用 Unicode 編碼,即 Python 2.x 中的 Unicode 類型。Unicode 編碼是一種支持全球范圍內的字元集,褲歲正能夠表示幾乎所有語言的字元,包括漢字、日文、希臘字母等。
為了支持位元組和 Unicode 類型之間的轉換,Python3.x 新增了 bytes 類型。bytes 類型與 str 類型的區別在於,bytes 類型會自動將字元串轉雀猛換成位元組,而 str 類型會自動將位元組轉換成字元串。
bytes 類型使用 b 前綴表示,如下所示:
str1 = 'hello' # 默認使用胡悔 Unicode 編碼,即 Python 2.x 中的 Unicode 類型
str2 = b'hello' # 使用 bytes 類型
編碼原理及注意事項
字元編碼的原理在於將字元轉換為二進製表示,以便計算機能夠處理。
ASCII 編碼使用 7 位二進制數對字元進行編碼,而 Unicode 編碼使用 16 位或 32 位二進制數對字元進行編碼。
在 Python 中,可以使用 encode 方法將 Unicode 字元串轉換為位元組類型,使用 decode 方法將位元組類型轉換為 Unicode 字元串。編碼方式有多種,如 UTF-8、GBK、Unicode 等,需要根據實際業務需求進行選擇。
UTF-8 編碼是一種常用的 Unicode 字元編碼方式,它使用變長位元組對字元進行編碼,能夠表示幾乎所有的字元。GBK 編碼是一種用於漢字編碼的字元集,只能表示中文字元。
Python 3.x 默認使用 UTF-8 編碼,因此在讀取文件或進行網路傳輸時,需要明確指定編碼方式以避免出現亂碼等問題。
總結
由於字元編碼十分復雜,涉及到的知識點較多,因此學習時需要耐心且注意細節。在使用 Python 進行編程時,需要根據實際情況選擇合適的編碼方式,以避免出現亂碼等問題。
希望我的回答能夠對您有所幫助!