python讀取文件編碼
❶ python3讀文件編碼錯誤怎麼辦
在python3中系統默認編碼是unicode,讀取文件經常會編碼錯誤導致報錯。
首先先確認要讀取文件的編碼,可這樣操作:
記事本打開文本文件,點擊「文件」-「另存為」查看編碼:
importcodecs
f=codecs.open(r"test.txt","r","gbk")
print(f.read())
f.close()
(示例的文件是ANSI所以使用GBK讀取)
以上就可以正確讀取想要的文件了
❷ python 讀取文件時能指定編碼嗎
代碼如下:
import os
import codecs
filenames=os.listdir(os.getcwd())
out=file("name.txt","w")
for filename in filenames:
out.write(filename.decode("gb2312").encode("utf-8"))
out.close()
將執行文件的當前目錄及文件名寫入到name.txt文件中,以utf-8格式保存
如果採用ANSI編碼保存,用如下代碼寫入即可:
復制代碼代碼如下:
out.write(filename)
打開文件並寫入
引用codecs模塊,對該模塊目前不了解。在此記錄下方法,有空掌握該模塊功能及用法。
復制代碼代碼如下:
import codecs
file=codecs.open("lol.txt","w","utf-8")
file.write(u"我")
file.close()
讀取ANSI編碼的文本文件和utf-8編碼的文件
讀取ANSI編碼文件
建立一個文件test.txt,文件格式用ANSI,內容為:
復制代碼代碼如下:
abc中文
用python來讀取
復制代碼代碼如下:
# coding=gbk
print open("Test.txt").read()
結果:abc中文
讀取utf-8編碼文件(無BOM)
把文件格式改成UTF-8:
復制代碼代碼如下:
結果:abc涓 枃
顯然,這里需要解碼:
復制代碼代碼如下:
# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")
結果:abc中文
讀取utf-8編碼文件(有BOM)
某些軟體在保存一個以UTF-8編碼的文件時,默認會在文件開始的地方插入三個不可見的字元(0xEF 0xBB 0xBF,即BOM)。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下,在讀取時需要自己去掉這些字元,python中的codecs mole定義了這個常量:
復制代碼代碼如下:
# -*- coding: utf-8 -*-
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
結果:abc中文
在看下面的例子:
復制代碼代碼如下:
# -*- coding: utf-8 -*-
data = open("name_utf8.txt").read()
u=data.decode("utf-8")
print u[1:]
打開utf-8格式的文件並讀取utf-8字元串後,解碼變成unicode對象。但是會把附加的三個字元同樣進行轉換,變成一個unicode字元。該字元不能被列印。所以為了正常顯示,採用u[1:]的方式,過濾到第一個字元。
注意:在處理unicode中文字元串的時候,必須首先對它調用encode函數,轉換成其它編碼輸出。
設置python默認編碼
復制代碼代碼如下:
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()
今天碰到了 python 編碼問題, 報錯信息如下
復制代碼代碼如下:
Traceback (most recent call last):
File "ntpath.pyc", line 108, in join
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa1 in position 36: ordinal not in range(128)
顯然是當前的編碼為ascii, 無法解析0xa1(十進制為161, 超過上限128). 進入python console後, 發現默認編碼確實是 ascii, 驗證過程為:
在python2.6中無法調用sys.setdefaultencoding()函數來修改默認編碼,因為python在啟動的時候會調用site.py文件,在這個文件中設置完默認編碼後會刪除sys的setdefaultencoding方法。不能再被調用了. 在確定sys已經導入的情況下, 可以reload sys這個模塊之後, 再 sys.setdefaultencoding('utf8')
復制代碼代碼如下:
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()
確實有效, 根據 limodou 講解, site.py 是 python 解釋器啟動後, 默認載入的一個腳本. 如果使用 python -S 啟動的話, 將不會自動載入 site.py.
上面寫的挺啰嗦的.
==================================
如何永久地將默認編碼設置為utf-8呢? 有2種方法:
==================================
第一個方法<不推薦>: 編輯site.py, 修改setencoding()函數, 強制設置為 utf-8
第二個方法<推薦>: 增加一個名為 sitecustomize.py, 推薦存放的路徑為 site-packages 目錄下
sitecustomize.py 是在 site.py 被import 執行的, 因為 sys.setdefaultencoding() 是在 site.py 的最後刪除的, 所以, 可以在 sitecustomize.py 使用 sys.setdefaultencoding().
復制代碼代碼如下:
import sys
sys.setdefaultencoding('utf-8')
既然 sitecustomize.py 能被自動載入, 所以除了設置編碼外, 也可以設置一些其他的東西
字元串的編碼
復制代碼代碼如下:
s1='中文'
像上面那樣直接輸入的字元串是按照代碼文件的編碼來處理的,如果是unicode編碼,有以下三種方式:
復制代碼代碼如下:
1 s1 = u'中文'
2 s2 = unicode('中文','gbk')
3 s3 = s1.decode('gbk')
unicode是一個內置函數,第二個參數指示源字元串的編碼格式。
decode是任何字元串具有的方法,將字元串轉換成unicode格式,參數指示源字元串的編碼格式。
encode也是任何字元串具有的方法,將字元串轉換成參數指定的格式。
❸ Python 讀寫文件的編碼與解碼問題
演示文件為docx文檔,內容如下:
運行源碼查看報錯信息
UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 15: illegal multibyte sequence
上述錯誤是一種很常見的解碼錯誤,下面介紹該錯誤的解決方法
把utf-8,gbk等各種編碼方式都試了一遍,還是沒有解決問題然後仔細看報錯信息,根據UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfb in position 14: invalid start byte,猜測文件中某個位元組不能解碼,打開文件一看,並沒有看出什麼問題來
open() 函數的第三個參數不是用來野唯接收編碼方式的,而磨脊信是傳入一個buffering的值,此處傳入了'gbk'字元串,所以系統提示傳一個瞎輪整型
通過調用office的API進行操作,因為在office上能完成的操作,都能通過win32完成,所以我們選擇使用win32
(Python3.5 需要安裝 win32compat,裡面含了 win32 的很多包)
❹ Python怎麼獲取HDFS文件的編碼格式
你好,你可以利用python3的python3-magic來獲得文件的編碼格式。下面是對應的代碼
import magic
blob = open('unknown-file').read()
m = magic.open(magic.MAGIC_MIME_ENCODING)
m.load()
encoding = m.buffer(blob) # "utf-8" "us-ascii" etc
❺ Python字元編碼使用什麼碼
Python 2.x 和 Python 3.x 的字元編碼存在較大的區別。下面將分別介紹它們的編碼原理及相關內容。
Python 2.x 字元編碼
在 Python 2.x 中,str 類型默認使用 ASCII 編碼。ASCII 編碼是在 1960 年代初開發的一種編碼方式,用於將英文字母、數字、符號等字元表示為位元組。由於 ASCII 編碼只使用了 7 位二進制數,因此只能表示 128 種字元。
當需要使用非 ASCII 字元時,在 str 類型前添加 u 前綴,即可將字元串轉換為 Unicode 類型,如下所示:
str1 = 'hello' # 默認使用 ASCII 編碼
str2 = u'你好' # 使用 Unicode 編碼
Python 3.x 字元編碼
在 Python 3.x 中,str 類型默認使用 Unicode 編碼,即 Python 2.x 中的 Unicode 類型。Unicode 編碼是一種支持全球范圍內的字元集,褲歲正能夠表示幾乎所有語言的字元,包括漢字、日文、希臘字母等。
為了支持位元組和 Unicode 類型之間的轉換,Python3.x 新增了 bytes 類型。bytes 類型與 str 類型的區別在於,bytes 類型會自動將字元串轉雀猛換成位元組,而 str 類型會自動將位元組轉換成字元串。
bytes 類型使用 b 前綴表示,如下所示:
str1 = 'hello' # 默認使用胡悔 Unicode 編碼,即 Python 2.x 中的 Unicode 類型
str2 = b'hello' # 使用 bytes 類型
編碼原理及注意事項
字元編碼的原理在於將字元轉換為二進製表示,以便計算機能夠處理。
ASCII 編碼使用 7 位二進制數對字元進行編碼,而 Unicode 編碼使用 16 位或 32 位二進制數對字元進行編碼。
在 Python 中,可以使用 encode 方法將 Unicode 字元串轉換為位元組類型,使用 decode 方法將位元組類型轉換為 Unicode 字元串。編碼方式有多種,如 UTF-8、GBK、Unicode 等,需要根據實際業務需求進行選擇。
UTF-8 編碼是一種常用的 Unicode 字元編碼方式,它使用變長位元組對字元進行編碼,能夠表示幾乎所有的字元。GBK 編碼是一種用於漢字編碼的字元集,只能表示中文字元。
Python 3.x 默認使用 UTF-8 編碼,因此在讀取文件或進行網路傳輸時,需要明確指定編碼方式以避免出現亂碼等問題。
總結
由於字元編碼十分復雜,涉及到的知識點較多,因此學習時需要耐心且注意細節。在使用 Python 進行編程時,需要根據實際情況選擇合適的編碼方式,以避免出現亂碼等問題。
希望我的回答能夠對您有所幫助!
❻ Python:查看文件的編碼格式-chardet
其中, encoding 為檢測出的編碼, confidence 為可信度, language 是語言。
另外一個例子:
檢測的編碼是GB2312,注意到GBK是GB2312的超集,兩者是同一種編碼,檢測正確的概率是74%,language欄位指出的語言是'Chinese'。
注意:chardet支持檢測的編碼列表請參考官方文檔 Supported encodings 。
❼ Python讀寫文件時,遇到中文編碼需要怎麼處理
使用utf-8編碼橡槐:
withopen("f.txt","r",encoding="utf-8")如擾ascode:
print(code.read())
#或者下渣如旦面這種:
f=open("f.txx","r",encoding="utf-8")
print(f.read())
f.close()
❽ python讀寫有中文的文件時,是否需要設置編碼格式
需要:
with open("路徑","模式",encoding="utf8") as f:
如果不確定編碼格式,後面讀取可能會出問題