當前位置:首頁 » 編程語言 » pythonutf8讀取文件

pythonutf8讀取文件

發布時間: 2023-06-29 08:26:37

python3讀文件編碼錯誤怎麼辦

在python3中系統默認編碼是unicode,讀取文件經常會編碼錯誤導致報錯。


  1. 首先先確認要讀取文件的編碼,可這樣操作:

記事本打開文本文件,點擊「文件」-「另存為」查看編碼:

importcodecs
f=codecs.open(r"test.txt","r","gbk")
print(f.read())
f.close()

(示例的文件是ANSI所以使用GBK讀取)

以上就可以正確讀取想要的文件了

② python怎樣讀取文本文件里的中文

#在Windows 環境下
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import re
fin = open('in.txt', 'r') #以讀的方式打開輸入文件
for eachLine in fin: #按行讀入文件內容
line = eachLine.strip().decode('gbk', 'utf-8') #處理前進行相關的處理,包括轉換成Unicode等
print line #列印原始字元
p2 = re.compile(ur'[^\u4e00-\u9fa5]') #中文的編碼范圍是:\u4e00到\u9fa5
zh = "".join(p2.split(line)).strip()
#zh = ",".join(zh.split())
print zh ##列印中文字元

③ python讀取txt文件

「'gbk' codec can't decode 。。。。。」是python 的編碼問題。最好你把那個txt的文件先轉換為utf8的格式,再進行讀取,而且讀取文件的那個py文件,文件的第一行加上 # -*- coding:utf-8 -*-

④ python 讀取文本里有多種編碼

讀取ANSI編碼文件
建立一個文件test.txt,文件格式用ANSI,內容為:
abc中文
用Python來讀取
# coding=gbk
print open("Test.txt").read()
結果:abc中文
讀取utf-8編碼文件(無BOM)
把文件格式改成UTF-8:
結果:abc涓 枃
顯然,這里需要解碼:
# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")
結果:abc中文
讀取utf-8編碼文件(有BOM)
某些軟體在保存一個以UTF-8編碼的文件時,默認會在文件開始的地方插入三個不可見的字元(0xEF 0xBB 0xBF,即BOM)。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下,在讀取時需要自己去掉這些字元,python中的codecs mole定義了這個常量:

⑤ python 讀取文件時能指定編碼嗎

代碼如下:

import os
import codecs
filenames=os.listdir(os.getcwd())
out=file("name.txt","w")
for filename in filenames:
out.write(filename.decode("gb2312").encode("utf-8"))
out.close()

將執行文件的當前目錄及文件名寫入到name.txt文件中,以utf-8格式保存
如果採用ANSI編碼保存,用如下代碼寫入即可:

復制代碼代碼如下:

out.write(filename)

打開文件並寫入
引用codecs模塊,對該模塊目前不了解。在此記錄下方法,有空掌握該模塊功能及用法。

復制代碼代碼如下:

import codecs
file=codecs.open("lol.txt","w","utf-8")
file.write(u"我")
file.close()

讀取ANSI編碼的文本文件和utf-8編碼的文件
讀取ANSI編碼文件
建立一個文件test.txt,文件格式用ANSI,內容為:

復制代碼代碼如下:

abc中文

用python來讀取

復制代碼代碼如下:

# coding=gbk
print open("Test.txt").read()

結果:abc中文
讀取utf-8編碼文件(無BOM)
把文件格式改成UTF-8:

復制代碼代碼如下:

結果:abc涓 枃

顯然,這里需要解碼:

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")

結果:abc中文
讀取utf-8編碼文件(有BOM)
某些軟體在保存一個以UTF-8編碼的文件時,默認會在文件開始的地方插入三個不可見的字元(0xEF 0xBB 0xBF,即BOM)。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下,在讀取時需要自己去掉這些字元,python中的codecs mole定義了這個常量:

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

結果:abc中文
在看下面的例子:

復制代碼代碼如下:

# -*- coding: utf-8 -*-
data = open("name_utf8.txt").read()
u=data.decode("utf-8")
print u[1:]

打開utf-8格式的文件並讀取utf-8字元串後,解碼變成unicode對象。但是會把附加的三個字元同樣進行轉換,變成一個unicode字元。該字元不能被列印。所以為了正常顯示,採用u[1:]的方式,過濾到第一個字元。
注意:在處理unicode中文字元串的時候,必須首先對它調用encode函數,轉換成其它編碼輸出。
設置python默認編碼
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

今天碰到了 python 編碼問題, 報錯信息如下

復制代碼代碼如下:

Traceback (most recent call last):
File "ntpath.pyc", line 108, in join
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa1 in position 36: ordinal not in range(128)

顯然是當前的編碼為ascii, 無法解析0xa1(十進制為161, 超過上限128). 進入python console後, 發現默認編碼確實是 ascii, 驗證過程為:
在python2.6中無法調用sys.setdefaultencoding()函數來修改默認編碼,因為python在啟動的時候會調用site.py文件,在這個文件中設置完默認編碼後會刪除sys的setdefaultencoding方法。不能再被調用了. 在確定sys已經導入的情況下, 可以reload sys這個模塊之後, 再 sys.setdefaultencoding('utf8')
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

確實有效, 根據 limodou 講解, site.py 是 python 解釋器啟動後, 默認載入的一個腳本. 如果使用 python -S 啟動的話, 將不會自動載入 site.py.
上面寫的挺啰嗦的.
==================================
如何永久地將默認編碼設置為utf-8呢? 有2種方法:
==================================
第一個方法<不推薦>: 編輯site.py, 修改setencoding()函數, 強制設置為 utf-8
第二個方法<推薦>: 增加一個名為 sitecustomize.py, 推薦存放的路徑為 site-packages 目錄下
sitecustomize.py 是在 site.py 被import 執行的, 因為 sys.setdefaultencoding() 是在 site.py 的最後刪除的, 所以, 可以在 sitecustomize.py 使用 sys.setdefaultencoding().

復制代碼代碼如下:

import sys
sys.setdefaultencoding('utf-8')

既然 sitecustomize.py 能被自動載入, 所以除了設置編碼外, 也可以設置一些其他的東西
字元串的編碼

復制代碼代碼如下:

s1='中文'

像上面那樣直接輸入的字元串是按照代碼文件的編碼來處理的,如果是unicode編碼,有以下三種方式:

復制代碼代碼如下:

1 s1 = u'中文'
2 s2 = unicode('中文','gbk')
3 s3 = s1.decode('gbk')

unicode是一個內置函數,第二個參數指示源字元串的編碼格式。
decode是任何字元串具有的方法,將字元串轉換成unicode格式,參數指示源字元串的編碼格式。
encode也是任何字元串具有的方法,將字元串轉換成參數指定的格式。

⑥ python如何讀取文件的內容

# _*_ coding: utf-8 _*_

import pandas as pd

# 獲取文件的內容

def get_contends(path):

with open(path) as file_object:

contends = file_object.read()

return contends

# 將一行內容變成數組

def get_contends_arr(contends):

contends_arr_new = []

contends_arr = str(contends).split(']')

for i in range(len(contends_arr)):

if (contends_arr[i].__contains__('[')):

index = contends_arr[i].rfind('[')

temp_str = contends_arr[i][index + 1:]

if temp_str.__contains__('"'):

contends_arr_new.append(temp_str.replace('"', ''))

# print(index)

# print(contends_arr[i])

return contends_arr_new

if __name__ == '__main__':

path = 'event.txt'

contends = get_contends(path)

contends_arr = get_contends_arr(contends)

contents = []

for content in contends_arr:

contents.append(content.split(','))

df = pd.DataFrame(contents, columns=['shelf_code', 'robotid', 'event', 'time'])

(6)pythonutf8讀取文件擴展閱讀:

python控制語句

1、if語句,當條件成立時運行語句塊。經常與else, elif(相當於else if) 配合使用。

2、for語句,遍歷列表、字元串、字典、集合等迭代器,依次處理迭代器中的每個元素。

3、while語句,當條件為真時,循環運行語句塊。

4、try語句,與except,finally配合使用處理在程序運行中出現的異常情況。

5、class語句,用於定義類型。

6、def語句,用於定義函數和類型的方法。

⑦ Python在讀取中文文件,編碼是ANSI格式的,希望能夠將漢字一個一個輸出。所以想轉成UTF-8的。求解。

一般來說讀出來的字元串,所以要"我".decode("ascii").encode("utf-8")
如果還不行,就結合下面悶肢好這段代碼試試,編碼可以換螞鉛換,飢仿反正我最近就是這樣解決的
import sys
reload(sys)
sys.setdefaultencoding('utf8')

⑧ Python其實很簡單 第十五章 文件操作

在各種變數中保存的數據都是臨時的,隨著程序運行結束都會丟失。要做到數據長期有效,必須建立在磁碟中建立文件,將數據輸入到文件中並保存。需要獲取數據時需要打開文件讀取。

而我們自己建立的程序都是應用程序,從本質上講,應用程序是無法直接操作計算機的硬體的,譬如讀寫磁碟中文件,這就需要調用操作系統中的相應命令。接下來我們使用的Python內置函數open()、write()都是通過調用操作系統的相關命令才實現文件讀寫的,至於其中的細節,我們就不需要考慮了。

15.1創建和打開文件

在Python 中創建或打開文件,實際上是建立一個對象,該對象通過調用內置的open()函數創建或打開一個文件。

語法:

file object = open(filename [, mode][, buffering])

參數說明如下:

filename:file_name變數是一個包含了你要訪問的文件名稱的字元串值;

mode:mode決定了打開文件的模式:只讀,寫入,追加等。所有可取值見如下的完全列表。這個參數是非強制的,默認文件訪問模式為只讀(r)。

Buffering:如果buffering的值被設為0,就不會有寄存;如果buffering的值取1,訪問文件時會寄存行;如果將buffering的值設為大於1的整數,表明了這就是的寄存區的緩沖大小;如果取負值,寄存區的緩沖大小則為系統默認。

mode參數的參數值及說明

對於其中最難區別的r、r+、w、w+、a、a+幾個參數的區別總結如下,要特別注意指針的位置:

下面舉例說明open( )函數的使用方法。

例1:

>>> file=open(Ƈ.py')

如果文件「1.py」存在,則可以打開此文件;如果文件「1.py」不存在,則會出現如下提示:

Traceback (most recent call last):

File " ", line 1, in

file=open(Ƈ.py')

FileNotFoundError: [Errno 2] No such file or directory: Ƈ.py'

例2:

>>> file=open(Ɗ.py',』a+』)

雖然文件「4.py」不存在,但運行並未出現錯誤,參見上表,「a+」的含義是以讀寫模式打開文件,如果該文件已經存在,新內容將以追加方式寫入;如果該文件不存在,則新建文件用於寫入。查看文件夾,發現已經生成了一個新的文件4.py。

例3:

file=open('python.png','rb')

print(file)

運行結果:

這就是說,雖然Python可以打開一個圖片格式的文件,但print()並不能將其輸出,還需要第三方庫中模塊的相應方法去處理,如PIL中的open()f方法。

例4:

file = open("f.txt", "w",encoding='utf-8')

# 以只寫模式打開文件f.txt,編碼方式為utf-8

print( "文件名: ", file.name) # 輸出文件名

print( "是否已關閉 : ", file.closed) # 文件是否打開

print( "訪問模式 : ", file.mode) # 文件訪問模式

運行結果:

文件名: f.txt

是否已關閉 : False

訪問模式 : w

例5:


15.2關閉文件

打開文件使用後要及時關閉,以免造成不必要的破壞,同時也可以釋放內存。在Python中使用close()方法可以關閉文件。

語法格式:

file.close()

其中,file為文件對象。


15.3 with語句

with 語句適用於對資源進行訪問的場合,確保不管使用過程中是否發生異常都會執行必要的「清理」操作,釋放資源,比如文件使用後自動關閉、線程中鎖的自動獲取和釋放等。

with語句的語法格式如下:

with expression as target:

with-body

其中,expression用於指定一個表達式,譬如打開文件的open()函數。target用於指定一個變數,並且將expression的結果保存到該變數中,譬如文件對象file。with-body用於指定with語句體,譬如一些文件操作的相關語句,如果沒有要執行的語句體,則直接用pass語句代替。

假設python當前目錄下存在一個test.txt文件,其內容如下:

Python是一種解釋型語言: 這意味著開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。

Python是互動式語言: 這意味著,您可以在一個 Python 提示符 >>> 後直接執行代碼。

Python是面向對象語言: 這意味著Python支持面向對象的風格或代碼封裝在對象的編程技術。

Python是初學者的語言:Python 對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發。

舉例如下:

with open('test.txt','r',encoding='utf-8') as file:

line=file.readline() # readline()方法可以讀取文件一行數據,接下來就會講到。

print(line)

運行結果如下:

Python是一種解釋型語言: 這意味著開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。

而此時,我們給該段代碼with語句之外再增加一個讀取文件的語句,代碼如下:

with open('test.txt','r',encoding='utf-8') as file:

line=file.readline()

print(line)


line2=file.readline()

print(line2)

發現出現了如下錯誤提示:

Traceback (most recent call last):

File "C:/Users/zym/AppData/Local/Programs/Python/Python39/3.py", line 5, in

line2=file.readline()

ValueError: I/O operation on closed file.

意思是要讀取的文件已經被關閉了。

由此可知,當with語句運行結束後,被打開的test.txt文件就自動關閉了。

15.4讀取文件

在Python 中讀取文件的方法有:

1、讀取指定個數的字元

格式如下:

File.read([size])

其中,file為打開的文件對象。size為可選參數,可以指定要讀取的字元個數,省缺表示讀取所有內容。

在調用read()方法讀取文件內容時,文件必須是以r(只讀)或者r+(讀寫)方式打開。

如:

with open('test.txt','r',encoding='utf-8') as file:

txt=file.read() (或txt=file.read(10))

print(txt)

將讀取、輸出test.txt文件的全部內容(或前10個字元)。

2、移動文件的指針

對於剛打開的文件,文件指針總是指向文件頭的。也可以通過seek()方法將文件的指針移動到新的位置。

格式如下:

file.seek(offset[,whence])

其中,file表示已經打開的文件對象;offset用於指定移動的字元個數;whence表示從哪個位置起始計算個數,其值為0表示從文件頭開始計算,其值為1表示從當前位置開始計算,其值為2表示從文件尾開始計算,默認值為0。

例如:

with open('test.txt','r',encoding='utf-8') as file:

string=file.read(9)

print('取9個字元: '+string)

file.seek(2) #指針從文件頭開始移動2個字元

string=file.read(9) #從當前位置讀取10個字元

輸出結果:

取9個字元:

Python是一種

取9個字元:

thon是一種解釋


而下面的代碼會拋出錯誤:

with open('test.txt','r',encoding='utf-8') as file:

file.seek(2,1) #指針從當前位置開始移動2個字元

string=file.read(10) #從當前位置讀取10個字元

print('取10個字元: '+string)

錯誤提示為:

Traceback (most recent call last):

File "C:.py", line 7, in

file.seek(2,1) #指針從當前位置開始移動2個字元

io.UnsupportedOperation: can't do nonzero cur-relative seeks

原因在於,必須使用b模式(即rb)打開文件,才能使用whence參數。但是,b模式(二進制)不適合文本文件。對於test.txt這樣的文本文件,為了解決通過改變指針讀取任意位置字元,可以採用加一個位置變數的方法來存儲指針的值。

例如:

with open('test.txt','r',encoding='utf-8') as file:

#utf-8漢字與英文字元都佔一個字元

string='' #設置一個空字元串

pointer=0 #當前指針為0

str1=file.read(6) #讀取6個字元

pointer+=6 #指針變數後移6個字元

string+=str1 #string用來存放已讀取的字元

print('取6個字元: ',str1)

file.seek(pointer) #指針從文件頭開始移動2個字元

str1=file.read(8) #從當前位置讀取10個字元

pointer+=8 #指針跳過已讀取的字元

string+=str1

print('再取8個字元: ',str1)

print('所有讀取的字元: ',string)

print('當前指針所處的位置: ',pointer)

str1=file.read(1)

print('當前指針所處的字元: ',str1)


運行結果如下:

取6個字元:

Python

再取8個字元:

是一種解釋型語言

所有讀取的字元:

Python是一種解釋型語言

當前指針所處的位置:

14

當前指針所處的字元:


3、讀取一行數據readline()方法

語法格式:

file.readline()

例:

with open('test.txt','r',encoding='utf-8') as f:

string=f.read(1) # 讀取文件的第一個字元

if string != '': # 防止文件為空文件

lineno=0

while True:

line=f.readline()

if line != '':

lineno+=1

print('第'+str(lineno)+'行:'+line,end='')

# 因為每行都有自帶的分行符,print()語句不允許換行

else:

break # 出現空行時停止讀取

else:

print('要讀取的文件為空文件!')

運行結果:

第1行:ython是一種解釋型語言: 這意味著開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。

第2行:Python是互動式語言: 這意味著,您可以在一個 Python 提示符 >>> 後直接執行代碼。

第3行:Python是面向對象語言: 這意味著Python支持面向對象的風格或代碼封裝在對象的編程技術。

第4行:Python是初學者的語言:Python 對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發。

4、讀取全部行命令readlines()方法

語法格式:

File.readlines()

該方法與read()方法一樣,在調用read()方法讀取文件內容時,文件必須是以r(只讀)或者r+(讀寫)方式打開。

例:

with open('test.txt','r',encoding='utf-8') as f:

txt=f.readlines()

print(txt)

運行結果:

['Python是一種解釋型語言: 這意味著開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。 ', 'Python是互動式語言: 這意味著,您可以在一個 Python 提示符 >>> 後直接執行代碼。 ', 'Python是面向對象語言: 這意味著Python支持面向對象的風格或代碼封裝在對象的編程技術。 ', 'Python是初學者的語言:Python 對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發。 ']

從上面的運行結果可以看出,readlines()方法的返回值為一個字元串列表。所以,也可以以讀取列表元素的方法輸出。如下所示:

with open('test.txt','r',encoding='utf-8') as f:

txt=f.readlines()

for line in txt:

print(line,end='')

運行結果:

Python是一種解釋型語言: 這意味著開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。

Python是互動式語言: 這意味著,您可以在一個 Python 提示符 >>> 後直接執行代碼。

Python是面向對象語言: 這意味著Python支持面向對象的風格或代碼封裝在對象的編程技術。

Python是初學者的語言:Python 對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發。

15.5 寫入文件內容

語法格式如下:

file.write(string)

其中,file為打開的文件對象,string為要寫入的字元串。

寫入文件內容時,文件必須以w(可寫)或a(追加)模式打開。否則,會拋出如下異常提示:

Traceback (most recent call last):

File "C:.py", line 2, in

f.write('人生苦短,我用Python!')

io.UnsupportedOperation: not writable

關於write()方法的用法舉例如下:

with open('test.txt','a',encoding='utf-8') as f:

f.write('人生苦短,我用Python!')

with open('test.txt','r',encoding='utf-8') as f:

txt=f.read()

print(txt)

運行結果:

Python是一種解釋型語言: 這意味著開發過程中沒有了編譯這個環節。類似於PHP和Perl語言。

Python是互動式語言: 這意味著,您可以在一個 Python 提示符 >>> 後直接執行代碼。

Python是面向對象語言: 這意味著Python支持面向對象的風格或代碼封裝在對象的編程技術。

Python是初學者的語言:Python 對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發。

人生苦短,我用Python!

可以看出,由於文件的打開方式為a模式(追加模式),寫入的內容被寫入到文件的末尾。

在Python中,文件操作方法里沒有類似於字元串內的計算長度、查找、替換、截取、分隔等方法,為什麼沒有?原因可能是文件的類型太復雜,譬如說二進制文件,上述操作的意義不大。如果僅僅要對文本文件進行上述操作,完全可以先把文件的內容讀取到字元串中,再用相應的字元串函數或方法去操作就可以了。譬如,要將test.txt文件中的字元串『Python』替換為』PHP』,則可以用如下代碼完成:

txt1=''


with open('test.txt','r',encoding='utf-8') as f:

txt1=f.read() #先將文件內容存入字元串txt1中


txt2=txt1.replace('Python','PHP') #將txt1中的'Python'替換為'PHP',並存入txt2


with open('test.txt','w',encoding='utf-8') as f:

f.write(txt2) #將字元串txt2的內容寫回到文件中


這里之所以分兩步打開文件(第一次為r模式,第二次為w模式),而沒有採用一次讀寫(r+、w+方式),因為那樣比較容易出錯。實踐證明,將文件的讀操作和寫操作分開其實是非常正確的選擇。

熱點內容
微軟不給源碼 發布:2025-02-11 16:13:37 瀏覽:38
php的get方法 發布:2025-02-11 16:12:30 瀏覽:967
源碼網嘉 發布:2025-02-11 16:07:06 瀏覽:192
免費ftp服務軟體 發布:2025-02-11 15:58:06 瀏覽:866
大櫻桃建園為什麼要配置授粉樹 發布:2025-02-11 15:58:00 瀏覽:629
五菱宏光s頂配有哪些配置 發布:2025-02-11 15:50:57 瀏覽:287
華為8加128配置有哪些 發布:2025-02-11 15:48:20 瀏覽:580
壓縮機三轉子 發布:2025-02-11 15:45:54 瀏覽:828
linux操作系統shell 發布:2025-02-11 15:45:53 瀏覽:339
安卓模擬器如何選擇安裝 發布:2025-02-11 15:34:26 瀏覽:177