python讀文件gbk

發布時間: 2022-11-26 19:11:43

⑴ python 讀取gbk文件如何列印出中文

$python3
Python3.2.3(default,Feb272014,21:33:50)
[GCC4.6.3]onlinux2
Type"help","right","credits"or"license"formoreinformation.
>>>importcodecs
>>>withcodecs.open("test.txt",'r','gbk')ashandle:
...forlninhandle:
...print(ln)
...
中國
>>>withopen("test.txt",'rb')ashandle:
...ch_str=handle.read()
...
>>>ch_str
b'xd6xd0xb9xfa'
>>>print(ch_str.decode("gbk"))
中國
>>>

⑵ python讀取文件解決『utf8』 codec can』t decode byte 0xa1的問題

一般這種文件存在類似字元：

如果UTF-8搞不定，可以採取ISO-8859-1編碼方式解決：

最早的編碼是iso8859-1，和ascii編碼相似。但為了方便表示各種各樣的語言，逐漸出現了很多標准編碼，重要的有如下幾個。

很明顯，iso8859-1編碼表示的字元范圍很窄，無法表示中文字元。但是，由於是單位元組編碼，和計算機最基礎的表示單位一致，所以很多時候，仍舊使用iso8859-1編碼來表示。而且在很多協議上，默認使用該編碼。比如，雖然"中文"兩個字不存在iso8859-1編碼，以gb2312編碼為例，應該是"d6d0 cec4"兩個字元，使用iso8859-1編碼的時候則將它拆開為4個位元組來表示："d6 d0 ce c4"（事實上，在進行存儲的時候，也是以位元組為單位處理的）。而如果是UTF編碼，則是6個位元組"e4 b8 ad e6 96 87"。很明顯，這種表示方法還需要以另一種編碼為基礎。

需要說明的是，定長編碼便於計算機處理（注意GB2312/GBK不是定長編碼），而unicode又可以用來表示所有字元，所以在很多軟體內部是使用unicode編碼來處理的，比如java。

注意，雖然說utf是為了使用更少的空間而使用的，但那隻是相對於unicode編碼來說，如果已經知道是漢字，則使用GB2312/GBK無疑是最節省的。不過另一方面，值得說明的是，雖然utf編碼對漢字使用3個位元組，但即使對於漢字網頁，utf編碼也會比unicode編碼節省，因為網頁中包含了很多的英文字元。

⑶ python 讀取文件時能指定編碼嗎

代碼如下:

import os
import codecs
filenames=os.listdir(os.getcwd())
out=file("name.txt","w")
for filename in filenames:
out.write(filename.decode("gb2312").encode("utf-8"))
out.close()

將執行文件的當前目錄及文件名寫入到name.txt文件中，以utf-8格式保存
如果採用ANSI編碼保存，用如下代碼寫入即可：

復制代碼代碼如下:

out.write(filename)

打開文件並寫入
引用codecs模塊，對該模塊目前不了解。在此記錄下方法，有空掌握該模塊功能及用法。

復制代碼代碼如下:

import codecs
file=codecs.open("lol.txt","w","utf-8")
file.write(u"我")
file.close()

讀取ANSI編碼的文本文件和utf-8編碼的文件
讀取ANSI編碼文件
建立一個文件test.txt，文件格式用ANSI，內容為:

復制代碼代碼如下:

abc中文

用python來讀取

復制代碼代碼如下:

# coding=gbk
print open("Test.txt").read()

結果：abc中文
讀取utf-8編碼文件（無BOM）
把文件格式改成UTF-8：

復制代碼代碼如下:

結果：abc涓枃

顯然，這里需要解碼：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")

結果：abc中文
讀取utf-8編碼文件（有BOM）
某些軟體在保存一個以UTF-8編碼的文件時，默認會在文件開始的地方插入三個不可見的字元（0xEF 0xBB 0xBF，即BOM）。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下，在讀取時需要自己去掉這些字元，python中的codecs mole定義了這個常量：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

結果：abc中文
在看下面的例子：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
data = open("name_utf8.txt").read()
u=data.decode("utf-8")
print u[1:]

打開utf-8格式的文件並讀取utf-8字元串後，解碼變成unicode對象。但是會把附加的三個字元同樣進行轉換，變成一個unicode字元。該字元不能被列印。所以為了正常顯示，採用u[1:]的方式，過濾到第一個字元。
注意：在處理unicode中文字元串的時候，必須首先對它調用encode函數，轉換成其它編碼輸出。
設置python默認編碼
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

今天碰到了 python 編碼問題, 報錯信息如下

復制代碼代碼如下:

Traceback (most recent call last):
File "ntpath.pyc", line 108, in join
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa1 in position 36: ordinal not in range(128)

顯然是當前的編碼為ascii, 無法解析0xa1(十進制為161, 超過上限128). 進入python console後, 發現默認編碼確實是 ascii, 驗證過程為:
在python2.6中無法調用sys.setdefaultencoding()函數來修改默認編碼，因為python在啟動的時候會調用site.py文件，在這個文件中設置完默認編碼後會刪除sys的setdefaultencoding方法。不能再被調用了. 在確定sys已經導入的情況下, 可以reload sys這個模塊之後, 再 sys.setdefaultencoding('utf8')
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

確實有效, 根據 limodou 講解, site.py 是 python 解釋器啟動後, 默認載入的一個腳本. 如果使用 python -S 啟動的話, 將不會自動載入 site.py.
上面寫的挺啰嗦的.
==================================
如何永久地將默認編碼設置為utf-8呢? 有2種方法:
==================================
第一個方法<不推薦>: 編輯site.py, 修改setencoding()函數, 強制設置為 utf-8
第二個方法<推薦>: 增加一個名為 sitecustomize.py, 推薦存放的路徑為 site-packages 目錄下
sitecustomize.py 是在 site.py 被import 執行的, 因為 sys.setdefaultencoding() 是在 site.py 的最後刪除的, 所以, 可以在 sitecustomize.py 使用 sys.setdefaultencoding().

復制代碼代碼如下:

import sys
sys.setdefaultencoding('utf-8')

既然 sitecustomize.py 能被自動載入, 所以除了設置編碼外, 也可以設置一些其他的東西
字元串的編碼

復制代碼代碼如下:

s1='中文'

像上面那樣直接輸入的字元串是按照代碼文件的編碼來處理的，如果是unicode編碼，有以下三種方式：

復制代碼代碼如下:

1 s1 = u'中文'
2 s2 = unicode('中文','gbk')
3 s3 = s1.decode('gbk')

unicode是一個內置函數，第二個參數指示源字元串的編碼格式。
decode是任何字元串具有的方法，將字元串轉換成unicode格式，參數指示源字元串的編碼格式。
encode也是任何字元串具有的方法，將字元串轉換成參數指定的格式。

⑷ python3讀文件編碼錯誤怎麼辦

在python3中系統默認編碼是unicode,讀取文件經常會編碼錯誤導致報錯。

首先先確認要讀取文件的編碼，可這樣操作：

記事本打開文本文件，點擊「文件」-「另存為」查看編碼:

importcodecs
f=codecs.open(r"test.txt","r","gbk")
print(f.read())
f.close()

（示例的文件是ANSI所以使用GBK讀取）

以上就可以正確讀取想要的文件了

⑸ python中讀取文件（路徑含中文）出現亂碼問題。

沒有Python3 。

你試一下

path='Py....'#下面添加一行
path=path.decode('gbk')

⑹ python 讀取文本里有多種編碼

讀取ANSI編碼文件
建立一個文件test.txt，文件格式用ANSI，內容為:
abc中文
用Python來讀取
# coding=gbk
print open("Test.txt").read()
結果：abc中文
讀取utf-8編碼文件（無BOM）
把文件格式改成UTF-8：
結果：abc涓枃
顯然，這里需要解碼：
# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")
結果：abc中文
讀取utf-8編碼文件（有BOM）
某些軟體在保存一個以UTF-8編碼的文件時，默認會在文件開始的地方插入三個不可見的字元（0xEF 0xBB 0xBF，即BOM）。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下，在讀取時需要自己去掉這些字元，python中的codecs mole定義了這個常量：

⑺ python解決csv文件用excel打開亂碼問題

【問題】

python輸出的csv文件用excel打開，裡面的中文會變成亂碼，但用window下的記事本或mac下的numbers打開就正常顯示。

原因是python輸出的文件是utf-8編碼寫入的，excel默認以gbk方式讀取，導致亂碼發生。

【解決方法1】文件產出時encoding設置為utf-8-sig

用excel打開csv時，excel會先檢查文件的第一個字元，來了解這個文件是什麼編碼方式，如果這個字元是BOM，excel就知道用utf-8的方式打開這個文件。python自帶了處理BOM的編碼方式uft-8-sig，因此只需要在文件產出時將encoding設置為utf-8-sig。

如果文件不是由python產出的，只需要以utf-8方式讀入再以utf-8-sig方式存儲即可

【解決方法2】懶人法，適用只含簡體中文的文件

用記事本打開，點擊另存為，右下角編碼方式選擇「ANSI」，這個過程是把這個文件改成gbk編碼格式，excel就是默認用gbk方式打開的。

參考： Python寫的csv文件，如何讓 Excel 雙擊打開不亂碼？ - 雲+社區 - 騰訊雲

對編碼格式一竅不通的可以閱讀以下網頁

python筆記——二進制和文件編碼_砍柴姑娘Jourosy的博客-CSDN博客

編碼方式之ASCII、ANSI、Unicode概述 - 藍海人 - 博客園

【簡單總結】：

1. 首先需要了解字元集和字元編碼兩個概念，字元集定義了字元和二進制的一一對應關系，字元編碼規定了如何將字元的編號存儲到計算機中。

2. Unicode是字元集，包含了全球文字的唯一編碼，utf-8是編碼方式，將unicode以某種方式存儲到計算機中。

3. 有些字元集和編碼是結合在一起的，稱作字元集還是編碼都無所謂，比如ASCII，GBK

4. ANSI是各個國家地區不同擴展編碼方式的總稱，互不兼容（可以看出來通用性沒有utf好）

5. 不同編碼方式在轉換時，通常需要以unicode作為中間編碼，即先將其他編碼的字元串解碼（decode）成unicode，再從unicode編碼（encode）成另一種編碼。

⑻ python讀取txt文件

「'gbk' codec can't decode 。。。。。」是python 的編碼問題。最好你把那個txt的文件先轉換為utf8的格式，再進行讀取，而且讀取文件的那個py文件，文件的第一行加上 # -*- coding:utf-8 -*-

⑼ python 讀取的中文怎麼使用

file = open('filename.txt','r')
text = file.read() #讀取所有文字
text = file.readline() #讀取一行文字
text = file.readlinse() #把每一行變成list的一個元素
如果需要裡面中文的話，用正則匹配

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：729

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：996

python中的init方法發布：2025-10-20 08:17:33 瀏覽：704

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：866

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：765

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1104

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：338

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：214

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：901

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：859

python讀文件gbk

與python讀文件gbk相關的資訊