utf8讀取python

發布時間: 2022-07-08 03:13:05

⑴ python的UTF-8問題

編碼問題需要注意：

你的py文件是utf8編碼的
在py文件開始的第一行加上 # -*- coding:utf-8 -*-
處理中文時，如果是自定義存儲中文的變數，最好用 a = u'xx'形式
如果是其他來源，先decode('來源是什麼編碼')，再encode('utf-8')

⑵ python 讀取文本里有多種編碼

讀取ANSI編碼文件
建立一個文件test.txt，文件格式用ANSI，內容為:
abc中文
用Python來讀取
# coding=gbk
print open("Test.txt").read()
結果：abc中文
讀取utf-8編碼文件（無BOM）
把文件格式改成UTF-8：
結果：abc涓枃
顯然，這里需要解碼：
# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")
結果：abc中文
讀取utf-8編碼文件（有BOM）
某些軟體在保存一個以UTF-8編碼的文件時，默認會在文件開始的地方插入三個不可見的字元（0xEF 0xBB 0xBF，即BOM）。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下，在讀取時需要自己去掉這些字元，python中的codecs mole定義了這個常量：

⑶ 怎麼在Python里使用UTF-8編碼

概述
在python代碼即.py文件的頭部聲明即可
解析
py文件中的編碼
Python
默認
腳本文件
都是
ANSCII
編碼的，當文件
中有非
ANSCII
編碼范圍內的字元的時候就要使用"編碼指示"來修正一個
mole
的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明：
#
-*-
coding=utf-8
-*-
#coding=utf-8
#
以上兩種選其一即可
其他的編碼如：gbk、gb2312也可以；否則會出現:
SyntaxError:
Non-ASCII
character
'\xe4'
in
file
test.py
on
line
3,
but
no
encoding
declared;
see
http://www.python.org/peps/pep-0263.html
for
details
python中的編碼與解碼
先說一下python中的字元串類型，在python中有兩種字元串類型，分別是
str
和
unicode，他們都是basestring的
派生類
；
str類型是一個包含
Characters
represent
(at
least)
8-bit
bytes的序列；
unicode
的每個
unit
是一個
unicode
obj;
在str的文檔中有這樣的一句話：
The
string
data
type
is
also
used
to
represent
arrays
of
bytes,
e.g.,
to
hold
data
read
from
a
file.
也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。
拓展內容
utf-8編碼
UTF-8（8-bit
Unicode
Transformation
Format）是一種針對Unicode的可變長度
字元編碼
，也是一種
前綴碼
。它可以用來表示Unicode標准中的任何字元，且其編碼中的第一個位元組仍與ASCII兼容，這使得原來處理ASCII字元的軟體無須或只須做少部分修改，即可繼續使用。因此，它逐漸成為電子郵件、網頁及其他存儲或發送文字的應用中，優先採用的編碼。
UTF-8使用一至六個位元組為每個字元編碼（盡管如此，2003年11月UTF-8被RFC
3629重新規范，只能使用原來Unicode定義的區域，U+0000到U+10FFFF，也就是說最多四個位元組）：
1、128個US-ASCII字元只需一個位元組編碼（Unicode范圍由U+0000至U+007F）。
2、帶有附加符號的拉丁文、
希臘文
、
西里爾字母
、亞美尼亞語、
希伯來文
、
阿拉伯文
、敘利亞文及它拿字母則需要兩個位元組編碼（Unicode范圍由U+0080至U+07FF）。
3、其他
基本多文種平面
（BMP）中的字元（這包含了大部分
常用字
，如大部分的漢字）使用三個位元組編碼（Unicode范圍由U+0800至U+FFFF）。
4、其他極少使用的Unicode
輔助平面
的字元使用四至六位元組編碼（Unicode范圍由U+10000至U+1FFFFF使用四位元組，Unicode范圍由U+200000至U+3FFFFFF使用五位元組，Unicode范圍由U+4000000至U+7FFFFFFF使用六位元組）。
對上述提及的第四種字元而言，UTF-8使用四至六個位元組來編碼似乎太耗費資源了。但UTF-8對所有常用的字元都可以用三個位元組表示，而且它的另一種選擇，UTF-16編碼，對前述的第四種字元同樣需要四個位元組來編碼，所以要決定UTF-8或UTF-16哪種編碼比較有效率，還要視所使用的字元的分布范圍而定。不過，如果使用一些傳統的壓縮系統，比如DEFLATE，則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮演算法在壓縮較短文字上的效果不大，可以考慮使用Unicode標准壓縮格式（SCSU）。
互聯網工程工作小組（IETF）要求所有互聯網協議都必須支持UTF-8編碼。互聯網郵件聯盟（IMC）建議所有電子郵件軟體都支持UTF-8編碼。

⑷ python從utf-8文件中讀入的字元串什麼編碼

python 從utf-8文件中讀入的字元串什麼編碼需要根據 Python 的版本來判斷。
Python 3.x 都是 Unicode.
Python 2.x 根據文件編碼。

⑸ python在utf-8下怎麼識別中文

GBK: 漢字國標擴展碼,基本上採用了原來GB2312-80所有的漢字及碼位，並涵蓋了原Unicode中所有的漢字20902，總共收錄了883個符號， 21003個漢字及提供了1894個造字碼位。 Microsoft簡體版中文Windows 95就是以GBK為內碼，又由於GBK同時也涵蓋了Unicode所有CJK漢字，所以也可以和Unicode做一一對應。

⑹ Python CGI編程 UTF-8

python3的print輸出會根據終端的編碼進行自動轉換。
要輸出utf-8編碼需要指定才行，可以用下面的函數來代替print。
def printRAW(*Text):
RAWOut = open(1, 'w', encoding='utf8', closefd=False)
print(*Text, file=RAWOut)
RAWOut.flush()
RAWOut.close()
用法：
printRAW('<title>讀取表單</title>')

⑺ python中如何獲取中文的utf8編碼

首先要表示一個漢字，至少需要2個位元組碼
如果需要以utf解碼你的漢字，可以用如下辦法

>>>unicode('人','utf-16')
u'ucbc8'

如果需要以gbk解碼你的漢字，可以用如下辦法

>>>unicode('人','gbk')
u'u4eba

⑻ 如何設置python的編碼格式為utf-8

python的編碼格式？
#coding=utf-8
這是文檔編碼
import sys
sys.setdefaultencoding("utf-8")
這是設置默認編碼方式為utf-8
xx.encode("utf-8")
這是字元串編碼操作
import codecs
codecs.open(xx,'r','utf-8")，這是文件編碼讀取方式

閱讀全文

熱點內容

滑板鞋腳本視頻發布：2025-02-02 09:48:54 瀏覽：432

群暉怎麼玩安卓模擬器發布：2025-02-02 09:45:23 瀏覽：557

三星安卓12彩蛋怎麼玩發布：2025-02-02 09:44:39 瀏覽：743

電腦顯示連接伺服器錯誤發布：2025-02-02 09:24:10 瀏覽：537

瑞芯微開發板編譯發布：2025-02-02 09:22:54 瀏覽：146

linux虛擬機用gcc編譯時顯示錯誤發布：2025-02-02 09:14:01 瀏覽：235

java駝峰發布：2025-02-02 09:13:26 瀏覽：651

魔獸腳本怎麼用發布：2025-02-02 09:10:28 瀏覽：538

linuxadobe 發布：2025-02-02 09:09:43 瀏覽：212

sql2000資料庫連接發布：2025-02-02 09:09:43 瀏覽：726

utf8讀取python

與utf8讀取python相關的資訊