python判斷編碼格式

發布時間: 2022-11-17 02:26:49

A. python判斷字元串中是否只有ASCII編碼字元

ascii字元長度只有8位，而其他編碼的字元往往有16位或32位

利用這一點可以進行判斷

將字元串解碼成unicode，判斷長度是否與解碼前相同

#-*-coding:utf-8-*-
a='中國123'
b=a.decode('utf-8')
printa,len(a)==len(b)

a='abc'
b=a.decode('utf-8')
printa,len(a)==len(b)

B. Python怎麼獲取HDFS文件的編碼格式

你好，你可以利用python3的python3-magic來獲得文件的編碼格式。下面是對應的代碼
import magic

blob = open('unknown-file').read()

m = magic.open(magic.MAGIC_MIME_ENCODING)

m.load()

encoding = m.buffer(blob) # "utf-8" "us-ascii" etc

C. python怎麼判斷中文字元編碼

#!/usr/bin/env python
# -*- coding:GBK -*-

"""漢字處理的工具:
判斷unicode是否是漢字，數字，英文，或者其他字元。
全形符號轉半形符號。"""

__author__="internetsweeper <[email protected]>"
__date__="2007-08-04"

def is_chinese(uchar):
"""判斷一個unicode是否是漢字"""
if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
return True
else:
return False

def is_number(uchar):
"""判斷一個unicode是否是數字"""
if uchar >= u'\u0030' and uchar<=u'\u0039':
return True
else:
return False

def is_alphabet(uchar):
"""判斷一個unicode是否是英文字母"""
if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
return True
else:
return False

def is_other(uchar):
"""判斷是否非漢字，數字和英文字元"""
if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):
return True
else:
return False

def B2Q(uchar):
"""半形轉全形"""
inside_code=ord(uchar)
if inside_code<0x0020 or inside_code>0x7e: #不是半形字元就返回原來的字元
return uchar
if inside_code==0x0020: #除了空格其他的全形半形的公式為:半形=全形-0xfee0
inside_code=0x3000
else:
inside_code+=0xfee0
return unichr(inside_code)

def Q2B(uchar):
"""全形轉半形"""
inside_code=ord(uchar)
if inside_code==0x3000:
inside_code=0x0020
else:
inside_code-=0xfee0
if inside_code<0x0020 or inside_code>0x7e: #轉完之後不是半形字元返回原來的字元
return uchar
return unichr(inside_code)

def stringQ2B(ustring):
"""把字元串全形轉半形"""
return "".join([Q2B(uchar) for uchar in ustring])

def uniform(ustring):
"""格式化字元串，完成全形轉半形，大寫轉小寫的工作"""
return stringQ2B(ustring).lower()

def string2List(ustring):
"""將ustring按照中文，字母，數字分開"""
retList=[]
utmp=[]
for uchar in ustring:
if is_other(uchar):
if len(utmp)==0:
continue
else:
retList.append("".join(utmp))
utmp=[]
else:
utmp.append(uchar)
if len(utmp)!=0:
retList.append("".join(utmp))
return retList

if __name__=="__main__":
#test Q2B and B2Q
for i in range(0x0020,0x007F):
print Q2B(B2Q(unichr(i))),B2Q(unichr(i))

#test uniform
ustring=u'中國人名a高頻A'
ustring=uniform(ustring)
ret=string2List(ustring)
print ret

以上轉自http://hi..com/fenghua1893/item/d1a71d5ac47ffdcfd3e10cd1

這個問題是做 MkIV 預處理程序時搞定的，就是把一個混合了中英文混合字串分離為英文與中文的子字串，譬如，將」我的 English 學的不好「分離為「我的"、" English 」與 "學的不好" 三個子字串。
1. 中英文混合字串的統一編碼表示中英文混合字串處理最省力的辦法就是把它們的編碼都轉成 Unicode，讓一個漢字與一個英文字母的內存位寬都是相等的。這個工作用 Python 來做，比較合適，因為 Python 內碼採用的是 Unicode，並且為了支持 Unicode 字串的操作，Python 做了一個 Unicode 內建模塊，把 string 對象的全部方法重新實現了一遍，另外提供了 Codecs 對象，解決各種編碼類型的字元串解碼與編碼問題。
譬如下面的 Python 代碼，可實現 UTF-8 編碼的中英文混合字串向 Unicode 編碼的轉換：# -*-
coding:utf-8 -*-
a = "我的 English 學的不好"
print type(a),len (a), a
b = unicode (a, "utf-8")
print type(b), len (b), b字元串 a 是 utf-8 編碼，使用 python 的內建對象 unicode 可將其轉換為 Unicode 編碼的字元串 b。上述代碼執行後的輸出結果如下所示，比較字串 a 與字串 b 的長度，顯然 len (b) 的輸出結果是合理的。<type 'str'> 27 我的 English 學的不好
<type 'unicode'> 15 我的 English 學的不好要注意的一個問題是 Unicode 雖然號稱是「統一碼」，不過也是存在著兩種形式，即：
UCS-2：為 16 位碼，具有 2^16 = 65536 個碼位； UCS-4：為 32 位碼，目前的規定是其首位元組的首位為 0，因此具有 2^31 = 2147483648 個碼位，不過現在的只使用了 0x00000000 － 0x0010FFFF 之間的碼位，共 1114112 個。
使用Python sys 模塊提供的一個變數 maxunicode 的值可以判斷當前 Python 所使用的 Unicode 類型是 UCS-2 的還是 UCS-4 的。import sys
print sys.maxunicode若 sys.maxunicode 的值為 1114111，即為 UCS-4；若為 65535，則為 UCS-2。

2. 中英文混合字串的分離一旦中英文字串的編碼獲得統一，那麼對它們進行分裂就是很簡單的事情了。首先要為中文字串與英文字串分別准備一個收集器，使用兩個空的字串對象即可，譬如 zh_gather 與 en_gather；然後要准備一個列表對象，負責按分離次序存儲 zh_gather 與 en_gather 的值。下面這個 Python 函數接受一個中英文混合的 Unicode 字串，並返回存儲中英文子字串的列表。def split_zh_en (zh_en_str):

zh_en_group = []
zh_gather = ""
en_gather = ""
zh_status = False

for c in zh_en_str:
if not zh_status and is_zh (c):
zh_status = True
if en_gather != "":
zh_en_group.append ([mark["en"],en_gather])
en_gather = ""
elif not is_zh (c) and zh_status:
zh_status = False
if zh_gather != "":
zh_en_group.append ([mark["zh"], zh_gather])
if zh_status:
zh_gather += c
else:
en_gather += c
zh_gather = ""

if en_gather != "":
zh_en_group.append ([mark["en"],en_gather])
elif zh_gather != "":
zh_en_group.append ([mark["zh"],zh_gather])

return zh_en_group上述代碼所實現的功能細節是：對中英文混合字串 zh_en_str 的遍歷過程中進行逐字識別，若當前字元為中文，則將其添加到 zh_gather 中；若當前字元為英文，則將其添加到 en_gather 中。zh_status 表示中英文字元的切換狀態，當 zh_status 的值發生突變時，就將所收集的中文子字串或英文子字串添加到 zh_en_group 中去。
判斷字串 zh_en_str 中是否包含中文字元的條件語句中出現了一個 is_zh () 函數，它的實現如下：def is_zh (c):
x = ord (c)
# Punct & Radicals
if x >= 0x2e80 and x <= 0x33ff:
return True

# Fullwidth Latin Characters
elif x >= 0xff00 and x <= 0xffef:
return True

# CJK Unified Ideographs &
# CJK Unified Ideographs Extension A
elif x >= 0x4e00 and x <= 0x9fbb:
return True
# CJK Compatibility Ideographs
elif x >= 0xf900 and x <= 0xfad9:
return True

# CJK Unified Ideographs Extension B
elif x >= 0x20000 and x <= 0x2a6d6:
return True

# CJK Compatibility Supplement
elif x >= 0x2f800 and x <= 0x2fa1d:
return True

else:
return False這段代碼來自 jjgod 寫的 XeTeX 預處理程序。
對於分離出來的中文子字串與英文子字串，為了使用方便，在將它們存入 zh_en_group 列表時，我對它們分別做了標記，即 mark["zh"] 與 mark["en"]。mark 是一個 dict 對象，其定義如下：mark = {"en":1, "zh":2}如果要對 zh_en_group 中的英文字串或中文字串進行處理時，標記的意義在於快速判定字串是中文的，還是英文的，譬如：for str in zh_en_group:
if str[0] = mark["en"]:
do somthing
else:
do somthing

D. 如何辨認python的編碼格式是unicode

Python文件里開頭有coding:utf-8，則說明這個Python文件是Unicode編碼。
在Python3中字元串是默認使用Unicode的，python2.x則得用u來表示它是Unicode字元串，如a=u「abcdefg」。type函數可以驗證

E. python有哪幾種編碼方式

第一種：ASCII碼。是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語和其他西歐語言，它是現今最通用的單位元組編碼系統，並等同於國際標准IS/IEC
646。
由於計算機是美國人發明的，因此，最早只有127個字母被編碼到計算機李，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母A的編碼是65，小寫字母a的編碼是97，後128個稱為擴展ASCII碼。
第二種：GBK和GB2312。能在計算機中顯示中文字元是至關重要的，然而ASCII表裡一個偏旁部首都沒有，所以我們需要一個關於中文和數字對應的關系表，一個位元組只能最多表示256個字元，用處理中文顯然一個位元組是不夠的，所以我們需要採用兩個位元組來表示，所以中國制定了GB2312編碼，用來將中文編寫進去。
第三種：Unicode。因為各個國家都有一套自己的編碼，所以無法避免沖突，因此Unicode誕生了。它可以把所有語言都統一到一套編碼里，這樣就不會存在亂碼問題了，現代操作系統和大多數編程語言都直接支持Unicode。
第四種：UFT-8。基於節約的原則，出現了把Unicode編碼轉化為可變長編碼的UTF-8編碼。而UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成一個位元組，漢字通常是3個位元組，只有很生僻的字元才會被編碼成4-6個位元組，如果你要傳輸的文本包含大量英文字元，用UTF-8編碼就能節省空間。

F. python 怎麼查看當前字元串的編碼格式

查看當前字元串的編碼格式的代碼為：Type "now", "right", "credits" or "license" for more information.

G. python程序有哪些編碼規范

編碼格式聲明
通常，編碼格式聲明是必需的。如果 python 源碼文件沒有聲明編碼格式，python 解釋器會默認使用 ASCII 編碼，一旦源碼文件包含非ASCII編碼的字元，python 解釋器就會報錯。以 UTF-8 為例，以下兩種編碼格式聲明都是合乎規則的。
縮進
統一使用 4 個空格進行縮進。絕對不要用tab, 也不要tab和空格混用。對於行連接的情況，我一般使用4空格的懸掛式縮進。例如：
引號
自然語言使用雙引號
機器標識使用單引號
正則表達式使用雙引號
空行
編碼格式聲明、模塊導入、常量和全局變數聲明、頂級定義和執行代碼之間空兩行
頂級定義之間空兩行，方法定義之間空一行
在函數或方法內部，可以在必要的地方空一行以增強節奏感，但應避免連續空行
導入模塊
導入總應該放在文件頂部，位於模塊注釋和文檔字元串之後，模塊全局變數和常量之前。導入應該按照從最通用到最不通用的順序分組，分組之間空一行
標准庫導入
第三方庫導入
應用程序指定導入
命名規范
模塊盡量使用小寫命名，首字母保持小寫，盡量不要用下劃線
類名使用駝峰(CamelCase)命名風格，首字母大寫，私有類可用一個下劃線開頭
函數名一律小寫，如有多個單詞，用下劃線隔開
私有函數可用一個下劃線開頭
變數名盡量小寫, 如有多個單詞，用下劃線隔開
常量採用全大寫，如有多個單詞，使用下劃線隔開

H. python 判斷一個字元串是什麼編碼

字元串的編碼，有很多種如utf-8，gb2312，gbk，gb18030，bz2，zlib，big5，bzse64 python 對編碼的處理有兩個方法，decode()和 encode()方法 a = '你好'b = 'python'print a.decode('utf-8').encode('gbk')##decode方法把字元串轉換為unicode對象，然後通過encode方法轉換為指定的編碼字元串對象print b.decode('utf-8')##decode方法把字元串轉換為unicode對象所以要讓python（或者說機器）來識別字元串的編碼，是一件很困難的事。編碼就是漢字和整數之間的對應，同一個整數，可以在不同的編碼中，都有對應的漢字。比如下面的例子，比特流'\xe6\xb0\xb4\xe5\xa3\xb6'在四種編碼中都有對應的漢字，但只有在utf-8編碼下，它對應的漢字才有意義。我們可以一眼看出這點，可是要讓計算機做到這點，就很難了。 >>> s = '水壺'>>> s18: '\xe6\xb0\xb4\xe5\xa3\xb6'>>> print unicode(s, 'big5')瘞游ㄥ>>> print unicode(s, 'gbk')姘村6>>> print unicode(s, 'gb2312')姘村6>>> print unicode(s, 'utf-8')水壺

I. python 檢查txt是否有亂碼

你首先應該知道亂碼的產生的原因。
1，有可能該文本本來就是二進制，而不是可見字元。
2，有可能是沒有使用正確的字元集對文本進行解碼，比如文本使用的是gbk，但是你用utf8去打開文件，那肯定會有亂碼。但是你如果用gbk打開，那這個文件是沒有亂碼的。這算有亂碼，還是沒亂碼？
3，補充一下2，如果你已經用錯誤的字元集打開文本了，然後打開後，你把亂碼內容復制到另一個文本中，這時，第二個文本中的亂碼內容可能就真的永久是亂碼了。因為用錯誤的字元集打開文件時會進行轉換，丟失了一些信息。

不知道你要檢測哪類的亂碼。給你一些相關的建議吧，你可以搜索一下encode,decode，對於未知編碼格式的文件，打開文件時，用所有的字元集都試一遍，然後把結果輸出來，然後由人來判斷哪個字元集是正確的。當然，上面的代碼要用try包起來

J. python 判斷一個字元能否用gbk和utf8編碼

使用chardet庫。它會去猜測文本文件的編碼，並返回形如：
編碼類型：utf-8
置信度：0.9
這樣的結果，也就是說chardet斷定該文件有90%的可能性是utf-8編碼的。
不過chardet的缺陷就是，它不能完全100%確定文件的編碼類型。
目前我的做法是，如果置信度超過0.95，那麼就認定chardet的判斷結果是正確的。否則，再加上一些人機交互操作進行判斷。

目前，chardet庫官網提供的版本只適用於Python 2，如果您使用的是Python 3.x，我可以另外上傳一個。

閱讀全文

熱點內容

谷能壓縮機發布：2025-01-13 15:44:30 瀏覽：412

電腦電腦直連通訊ftp 發布：2025-01-13 15:38:03 瀏覽：717

nvm存儲發布：2025-01-13 15:36:19 瀏覽：552

京東架構師緩存經驗發布：2025-01-13 15:33:00 瀏覽：726

android圖片顏色發布：2025-01-13 15:26:09 瀏覽：268

國家稅務總局電腦伺服器發布：2025-01-13 15:10:24 瀏覽：596

金立老款機的開機密碼是多少發布：2025-01-13 15:04:45 瀏覽：456

湖南網上辦稅初始密碼多少發布：2025-01-13 15:02:49 瀏覽：417

怎麼使用筆記本連接伺服器發布：2025-01-13 15:02:48 瀏覽：705

長城cs75plus選哪個配置發布：2025-01-13 14:54:05 瀏覽：22

python判斷編碼格式

與python判斷編碼格式相關的資訊