unicode轉strpython

發布時間: 2024-08-28 04:10:48

⑴ str在python中的含義

在Python中，str表示字元串類。

str函數是Python內置函數的一種，可以直接使用，無需調用。當我們需要將某一類型的變數或常量轉換為字元串對象時，可以使用str()函數。例如，將數字轉換為字元串、處理字元串切片等操作。str()函數使得Python編程更加便捷，可以方便地處理字元串相關操作。

在Python中，只要是被一對或三對雙引號和單引號包起來的內容都是字元串；三對引號可以定義多行字元串；也可以使用字元串的關鍵字str來定義字元串。如果和個字元串有10個字元，那麼這個字元串的取值范圍是0到9。

Python簡介

Python由荷蘭國家數學與計算機科學研究中心的吉多·范羅蘇姆於1990年代初設計，作為一門叫做ABC語言的替代品。Python提供了高效的高級數據結構，還能簡單有效地面向對象編程。

Python語法和動態類型，以及解釋型語言的本質，使它成為多數平台上寫腳本和快速開發應用的編程語言，隨著版本的不斷更新和語言新功能的添加，逐漸被用於獨立的、大型項目的開發。Python在各個編程語言中比較適合新手學習，Python解釋器易於擴展。

以上內容參考網路-str函數

⑵ 如何理解python3的unicode，以及全形半形轉換

1. unicode是一個編碼的standard，表明了字元與數字之間的映射，是可變長的。

2. 映射後的數據如何編碼為位元組？這個就是具體的編碼規則：目前最主流的是UTF-8，同樣，它也是變字長的。

python3中的str都是unicode的：「The default encoding for Python source code is UTF-8」

python3中的encode：按照encode()括弧中的參數對字元串進行編碼，就是生成bytes。

所以：

In：'中文'.encode('utf-8')
Out：b'\xe4\xb8\xad\xe6\x96\x87'

這里的b就是Byte，\x表示這個x是被轉義的，意思就是0x。又如：

In: 'abc'.encode('utf-8')

Out: b'abc'

上面的b'a'其實表示的是數字97,b'a'的意思就是字元串'a'的binary數字：

[In]:'abc'.encode('utf-8')[0]

[Out]: 97

同時可以把b'\x'進行解碼，即：
In：b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
Out：'中文'
除了encode('utf-8')外，用ord可以獲得單個utf-8字元對應的數字：

In [60]: ord('a')
Out[60]: 97
In [61]: ord('a')＃這個是全形的a
Out[61]: 65345

除了decode('utf-8')外，用chr可以獲得數字對應的utf-8字元：

In [62]: chr(97)
Out[62]: 'a'

除了unicode還有別的編碼標准嗎？有啊，比如我國的GBK，別名也叫cp936。

全形和半形之分，是指同樣一個意義的字元，顯示的大小不同．具體來說，全形和半形的編碼是兩個結果：

In [70]: "mn".encode('utf-8')
Out[70]: b'\xef\xbd\x8d\xef\xbd\x8e
[In]:"mn".encode('utf-8')

[Out]:b'mn'

它們有什麼對應關系呢？(引自這里)

轉換說明
全形半形轉換說明
有規律（不含空格）：
全形字元unicode編碼從65281~65374 （十六進制 0xFF01 ~ 0xFF5E）
半形字元unicode編碼從33~126 （十六進制 0x21~ 0x7E）
特例：
空格比較特殊，全形為 12288（0x3000），半形為 32（0x20）
除空格外，全形/半形按unicode編碼排序在順序上是對應的（半形 + 0x7e= 全形）,所以可以直接通過用+-法來處理非空格數據，對空格單獨處理。
代碼在此基礎上改動一下（將unichr改為chr即可，適應python3），即：

def strQ2B(ustring):
"""全形轉半形"""
rstring = ""
for uchar in ustring:
inside_code=ord(uchar)
if inside_code == 12288: #全形空格直接轉換
inside_code = 32
elif (inside_code >= 65281 and inside_code <= 65374): #全形字元（除空格）根據關系轉化
inside_code -= 65248
rstring += chr(inside_code)
return rstring

In [69]: strQ2B('你好python')
Out[69]: '你好python'

⑶ python輸出到文件亂碼如何解決

python代碼文件的編碼
py文件默認是ASCII編碼，中文在顯示時會做一個ASCII到系統默認編碼的轉換，這時就會出錯：SyntaxError: Non-ASCII character。需要在代碼文件的第一行或第二行添加編碼指示：
1 # coding=utf-8 ##以utf-8編碼儲存中文字元
2 print '中文'
像上面那樣直接輸入的字元串是按照代碼文件的編碼來處理的，如果用unicode編碼，有以下三種方式：
1 s1 = u'中文' #u表示用unicode編碼方式儲存信息
2 s2 = unicode('中文','gbk')
unicode是一個內置函數，第二個參數指示源字元串的編碼格式。
decode是任何字元串具有的方法，將字元串轉換成unicode格式，參數指示源字元串的編碼格式。
encode也是任何字元串具有的方法，將字元串轉換成參數指定的格式。
（2）、字元串的編碼
用 u'漢字' 構造出來的是unicode類型，不用的話構造出來是str類型
str的編碼是與系統環境相關的，一般就是sys.getfilesystemencoding()得到的值
所以從unicode轉str，要用encode方法
從str轉unicode，所以要用decode
例如：
# coding=utf-8 #默認編碼格式為utf-8
s = u'中文' #unicode編碼的文字
print s.encode('utf-8') #轉換成utf-8格式輸出
但當python中間處理非ASCII編碼時，經常會出現如下錯誤：
UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)
0x??是超出128的數字，python在默認的情況下認為語言的編碼是ascii編碼，所以無法處理其他編碼，需要設置python的默認編碼為所需要的編碼。
一個解決的方案是在代碼中添加：
import sys
reload(sys)
sys.setdefaultencoding('utf-8') （其中utf-8為你想輸出的字元編碼）
解釋：
sys.setdefaultencoding方法在python導入site.py後就刪除了(具體代碼查看site.py就可以看到)因此如果想用的話可以再重新load進入
總結：
u=u'unicode編碼文字'
g=u.encode('gbk') #轉換為gbk格式
print g #此時為亂碼，因為當前環境為utf-8,gbk編碼文字為亂碼
str=g.decode('gbk').encode('utf-8') #以gbk編碼格式讀取g（因為他就是gbk編碼的,需要事先知道它是GBK編碼）並轉換為utf-8格式輸出
print str #正常顯示中文（同文件輸出）
安全的方法：
s.decode('gbk','ignore').encode('utf-8′) #以gbk編碼讀取（當然是讀取gbk編碼格式的文字了）並忽略錯誤的編碼，轉換成utf-8編碼輸出。
推薦學習《Python教程》！

⑷ python中string和Unicode的區別

首先要弄清楚的是，在python里，string object和unicode object是兩種不同的類型。

string object是由characters組成的sequence，而unicode object是Unicode code units組成的sequence。

string里的character是有多種編碼方式的，比如單位元組的ASCII，雙位元組的GB2312等等，再比如UTF-8。很明顯要想解讀string，必需知道string里的character是用哪種編碼方式，然後才能進行。

Unicode code unit又是什麼東西呢？一個Unicode code unit是一個16-bit或者32-bit的數值，每個數值代表一個unicode符號。在python里，16-bit的unicode，對應的是ucs2編碼。32-bit對應的是ucs4編碼。是不是感覺string里character的編碼沒什麼區別？反正我現在腦子里就是這樣一個印象：在Python里，ucs2或者ucs4編碼的，我們叫做unicode object，其他編碼的我們就叫做string。

至於python里的unicode到底是ucs2還是ucs4的，可以在編譯時指定。例如Linux下，要用ucs2做unicode的編碼，可以這樣
# ./configure --enable-unicode=ucs2
# make
# make install
下載的Windows預編譯版本，一般都是ucs2的。要想知道某個python運行環境是ucs2還是ucs4，可以查看sys.maxunicde，65535就是ucs2的，另一個很大的數值就是ucs4。

下面我們看看string和unicode在python里的不同
我們先看看在簡體中文Windows 2003系統下，系統編碼是GBK
>>> a = '你好'
>>> a
'/xc4/xe3/xba/xc3'
>>> b = u'你好'
>>> b
u'/u4f60/u597d'
>>> print a
你好
>>> print b
你好
>>> a.__class__
<type 'str'>
>>> b.__class__
<type 'unicode'>
>>> len(a)
4
>>> len(b)
2

在一個系統編碼為UTF-8的Linux環境下
>>> a = '你好'
>>> a
'/xe4/xbd/xa0/xe5/xa5/xbd'
>>> b = u'你好'
>>> b
u'/u4f60/u597d'
>>> print a
你好
>>> print b
你好
>>> a.__class__
<type 'str'>
>>> b.__class__
<type 'unicode'>
>>> len(a)
6
>>> len(b)
2

如何？簡單總結一下：
1、string直接用引號來表示，unicode在引號前加一個u
2、直接輸入的string常量會用系統預設編碼方式來編碼，例如在GBK環境下，'你好'會編碼成'/xc4/xe3/xba/xc3'，而在UTF-8環境下就成了'/xe4/xbd/xa0/xe5/xa5/xbd'。
3、len(string)返回string的位元組數，len(unicode)返回的是字元數
4、很重要的一點，print unicode不會亂碼。現在我們常用的Linux、Windows系統，都是支持unicode的，版本太老的不算。比如Windows 2003支持ucs2，所以在中文Windows2003下，除了可以正常顯示預設的GBK編碼外，還可以正常顯示ucs2編碼。舉個例子，還是在中文Windows 2003的GBK環境下：
>>>a = '/xe4/xbd/xa0/xe5/xa5/xbd' # UTF-8的'你好'
>>> print a
浣犲ソ
>>> b = unicode(a, "UTF-8")
>>> b
u'/u4f60/u597d'
>>> print b
你好

應該明白了吧？

下面再說說string和unicode的相互轉換，什麼unicode()、decode()、encode()、codecs之類的。

⑸ Python如何將Unicode中文字元串轉換成 string字元串

Unicode字元串可以用多種方式編碼為普通字元串，假設unicodestring = u"Hello world"，依照所選擇的編碼(encoding)，如下：

1、#將Unicode轉換成普通的Python字元串:"編碼(encode)"。

(5)unicode轉strpython擴展閱讀：

Python轉換字元和字元串的原因：為了處理不適合用ASCII字元集表示的數據。

在以ASCII碼為中心的語言和環境中，位元組和字元被當做相同的事物。由於一個位元組只能有256個值，這些環境就受限為只支持256個字元Unicode碼，另一方面，有數萬個字元，那意謂著每個Unicode字元佔用多個位元組，因此，你需要在字元和位元組之間作出區別。

（1）UTF-8編碼能處理任何的Unicode字元。它也是與ASCII碼向後兼容的，因此一個純粹的ASCII碼文件也能被考慮為一個UTF-8文件，而且一個碰巧只使用ASCII碼字元的 UTF-8文件和擁有同樣字元的ASCII碼文件是相同的。

這個特性使得UTF-8的向後兼容性非常好,尤其使用較舊的Unix工具時。UTF-8 無疑地是在 Unix上的占優勢的編碼。它主要的弱點是對東方文字是非常低效的。

（2）UTF-16編碼在微軟的操作系統和Java環境下受到偏愛。它對西方語言是比較低效,但對於東方語言是更有效率的。一個UTF-16 的變體有時叫作UCS-2 。

（3）ISO-8859編碼系列是256個字元的ASCII碼的超集。他們不能夠支援所有的Unicode碼字元;他們只能支援一些特別的語言或語言家族。

ISO-8859-1,也既Latin-1,包括大多數的西歐和非洲語言,但是不含阿拉伯語。ISO-8859-2,也既Latin-2,包括許多東歐的語言,像是匈牙利語和波蘭語。

閱讀全文

熱點內容

為啥編程廣告發布：2025-07-04 07:30:01 瀏覽：567

資料庫備機發布：2025-07-04 07:30:00 瀏覽：530

靜態內部類java 發布：2025-07-04 07:25:45 瀏覽：232

玉林電信dns伺服器地址發布：2025-07-04 07:17:34 瀏覽：437

用鏡像壓縮發布：2025-07-04 07:17:31 瀏覽：635

lgg3如何設置鎖屏密碼發布：2025-07-04 06:41:39 瀏覽：346

sqlserver2005命令發布：2025-07-04 06:27:08 瀏覽：734

壓縮文件啥樣發布：2025-07-04 06:21:42 瀏覽：300

linux的回車換行發布：2025-07-04 06:21:39 瀏覽：134

c語言的窗口發布：2025-07-04 06:20:54 瀏覽：985

unicode轉strpython

與unicode轉strpython相關的資訊