當前位置:首頁 » 編程語言 » python字元過濾

python字元過濾

發布時間: 2023-03-24 12:53:05

python如何去除字元串中不想要的字元

問題:
過濾用戶輸入中前後多餘的空白字元
『 ++++abc123--- 『
過濾某windows下編輯文本中的』\r』:
『hello world \r\n』
去掉文本中unicode組合字元,音調
"Zhào Qián Sūn Lǐ Zhōu Wú Zhèng Wáng"
如何解決以上問題?
去掉兩端字元串: strip(), rstrip(),lstrip()

123456789101112131415

#!/usr/bin/python3 s = ' -----abc123++++ ' # 刪除兩邊空字元print(s.strip()) # 刪除左邊空字元print(s.rstrip()) # 刪除右邊空字元print(s.lstrip()) # 刪除兩邊 - + 和空字元print(s.strip().strip('-+'))

刪除單個固定位置字元: 切片 + 拼接

123456

#!/usr/bin/python3 s = 'abc:123'# 字元串拼接方式去除冒號new_s = s[:3] + s[4:]print(new_s)

刪除任意位置字元同時刪除多種不同字元:replace(), re.sub()

1234567891011

#!/usr/bin/python3 # 去除字元串中相同的字元s = '\tabc\t123\tisk'print(s.replace('\t', '')) import re# 去除\r\n\t字元s = '\r\nabc\t123\nxyz'print(re.sub('[\r\n\t]', '', s))

同時刪除多種不同字元:translate() py3中為str.maketrans()做映射

1234567

#!/usr/bin/python3 s = 'abc123xyz'# a _> x, b_> y, c_> z,字元映射加密print(str.maketrans('abcxyz', 'xyzabc'))# translate把其轉換成字元串print(s.translate(str.maketrans('abcxyz', 'xyzabc')))

去掉unicode字元中音調


#!/usr/bin/python3 import sysimport unicodedatas = "Zhào Qián Sūn Lǐ Zhōu Wú Zhèng Wáng"remap = { # ord返回ascii值 ord('\t'): '', ord('\f'): '', ord('\r'): None }# 去除\t, \f, \ra = s.translate(remap)'''通過使用dict.fromkeys() 方法構造一個字典,每個Unicode 和音符作為鍵,對於的值全部為None然後使用unicodedata.normalize() 將原始輸入標准化為分解形式字元sys.maxunicode : 給出最大Unicode代碼點的值的整數,即1114111(十六進制的0x10FFFF)。unicodedata.combining:將分配給字元chr的規范組合類作為整數返回。 如果未定義組合類,則返回0。'''cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c))) #此部分建議拆分開來理解b = unicodedata.normalize('NFD', a)'''調用translate 函數刪除所有重音符'''print(b.translate(cmb_chrs))

⑵ python 正則表達式過濾特殊字元

>>> import re

>>> string = "123我adfasdf?(((q,[]"

>>> string

'123我adfasdf?(((q,[]'

>>> sub_str = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)

>>> sub_str

'123我adfasdfq'

⑶ python 怎麼過濾特殊字元

#coding:utf-8
defcolate(st="你要過濾的字元串",ch='你要過濾的特殊字元'):
return''.join(st.split(ch))
#如果要過濾多個特殊字元的話,可以多次調用這個函數

⑷ python的字元串如何按自己指定的格式進行篩選

按照你的要求編寫的Python程序如下

import re

str = "娜娜_二零零-酷我(ERFD)dgfdg國米_山地車-乘除法(ICEX)ifex憤憤然_概念人-維權(LUVD)cisnq框架內_聚合-阿文看(OMNS)cdwcgr"

regex=r'([u4e00-u9fa5]+_)'

a=re.sub(regex,r' 1',str)

print(a)

⑸ python pandas 過濾某列特殊字元求助

你自己先要確定「亂碼」的定義,例如韓文(unicode),如果你裝了韓文字體,那是可以顯橘槐旁示的,不是亂碼,但沒裝的話就是問號一堆,如果是韓文(euc-kr),在漢字系統那隻是一堆無語義的漢字……可能這個舉例扯遠了,你覺得不會有這種情況,但我只是提醒一下會有意料圓橡之外的情況

所以,你需要一個白名單,把你允許的字元unicode范圍都列出來,因為肯定不止漢字,像你列出的文件名中就有空格
另外,沒必要逐個字元檢查,直接用明陪re.sub去除白名單外的字元就可以了

⑹ python怎麼過濾字元串長度小於4的

len(s) < 4
len函數用於獲取字元串長度,因此上述表達式用於判斷字元串s的長度是否小於4

⑺ Python處理字元串必備方法

字元串是Python中基本的數據類型,幾乎在每個Python程序中都會使用到它。

▍1、Slicing

slicing切片,按照一定條件從列表或者元組中取出部分元素(比如特定范圍、索引、分割值)

▍2、****strip()

strip()方法用於移除字元串頭尾指定的字元(默認為空格或換行符)或字元序列。

在使用strip()方法時,默認去除空格或換行符,所以#號並沒有去除。

可以給strip()方法添加指定字元,如下所示。

此外當指定內容不在頭尾處時,並不會被去除。

第一個 前有個空格,所以只會去取尾部的換行符。

最後strip()方法的參數是剝離其值的所有組合,這個可以看下面這個案例。

最外層的首字元和尾字元參數值將從字元串中剝離。字元從前端移除,直到到達一個不包含在字元集中的字元串字元為止。

在尾部也會發生類似的動作。

▍3、****lstrip()

移除字元串左側指定的字元(默認為空格或換行符)或字元序列。

同樣的,可以移除左側所有包含在字元集中的字元串。

▍4、rstrip()

移除字元串右側指定的字元(默認為空格或換行符)或字元序列。

▍5、****removeprefix()

Python3.9中移除前綴的函數。

和strip()相比,並不會把字元集中的字元串進行逐個匹配。

▍6、removesuffix()

Python3.9中移除後綴的函數。

▍7、****replace()

把字元串中的內容替換成指定的內容。

▍8、****re.sub()

re是正則的表達式,sub是substitute表示替換。

re.sub則是相對復雜點的替換。

和replace()做對比,使用re.sub()進行替換操作,確實更高級點。

▍9、****split()

對字元串做分隔處理,最終的結果是一個列表。

當不指定分隔符時,默認按空格分隔。

此外,還可以指定字元串的分隔次數。

▍10、****rsplit()

從右側開始對字元串進行分隔。

▍11、****join()

string.join(seq)。以string作為分隔符,將seq中所有的元素(的字元串表示)合並為一個新的字元串。

▍12、****upper()

將字元串中的字母,全部轉換為大寫。

▍13、****lower()

將字元串中的字母,全部轉換為小寫。

▍14、capitalize()

將字元串中的首個字母轉換為大寫。

▍15、****islower()

判斷字元串中的所有字母是否都為小寫,是則返回True,否則返回False。

▍16、isupper()

判斷字元串中的所有字母是否都為大寫,是則返回True,否則返回False。

▍17、****isalpha()

如果字元串至少有一個字元並且所有字元都是字母,則返回 True,否則返回 False。

▍18、isnumeric()

如果字元串中只包含數字字元,則返回 True,否則返回 False。

▍19、isalnum()

如果字元串中至少有一個字元並且所有字元都是字母或數字,則返回True,否則返回 False。

▍20、count()

返回指定內容在字元串中出現的次數。

▍21、****find()

檢測指定內容是否包含在字元串中,如果是返回開始的索引值,否則返回-1。

此外,還可以指定開始的范圍。

▍22、rfind()

類似於find()函數,返回字元串最後一次出現的位置,如果沒有匹配項則返回 -1。

▍23、startswith()

檢查字元串是否是以指定內容開頭,是則返回 True,否則返回 False。

**
**

▍24、****endswith()

檢查字元串是否是以指定內容結束,是則返回 True,否則返回 False。

▍25、****partition()

string.partition(str),有點像find()和split()的結合體。

從str出現的第一個位置起,把字元串string分成一個3 元素的元組(string_pre_str,str,string_post_str),如果string中不包含str則 string_pre_str==string。

▍26、center()

返回一個原字元串居中,並使用空格填充至長度width的新字元串。

▍27、ljust()

返回一個原字元串左對齊,並使用空格填充至長度width的新字元串。

▍28、rjust()

返回一個原字元串右對齊,並使用空格填充至長度width的新字元串。

▍29、f-Strings

f-string是格式化字元串的新語法。

與其他格式化方式相比,它們不僅更易讀,更簡潔,不易出錯,而且速度更快!

▍30、swapcase()

翻轉字元串中的字母大小寫。

▍31、zfill()

string.zfill(width)。

返回長度為width的字元串,原字元串string右對齊,前面填充0。

參考文獻: https://mp.weixin.qq.com/s/9cuO-KL3g9ldqRGGZBVnjw

⑻ Python:如何過濾特殊字元和亂碼的字元

如果是從Html文本弄來的,那直接download Html的源代碼,然後直接替換其中的<div class="">這里是隨機字元串</div>

Python裡面使用xml.minidom就OK

⑼ python 正則或者BeautifulSoup 把帶http的字元串過濾掉,怎麼實現,謝謝

可以利用字元串的操作函數,使用條件判斷該字元串中是否存在'http'

⑽ python 字元串過濾英文標點符號

import unicodedata
import sys

tbl = dict.fromkeys(i for i in xrange(sys.maxunicode)
if unicodedata.category(unichr(i)).startswith('P'))
def remove_punctuation(text):
return text.translate(tbl)

import regex as re

def remove_punctuation(text):
return re.sub(ur"\p{P}+", "", text)

熱點內容
SLSB演算法 發布:2024-11-05 01:49:44 瀏覽:130
比安卓頭子短一點的是什麼數據線 發布:2024-11-05 01:43:53 瀏覽:534
c語言多選 發布:2024-11-05 01:41:31 瀏覽:302
c語言判斷一個數是否是素數 發布:2024-11-05 01:36:32 瀏覽:833
虛擬頁式存儲 發布:2024-11-05 01:28:01 瀏覽:214
java比較炫的小程序 發布:2024-11-05 01:27:17 瀏覽:788
如何在ftp上開放執行許可權 發布:2024-11-05 01:22:51 瀏覽:729
編程半徑為5 發布:2024-11-05 01:22:43 瀏覽:290
linuxnetstatan命令 發布:2024-11-05 00:54:49 瀏覽:829
紅米4a配置如何 發布:2024-11-05 00:53:27 瀏覽:894