python文本處理

發布時間: 2022-06-20 14:37:54

Ⅰ 用 python 可以來做什麼

Web 和 Internet開發；科學計算和統計；人工智慧；桌面界面開發；軟體開發；後端開發；網路介面：能方便進行系統維護和管理，Linux下標志性語言之一，是很多系統管理員理想的編程工具。

Python的設計目標之一是讓代碼具備高度的可閱讀性。它設計時盡量使用其它語言經常使用的標點符號和英文單字，讓代碼看起來整潔美觀。它不像其他的靜態語言如C、Pascal那樣需要重復書寫聲明語句，也不像它們的語法那樣經常有特殊情況和意外。

Python標准庫的主要功能有：

1、文本處理，包含文本格式化、正則表達式匹配、文本差異計算與合並、Unicode支持，二進制數據處理等功能

2、文件處理，包含文件操作、創建臨時文件、文件壓縮與歸檔、操作配置文件等功能

3、操作系統功能，包含線程與進程支持、IO復用、日期與時間處理、調用系統函數、寫日記(logging)等功能

4、網路通信，包含網路套接字，SSL加密通信、非同步網路通信等功能

5、網路協議，支持HTTP，FTP，SMTP，POP，IMAP，NNTP，XMLRPC等多種網路協議，並提供了編寫網路伺服器的框架

6、W3C格式支持，包含HTML，SGML，XML的處理

7、其它功能，包括國際化支持、數學運算、HASH、Tkinter等

Ⅱ python 處理文本，格式化文本~

#coding=utf-8
records=[]
record={}
withopen("data.txt")asf:
whileTrue:
line=f.readline()
ifnotline:
iflen(record)!=0:records.append(record)
break
field=line[line.find(":")+1:].strip()
ifline.startswith("ScopeId"):
iflen(record)!=0:records.append(record)
record={}
record["ScopeId"]=field
elifline.startswith("Name"):
record["Name"]=field
elifline.startswith("Free"):
record["Free"]=field
elifline.startswith("InUse"):
record["InUse"]=field
elifline.startswith("PercentageInUse"):
record["PercentageInUse"]=field
#設置預設項
forrinrecords:
r.setdefault("InUse",0)
r.setdefault("PercentageInUse",0)
r.setdefault("Name","")
r.setdefault("Free",0)

printrecords

Ⅲ python文本處理問題

請把文件放到網路網盤，便於大家測試。

Ⅳ python 文本文件數據處理

分隔日誌文件存為小文件
#coding:utf-8
#file: FileSplit.py
import os,os.path,time
def FileSplit(sourceFile, targetFolder):
sFile = open(sourceFile, 'r')
number = 100000 #每個小文件中保存100000條數據
dataLine = sFile.readline()
tempData = [] #緩存列表
fileNum = 1
if not os.path.isdir(targetFolder): #如果目標目錄不存在，則創建
os.mkdir(targetFolder)
while dataLine: #有數據
for row in range(number):
tempData.append(dataLine) #將一行數據添加到列表中
dataLine = sFile.readline()
if not dataLine :
break
tFilename = os.path.join(targetFolder,os.path.split(sourceFile)[1] + str(fileNum) + ".txt")
tFile = open(tFilename, 'a+') #創建小文件
tFile.writelines(tempData) #將列表保存到文件中
tFile.close()
tempData = [] #清空緩存列表
print(tFilename + " 創建於: " + str(time.ctime()))
fileNum += 1 #文件編號
sFile.close()
if __name__ == "__main__" :
FileSplit("access.log","access")

分類匯總小文件：

#coding:utf-8

#file: Map.py

import os,os.path,re

def Map(sourceFile, targetFolder):

sFile = open(sourceFile, 'r')

dataLine = sFile.readline()

tempData = {} #緩存列表

if not os.path.isdir(targetFolder): #如果目標目錄不存在，則創建

os.mkdir(targetFolder)

while dataLine: #有數據

p_re = re.compile(r'(GET|POST)s(.*?)sHTTP/1.[01]',re.IGNORECASE) #用正則表達式解析數據

match = p_re.findall(dataLine)

if match:

visitUrl = match[0][1]

if visitUrl in tempData:

tempData[visitUrl] += 1

else:

tempData[visitUrl] = 1

dataLine = sFile.readline() #讀入下一行數據

sFile.close()

tList = []

for key,value in sorted(tempData.items(),key = lambda k:k[1],reverse = True):

tList.append(key + " " + str(value) + ' ')

tFilename = os.path.join(targetFolder,os.path.split(sourceFile)[1] + "_map.txt")

tFile = open(tFilename, 'a+') #創建小文件

tFile.writelines(tList) #將列表保存到文件中

tFile.close()

if __name__ == "__main__" :

Map("access\access.log1.txt","access")

Map("access\access.log2.txt","access")

Map("access\access.log3.txt","access")

3. 再次將多個文件分類匯總為一個文件。

#coding:utf-8

#file: Rece.py

import os,os.path,re

def Rece(sourceFolder, targetFile):

tempData = {} #緩存列表

p_re = re.compile(r'(.*?)(d{1,}$)',re.IGNORECASE) #用正則表達式解析數據

for root,dirs,files in os.walk(sourceFolder):

for fil in files:

if fil.endswith('_map.txt'): #是rece文件

sFile = open(os.path.abspath(os.path.join(root,fil)), 'r')

dataLine = sFile.readline()

while dataLine: #有數據

subdata = p_re.findall(dataLine) #用空格分割數據

#print(subdata[0][0]," ",subdata[0][1])

if subdata[0][0] in tempData:

tempData[subdata[0][0]] += int(subdata[0][1])

else:

tempData[subdata[0][0]] = int(subdata[0][1])

dataLine = sFile.readline() #讀入下一行數據

sFile.close()

tList = []

for key,value in sorted(tempData.items(),key = lambda k:k[1],reverse = True):

tList.append(key + " " + str(value) + ' ')

tFilename = os.path.join(sourceFolder,targetFile + "_rece.txt")

tFile = open(tFilename, 'a+') #創建小文件

tFile.writelines(tList) #將列表保存到文件中

tFile.close()

if __name__ == "__main__" :

Rece("access","access")

Ⅳ python具體在文本處理上怎麼用

在諸多軟體壓縮包中或是項目壓縮包中都會存在一個readme.txt文件，其中的內容無非是對軟體的簡單介紹和注意事項。但是在該文本文件中，內容沒有分段分行，是非常冗雜地混在一起。當然處理手段多種多樣，而我正好嘗試利用Python解決這個問題。另外，這些內容或許對將來爬蟲爬下的內容進行處理也是有些幫助的，只不過面對的混亂和處理需求不同而已。
這里的思路很簡單，打開一個文本文檔，對其中具有兩個及兩個以上的空格進行處理，即產生換行，另外出現很多的『=』和『>>>』也進行處理。這里我嘗試處理的是easyGUI文件夾中的read.txt,該文件我復制在了D盤的根目錄下。具體的實現代碼如下：
def save_file(lister):#將傳入的列表保存在新建文件中 new_file = open('new_file','w')#創建並打開文件，文件可寫 new_file.writelines(lister)#將列表lister中的內容逐行列印 new_file.close()#關閉文件，且緩存區中的內容保存至該文件中def split_file(filename):#分割原始文件 f = open(filename)#打開該原始文件，默認該文件不可修改 lister = []#初始化一個空列表 for each_line in f: if each_line[:6] != '======' and each_line[:3] != '>>>': #當連續出現六個『=』或連續三個『>』時，列印一個換行符，實際體現在else中 each_line.split(' ',1)#當出現兩個空格時，分割一次，並在下一行代碼中以一行的形式保存在列表中 lister.append(each_line) else:
lister.append('\n')

save_file(lister)
f.close()

split_file('D:\\README.txt')
代碼給出了詳細的注釋。其中得到的新的名為「new_file」的文件保存在默認的Python項目的目錄下。當然，可以通過chdir()更改工作目錄，使得文件創建在自己指定的位置。

Ⅵ python對文本文件的讀有哪些方法,寫有哪些方法

1 文件讀取全文本操作
在一定場景下我們需要把文本全部內容讀取出來，進行處理。python提供三種函數讀取文件，分別是read readline readlines，
read()：讀取文件的全部內容，加上參數可以指定讀取的字元。
readline()：讀取文件的一行。
readlines()：讀取文件的所有行到內存中。
不同場景下我們可以選擇不同函數對文件進行讀取。
1.1 方法一
file_name = input("請輸入你要打開的文件的完整路徑及名稱")
file= open(file_name, "r")
txt=file.read()
# 全文本的處理
file.close()
使用read函數將文件中的內容全部讀取，放在字元串變數txt中。這樣操作適合於文本較小，處理簡單的情況，當文件較大時，這種方式處理時不合適的。一次性讀取較大的文件到內存中，會耗費較多的時間和資源。這時候分批處理效果更好。
1.2 方法二
file_name = input("請輸入你要打開的文件的完整路徑及名稱")
file= open(file_name, "r")
txt= file.read(4)
# 文本的處理while txt != ""txt= file.read(4)
# 批量文本處理
file.close()
這種方法適合於分批處理文本信息，每次批量讀入，批量處理，不會對內存造成較大的壓力。
1.3 方法三
file_name = input("請輸入你要打開的文件的完整路徑及名稱")
file= open(file_name, "r")for line infile.readlines():
# 處理每一行數據
file.close()
這種處理方式適合處理以行為分割特點的文本，並且文本較小，因為這種處理方式需要一次性把文件所有內容讀取到內存中。
1.4 方法四
file_name = input("請輸入你要打開的文件的完整路徑及名稱")
file= open(file_name, "r") # 這里的file時文件句柄for line infile:
# 處理每一行數據
file.close()
這種方式和方法三中的區別是分行讀入，逐行處理，不會一次性把文件所有內容都讀入到內存中，對一些大文件的處理是很有效的。
2 文件寫入文本操作
文件寫入有兩種寫入函數和一種輔助支持。
write()：向文件中寫入一個字元或者位元組流
writelines()：將一個元素全為字元串的列表寫入到文件中需要注意的是，writelines寫入列表元素的時候會把列表元素的內容拼接到一起寫入，不會有換行和空格。
seek()：輔助寫入函數offset偏移量參數代表含義如下
0 - 文件開頭
1 - 當前位置
2 - 文件結尾
2.1 方法一
file_name = input("output.txt", "w+")
text= "hello world!"file_name.write(text)
file.close()
2.2 方法二
file_name = input("output.txt", "w+")
list= ["中午","早上","晚上"]
file_name.writelines(list)for line infile:
# 讀取寫入的數據，這時候發現是沒有任何內容的
file.close()
我們增加一行代碼就可以讀取到寫入的文件內容，利用seek()函數調整寫操作指針的位置，可以實現寫操作之後的正常讀取。
file_name = input("output.txt", "w+")
list= ["中午","早上","晚上"]
file_name.readlines(list)
file_name.seek(0) # 調整寫的指針到文件的開始位置for line infile:
# 讀取寫入的數據，這時候會讀出一行寫入的數據。
file.close()

Ⅶ python 文本文件處理

簡單的方法是直接做個正則表達式把文件提出來
s=open("file1.txt","rb").read()
import re
files=re.findall("(?isu)file.*?txt",s)
for f in files:
print "/root/usr/%s"%f
這樣不知道能不能滿足你的需求。

Ⅷ 如何用python進行文本預處理

#!/usr/bin/python
#print"HelloWorld"
str_seperator="=================================================================================="
timePointName=["enterOpenNextImageat",#0
"enterOpenImageat",#1
"InOpenImagesendOn_ImageRefreshat",#2
"leaveOpenImageat",#3
"leaveOpenNextImageat",#4
"enterLoadImageat",#5
"decodebeganat",#6
"enterDrawClientat",#7
"leaveDrawClientat",#8
"decodeendat",#9
"inLoadImagesendOn_ImageRefreshat",#10
"leaveloadImageat",#11
"secondenterDrawClientat",#12
"secondleaveDrawClientat"#13
]

itemNumber=0;
avgTotal=0;#13-0
avgFirstDraw=0;#8-2
avgLoadImage=0;#11-5
avgSecondDraw=0;#13-10

fobj=open("F:log.txt","r")
imageTimeSta={}
dic={}
path=""
idx=0
forlineinfobj:
idx=idx+1
ifidx==1:
line=line[3:]
else:
pass

line=line.strip()
line=line.decode("utf-8").encode("gbk")
ifline==str_seperator:
ifpath=="":
pass
else:
imageTimeSta[path]=dic
dic={}
path=""
continue

tabIndex=line.find('	')
iftabIndex==-1:
path=line
printpath
continue

tabLastIndex=line.rfind('	')
name=line[0:tabIndex]
time=int(line[tabLastIndex+1:])
ifnameindic:
dic["second"+name]=time
else:
dic[name]=time

fobj.close()
itemNumber=len(imageTimeSta)
keys=imageTimeSta.keys();
for(k,dic)inimageTimeSta.iteritems():
avgTotal+=dic[timePointName[13]]-dic[timePointName[0]];
avgFirstDraw+=dic[timePointName[8]]-dic[timePointName[2]];
avgLoadImage+=dic[timePointName[11]]-dic[timePointName[5]];
avgSecondDraw+=dic[timePointName[13]]-dic[timePointName[10]];

print'avgTotal',avgTotal/float(itemNumber)
print'avgFirstDraw',avgFirstDraw/float(itemNumber)
print'avgLoadImage',avgLoadImage/float(itemNumber)
print'avgSecondDraw',avgSecondDraw/float(itemNumber)

#printimageTimeSta

閱讀全文

熱點內容

fsb文件解壓發布：2025-03-20 12:31:34 瀏覽：135

3d源碼棋牌發布：2025-03-20 12:30:31 瀏覽：237

什麼叫伺服器訪問限制發布：2025-03-20 12:23:53 瀏覽：944

機架式伺服器如何拆裝發布：2025-03-20 12:23:53 瀏覽：22

交叉編譯器缺少庫發布：2025-03-20 12:20:12 瀏覽：715

tt語音新人簽到領皮膚腳本發布：2025-03-20 12:20:05 瀏覽：692

編程招標網發布：2025-03-20 12:19:28 瀏覽：1000

風險防控平台伺服器地址是什麼發布：2025-03-20 11:59:04 瀏覽：231

什麼為有效wifi密碼發布：2025-03-20 11:57:22 瀏覽：704

聯發科安卓哪個好發布：2025-03-20 11:56:26 瀏覽：356

python文本處理

與python文本處理相關的資訊