javaorpython

發布時間: 2024-10-20 11:55:43

Ⅰ 開源爬蟲框架各有什麼優缺點

開發網路爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的？這里按照我的經驗隨便扯淡一下：上面說的爬蟲，基本可以分3類：1.分布式爬蟲：Nutch
2.java單機爬蟲：Crawler4j、WebMagic、WebCollector
3. 非JAVA單機爬蟲：scrapy
第一類：分布式爬蟲
爬蟲使用分布式，主要是解決兩個問題：
1）海量URL管理
2）網速
現在比較流行的分布式爬蟲，是Apache的Nutch。但是對於大多數用戶來說，Nutch是這幾類爬蟲里，最不好的選擇，理由如下：
1）Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說，用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新寫一個分布式爬蟲框架了。
2）Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲快。
3）Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套復雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」（parser）這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息（網頁的meta信息、text文本）。
4）用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題（hadoop的問題、hbase的問題）。
5）很多人說Nutch2有gora，可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了，這里說的持久化數據，是指將URL信息（URL管理所需要的數據）存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說，URL信息存在哪裡無所謂。
6）Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。如果想用hbase配合nutch（大多數人用nutch2就是為了用hbase），只能使用0.90版本左右的hbase，相應的就要將hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導作用，Nutch2的教程有兩個，分別是Nutch1.x和Nutch2.x，這個Nutch2.x官網上寫的是可以支持到hbase 0.94。但是實際上，這個Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。
所以，如果你不是要做搜索引擎，盡量不要選擇Nutch作為爬蟲。有些團隊就喜歡跟風，非要選擇Nutch來開發精抽取的爬蟲，其實是沖著Nutch的名氣（Nutch作者是Doug Cutting），當然最後的結果往往是項目延期完成。
如果你是要做搜索引擎，Nutch1.x是一個非常好的選擇。Nutch1.x和solr或者es配合，就可以構成一套非常強大的搜索引擎了。如果非要用Nutch2的話，建議等到Nutch2.3發布再看。目前的Nutch2是一個非常不穩定的版本。
第二類：JAVA單機爬蟲
這里把JAVA爬蟲單獨分為一類，是因為JAVA在網路爬蟲這塊的生態圈是非常完善的。相關的資料也是最全的。這里可能有爭議，我只是隨便扯淡。
其實開源網路爬蟲（框架）的開發非常簡單，難問題和復雜的問題都被以前的人解決了（比如DOM樹解析和定位、字元集檢測、海量URL去重），可以說是毫無技術含量。包括Nutch，其實Nutch的技術難點是開發hadoop，本身代碼非常簡單。網路爬蟲從某種意義來說，類似遍歷本機的文件，查找文件中的信息。沒有任何難度可言。之所以選擇開源爬蟲框架，就是為了省事。比如爬蟲的URL管理、線程池之類的模塊，誰都能做，但是要做穩定也是需要一段時間的調試和修改的。
對於爬蟲的功能來說。用戶比較關心的問題往往是：
1）爬蟲支持多線程么、爬蟲能用代理么、爬蟲會爬取重復數據么、爬蟲能爬取JS生成的信息么？
不支持多線程、不支持代理、不能過濾重復URL的，那都不叫開源爬蟲，那叫循環執行http請求。
能不能爬js生成的信息和爬蟲本身沒有太大關系。爬蟲主要是負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，往往需要通過模擬瀏覽器（htmlunit,selenium）來完成。這些模擬瀏覽器，往往需要耗費很多的時間來處理一個頁面。所以一種策略就是，使用這些爬蟲來遍歷網站，遇到需要解析的頁面，就將網頁的相關信息提交給模擬瀏覽器，來完成JS生成信息的抽取。
2）爬蟲可以爬取ajax信息么？
網頁上有一些非同步載入的數據，爬取這些數據有兩種方法：使用模擬瀏覽器（問題1中描述過了），或者分析ajax的http請求，自己生成ajax請求的url，獲取返回的數據。如果是自己生成ajax請求，使用開源爬蟲的意義在哪裡？其實是要用開源爬蟲的線程池和URL管理功能（比如斷點爬取）。
如果我已經可以生成我所需要的ajax請求（列表），如何用這些爬蟲來對這些請求進行爬取？
爬蟲往往都是設計成廣度遍歷或者深度遍歷的模式，去遍歷靜態或者動態頁面。爬取ajax信息屬於deep web（深網）的范疇，雖然大多數爬蟲都不直接支持。但是也可以通過一些方法來完成。比如WebCollector使用廣度遍歷來遍歷網站。爬蟲的第一輪爬取就是爬取種子集合（seeds）中的所有url。簡單來說，就是將生成的ajax請求作為種子，放入爬蟲。用爬蟲對這些種子，進行深度為1的廣度遍歷（默認就是廣度遍歷）。
3）爬蟲怎麼爬取要登陸的網站？
這些開源爬蟲都支持在爬取時指定cookies，模擬登陸主要是靠cookies。至於cookies怎麼獲取，不是爬蟲管的事情。你可以手動獲取、用http請求模擬登陸或者用模擬瀏覽器自動登陸獲取cookie。
4）爬蟲怎麼抽取網頁的信息？
開源爬蟲一般都會集成網頁抽取工具。主要支持兩種規范：CSS SELECTOR和XPATH。至於哪個好，這里不評價。
5）爬蟲怎麼保存網頁的信息？
有一些爬蟲，自帶一個模塊負責持久化。比如webmagic，有一個模塊叫pipeline。通過簡單地配置，可以將爬蟲抽取到的信息，持久化到文件、資料庫等。還有一些爬蟲，並沒有直接給用戶提供數據持久化的模塊。比如crawler4j和webcollector。讓用戶自己在網頁處理模塊中添加提交資料庫的操作。至於使用pipeline這種模塊好不好，就和操作資料庫使用ORM好不好這個問題類似，取決於你的業務。
6）爬蟲被網站封了怎麼辦？
爬蟲被網站封了，一般用多代理（隨機代理）就可以解決。但是這些開源爬蟲一般沒有直接支持隨機代理的切換。所以用戶往往都需要自己將獲取的代理，放到一個全局數組中，自己寫一個代理隨機獲取（從數組中）的代碼。
7）網頁可以調用爬蟲么？
爬蟲的調用是在Web的服務端調用的，平時怎麼用就怎麼用，這些爬蟲都可以使用。
8）爬蟲速度怎麼樣？
單機開源爬蟲的速度，基本都可以講本機的網速用到極限。爬蟲的速度慢，往往是因為用戶把線程數開少了、網速慢，或者在數據持久化時，和資料庫的交互速度慢。而這些東西，往往都是用戶的機器和二次開發的代碼決定的。這些開源爬蟲的速度，都很可以。
9）明明代碼寫對了，爬不到數據，是不是爬蟲有問題，換個爬蟲能解決么？
如果代碼寫對了，又爬不到數據，換其他爬蟲也是一樣爬不到。遇到這種情況，要麼是網站把你封了，要麼是你爬的數據是javascript生成的。爬不到數據通過換爬蟲是不能解決的。
10）哪個爬蟲可以判斷網站是否爬完、那個爬蟲可以根據主題進行爬取？
爬蟲無法判斷網站是否爬完，只能盡可能覆蓋。
至於根據主題爬取，爬蟲之後把內容爬下來才知道是什麼主題。所以一般都是整個爬下來，然後再去篩選內容。如果嫌爬的太泛，可以通過限制URL正則等方式，來縮小一下范圍。
11）哪個爬蟲的設計模式和構架比較好？
設計模式純屬扯淡。說軟體設計模式好的，都是軟體開發完，然後總結出幾個設計模式。設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。
至於構架，開源爬蟲目前主要是細節的數據結構的設計，比如爬取線程池、任務隊列，這些大家都能控制好。爬蟲的業務太簡單，談不上什麼構架。
所以對於JAVA開源爬蟲，我覺得，隨便找一個用的順手的就可以。如果業務復雜，拿哪個爬蟲來，都是要經過復雜的二次開發，才可以滿足需求。
第三類：非JAVA單機爬蟲
在非JAVA語言編寫的爬蟲中，有很多優秀的爬蟲。這里單獨提取出來作為一類，並不是針對爬蟲本身的質量進行討論，而是針對larbin、scrapy這類爬蟲，對開發成本的影響。
先說python爬蟲，python可以用30行代碼，完成JAVA 50行代碼乾的任務。python寫代碼的確快，但是在調試代碼的階段，python代碼的調試往往會耗費遠遠多於編碼階段省下的時間。使用python開發，要保證程序的正確性和穩定性，就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不復雜，使用scrapy這種爬蟲也是蠻不錯的，可以輕松完成爬取任務。
對於C++爬蟲來說，學習成本會比較大。而且不能只計算一個人的學習成本，如果軟體需要團隊開發或者交接，那就是很多人的學習成本了。軟體的調試也不是那麼容易。
還有一些ruby、php的爬蟲，這里不多評價。的確有一些非常小型的數據採集任務，用ruby或者php很方便。但是選擇這些語言的開源爬蟲，一方面要調研一下相關的生態圈，還有就是，這些開源爬蟲可能會出一些你搜不到的BUG（用的人少、資料也少）
End.

Ⅱ PHP開發人員的Python基礎知識

PHP（外文名:PHP: Hypertext Preprocessor，中文名：「超文本預處理器」）是一種通用開源腳本語言。語法吸收了C語言、Java和Perl的特點，利於學習，使用廣泛，主要適用於Web開發領域。那麼PHP開發人員的Python基礎知識都有哪些呢？以下僅供參考！

常用縮略語

Ajax：非同步 JavaScript + XML

XML：可擴展標記語言（Extensible Markup Language）

什麼是 Python？

Python 的定義是一種「通用的高級編程語言」。它以簡潔性和易用性著稱，而且是少有的幾種對空格和縮進有要求的語言之一。Python 的主要作者 Guido Van Rossum 在社區中仍然非常活躍，並且被人們戲稱為仁慈的領導。

Python 的靈活性和緊湊性是值得稱贊的。它支持面向對象編程、結構化編程、面向方面編程以及函數編程等。Python 採用小內核設計，但具備大量擴展庫，從而確保了該語言的緊湊性和靈活性。

從語法的角度來說，您會發現 Python 的簡潔性異常突出——幾乎可以說是一種純粹的境界。PHP 開發人員要麼會對這種方法的語法深深陶醉，要麼會發現它的局限性。這主要取決於您自己的見解。Python 社區推動這種美感的態度是非常明確的，它們更加重視的是美學和簡潔性，而不是靈動的技巧。已形成 Perl 傳統（「可以通過多種方式實現它」）的 PHP 開發人員（像我自己）將面對一種完全相反的哲學（「應該只有一種方法可以實現它」）。

事實上，該社區定義了一種特有的代碼風格術語，即 Python 化（pythonic）。您可以說您的代碼是 Python 化，這是對 Python 術語的良好運用，同時還可展現語言的自然特性。本文並不打算成為 Pythonista（或 Pythoneer），但如果您想繼續 Python 之路，那麼千萬不能錯過本文的知識點。就像 PHP 有自己的編程風格，Perl 有自己的概念方法，學習 Python 語言必然也需要開始用該語言來思考問題。

另一個要點：在撰寫本文時，Python 的最新版本是 V3.0，但本文主要側重於 Python V2.6。Python V3.0 並不能向後兼容之前的版本，而且 V2.6 是使用最為廣泛的版本。當然，您可以根據需求使用自己喜好的版本。

Python 與 PHP 有何不同？

一般來說，PHP 是一種 Web 開發語言。是的，它提供了一個命令行介面，並且甚至可用於開發嵌入式應用程序，但它主要還是用於 Web 開發。相反，Python 是一種腳本語言，並且也可用於 Web 開發。從這方面來說，我知道我會這樣說——它比 PHP 更加接近 Perl。（當然，在其他方面，它們之間並無實際不同。我們繼續往下看。）

PHP 的語法中充斥著美元符號（$）和大括弧（{}），而 Python 相對來說則更加簡潔和干凈。PHP 支持 switch 和 do...while 結構，而 Python 則不盡然。PHP 使用三元操作符（foo?bar:baz）和冗長的函數名列表，而命名約定更是無所不有；相反，您會發現 Python 要簡潔多了。PHP 的數組類型可同時支持簡單列表和字典或散列，但 Python 卻將這兩者分開。

Python 同時使用可變性和不變性的概念：舉例來說，tuple 就是一個不可變的列表。您可以創建 tuple，但在創建之後不能修改它。這一概念可能要花些時間來熟悉，但對於避免錯誤極為有效。當然，更改 tuple 的惟一方法是復制它。因此，如果您發現對不可變對象執行了大量更改，則應該重新考量自己的方法。

之前提到，Python 中的縮進是有含義的：您在剛開始學習該語言時會對此非常難以適應。您還可以創建使用關鍵字作為參數的函數和方法——這與 PHP 中的標准位置參數迥然不同。面向對象的追隨者會對 Python 中真正的面向對象思想感到欣喜，當然還包括它的「一級」類和函數。如果您使用非英語語言，則會鍾愛於 Python 強大的.國際化和 Unicode 支持。您還會喜歡 Python 的多線程功能；這也是最開始令我為之著迷的特性之一。

綜上所述，PHP 和 Python 在許多方面都彼此類似。您可以方便地創建變數、循環，使用條件和創建函數。您甚至可以輕松地創建可重用的模塊。兩種語言的用戶社區都充滿活力和激情。PHP 的用戶群體更加龐大，但這主要歸因於它在託管伺服器及 Web 專注性方面的優勢和普及性。

很好簡要介紹到此為止。我們開始探索之旅。

使用 Python

清單 1 展示了一個基本的 Python 腳本。

清單 1. 一個簡單的 Python 腳本

for i in range(20):

print(i)

清單 2 展示了腳本的必然結果。

清單 2. 清單 1 的結果

在深入探索之前，我們先來了解一些預備知識。首先從變數開始。

變數

可以看到，表示變數並不需要任何特殊的字元。變數 i 就是一個純粹的 i——毫無特殊之處。表示代碼塊或語言結束也不需要任何特殊字元（比如分號和括弧）；只需要在 for 行使用一個簡單的冒號即可（:）。還需注意，縮進會向 Python 指示哪些內容屬於 for 循環。舉例來說，清單 3 中的代碼會在循環中為各編號輸出一個說明。

清單 3. 為各循環添加一條語句

for i in range(20):

print(i)

print('all done?')

相反，清單 4 中的代碼會在循環結束處輸出一條說明。

清單 4. 在循環後添加一條語句

for i in range(20):

print(i)

print('all done!')

現在，我第一次看到這樣的代碼時，我認為這完全是無稽之談。什麼？讓我相信換行和縮進能保證代碼的結構和運行？請相信我，不用多久，您就會習慣它（但我需要承認必須到達到分號處才會結束語句的運行）。如果您與其他開發人員共同開發 Python 項目，則會發現這種可讀性的用處是多麼大了。您不再像以前那樣總是猜測「這個聰明的傢伙在這里究竟想幹些什麼？」

在 PHP，您使用 = 操作符為變數分配值（參見清單 5）。在 Python 中，您使用相同的操作符，只是需要標記或指向值。對於我來說，它就是賦值操作而已，我不需要過多擔心專門的術語。

清單 5. 創建變數

yorkie = 'Marlowe' #meet our Yorkie Marlowe!

mutt = 'Kafka' #meet our mutt Kafka

print(mutt) #prints Kafka

Python 的變數名稱約定與 PHP 類似：您在創建變數名時只能使用字母、數字和下劃線（_）。同樣，變數名的第一個字元不能是數字。Python 變數名是區分大小寫的，並且您不能使用特定的 Python 關鍵字（比如 if、else、while、def、or、and、not、in 和 is 開始符）作為變數名。這沒有什麼值得奇怪的。

Python 允許您隨意執行基於字元串的操作。清單 6 中的大多數操作應該都是您熟悉的。

清單 6. 常見的基於字元串的操作

yorkie = 'Marlowe'

mutt = 'Kafka'

ylen = len(yorkie) #length of variable yorkie

print(ylen) #prints 7

print(len(yorkie)) #does the same thing

len(yorkie) #also does the same thing, print is implicit

print(yorkie.lower()) #lower cases the string

print(yorkie.strip('aeiou')) #removes vowels from end of string

print(mutt.split('f')) #splits "Kafka" into ['Ka', 'ka']

print(mutt.count('a')) #prints 2, the number of a's in string

yorkie.replace('a','4') #replace a's with 4's

條件語句

您已經了解了如何使用 for 循環；現在，我們來討論條件語句。您會發現 Phyon 中的條件語句與 PHP 基本相同：您可以使用熟悉的 if/else型結構，如清單 7 所示。

清單 7. 一個簡單的條件測試

yorkie = 'Marlowe'

mutt = 'Kafka'

if len(yorkie) > len(mutt):

print('The yorkie wins!')

else:

print('The mutt wins!')

您還可以使用 if/elif/else（elif，等價於 PHP 中的 elseif）創建更加復雜的條件測試，如清單 8 所示。

清單 8. 一個比較復雜的條件測試

yorkie = 'Marlowe'

mutt = 'Kafka'

if len(yorkie) + len(mutt) > 15:

print('The yorkie and the mutt win!')

elif len(yorkie) + len(mutt) > 10:

print('Too close to tell!')

else:

print('Nobody wins!')

您可能會說，目前為止並沒有什麼與眾不同的地方：甚本上和想像中沒有太大區別。現在，我們來看 Python 處理列表的方式，您會發現兩種語言之間的不同之處。

列表

一種常用的列表類型是 tuple，它是不可變的。在 tuple 中載入一系列值之後，您不會更改它。Tuple 可以包含數字、字元串、變數，甚至其他 tuples。Tuples 從 0 開始建立索引，這很正常；您可以使用 -1 索引訪問最後一個項目。您還可以對 tuple 運行一些函數（請參見清單 9）。

清單 9. Tuples

items = (1, mutt, 'Honda', (1,2,3))

print items[1] #prints Kafka

print items[-1] #prints (1,2,3)

items2 = items[0:2] #items2 now contains (1, 'Kafka') thanks to slice operation

'Honda' in items #returns TRUE

len(items) #returns 4

items.index('Kafka') #returns 1, because second item matches this index location

列表與 tuple 類似，只不過它們是可變的。創建列表之後，您可以添加、刪除和更新列表中的值。列表使用方括弧，而不是圓括弧（()），如清單 10 所示。

清單 10. 列表

groceries = ['ham','spam','eggs']

len(groceries) #returns 3

print groceries[1] #prints spam

for x in groceries:

print x.upper() #prints HAM SPAM EGGS

groceries[2] = 'bacon'

groceries #list is now ['ham','spam','bacon']

groceries.append('eggs')

groceries #list is now ['ham', 'spam', 'bacon', 'eggs']

groceries.sort()

groceries #list is now ['bacon', 'eggs', 'ham', 'spam']

字典類似於關聯數組或散列；它使用鍵值對來存儲和限制信息。但它不使用方括弧和圓括弧，而是使用尖括弧。與列表類似，字典是可變的，這意味著您可以添加、刪除和更新其中的值（請參見清單 11）。

清單 11. 字典

colorvalues = {'red' : 1, 'blue' : 2, 'green' : 3, 'yellow' : 4, 'orange' : 5}

colorvalues #prints {'blue': 2, 'orange': 5, 'green': 3, 'yellow': 4, 'red': 1}

colorvalues['blue'] #prints 2

colorvalues.keys() #retrieves all keys as a list:

#['blue', 'orange', 'green', 'yellow', 'red']

colorvalues.pop('blue') #prints 2 and removes the blue key/value pair

colorvalues #after pop, we have:

#{'orange': 5, 'green': 3, 'yellow': 4, 'red': 1}

在 Python 中創建一個簡單的腳本

現在，您已經對 Python 有了一定的了解。接下來，我們將創建一個簡單的 Python 腳本。該腳本將讀取位於您的伺服器 /tmp 目錄下的 PHP 會話文件的數量，並在日誌文件中寫入摘要報告。在該腳本中，您將學習如何導入特定函數的模塊，如何使用文件，以及如何寫入日誌文件。您還將設置一系列變數來跟蹤所收集的信息。

清單 12 展示了整個腳本。打開一個編輯器，並將代碼粘貼到其中，然後在系統中將該文件保存為 tmp.py。然後，對該文件運行 chmod + x，使它成為可執行文件（假定您使用 UNIX? 系統）。

清單 12. tmp.py

#!/usr/bin/python

import os

from time import strftime

stamp = strftime("%Y-%m-%d %H:%M:%S")

logfile = '/path/to/your/logfile.log'

path = '/path/to/tmp/directory/'

files = os.listdir(path)

bytes = 0

numfiles = 0

for f in files:

if f.startswith('sess_'):

info = os.stat(path + f)

numfiles += 1

bytes += info[6]

if numfiles > 1:

title = 'files'

else:

title = 'file'

string = stamp + " -- " + str(numfiles) + " session "

+ title +", " + str(bytes) + " bytes "

file = open(logfile,"a")

file.writelines(string)

file.close()

在第一行中，您可以看到一個 hash-bang 行：它用於標識 Python 解釋器的位置。在我的系統中，它位於 /usr/bin/python。請根據系統需求調整這一行。

接下來的兩行用於導入特定的模塊，這些模塊將幫助您執行作業。考慮到腳本需要處理文件夾和文件，因此您需要導入 os 模塊，因為其中包含各種函數和方法，可幫助您列出文件、讀取文件和操作文件夾。您還需要寫入一個日誌文件，因此可以為條目添加一個時間戳 — 這就需要使用時間函數。您不需要所有時間函數，只需要導入 strftime函數即可。

在接下來的六行中，您設置了一些變數。第一個變數是 stamp，其中包含一個日期字元串。然後，您使用 strftime 函數創建了一個特定格式的時間戳 — 在本例中，時間戳的格式為 2010-01-03 12:43:03。

接下來，創建一個 logfile 變數，並在文件中添加一個實際存儲日誌文件消息的路徑（該文件不需要實際存在）。為簡單起見，我在 /logs 文件夾中放置了一個日誌文件，但您也可以將它放置在別處。同樣，path 變數包含到 /tmp 目錄的路徑。您可以使用任何路徑，只要使用斜杠作為結束即可 (/)。

接下來的三個變數也非常簡單：files 列表包含指定路徑中的所有文件和文件夾，另外還包含 bytes 和 numfiles 兩個變數。這兩個變數都設置為 0；腳本會在處理文件時遞增這些值。

完成所有這些定義之後，接下來就是腳本的核心了：一個簡單的 for 循環，用於處理文件列表中的各文件。每次運行循環時，腳本都會計算文件名；如果它以 sess_ 開頭，則腳本會對該文件運行 os.stat()，提取文件數據（比如創建時間、修改時間和位元組大小），遞增 numfiles 計數器並將該文件的位元組大小累計到總數中。

當循環完成運行後，腳本會檢查 numfiles 變數中的值是否大於 1。如果大於 1，則會將一個新的 title 變數設置為 files；否則，title 將被設置為單數形式的 file。

腳本的最後部分也非常簡單：您創建了一個 string 變數，並在該變數中添加了一行以時間戳開始的數據，並且其後還包含 numfiles（已轉換為字元串）和位元組（也已轉換為字元串）。請注意繼續字元（）；該字元可允許代碼運行到下一行。它是一個提高可讀性的小技巧。

然後，您使用 open() 函數以附加模式打開日誌文件（畢竟始終需要在該文件中添加內容），writelines() 函數會將字元串添加到日誌文件中，而 close() 函數用於關閉該文件。

現在，您已經創建了一個簡單的 Python 腳本。該腳本可用於完成許多任務，舉例來說，您可以設置一個 cron作業來每小時運行一次這個腳本，以幫助您跟蹤 24 小時內所使用的 PHP 會話的數量。您還可以使用 jQuery 或其他一些 JavaScript 框架通過 Ajax 連接這個腳本，用於為您提供日誌文件提要（如果採用這種方式，則需要使用 print命令來返回數據）。

Ⅲ 現在國內java的就業前景怎麼樣

java的就業前景還是非常好的，雖然很多人都在說java飽和了，但事實上，java運用更加廣泛，而且可以被看作是一項基礎來學。

不論學大數據、web、全棧、人工智慧、前後端，小程序都需要學java！而且當你學完java後，再學C#，python，PHP等其他語言是會有事半功倍的效果！簡單列舉下學好java可以做哪些事情。

java學好可以做：

做網站，Java開發做網站可以說是大材小用了，不過用Java做網站還是很容易的；

做管理系統，每個公司都會用到管理系統，比如OA，ERP等等，Java也可以做；

做CS程序，所謂的CS程序就是例如QQ這樣的有客戶端的程序，用Java也可以完成的；

做移動應用，我們所熟悉的Android都是依賴Java的，所以學習完Java做移動應用很吃香

做游戲，Java中也包括了游戲開發的內容，用它做游戲也是非常不錯的；

做大數據分析，大數據分析是如今比較流行的，而其中就有大量Java的內容，所以學習Java從事大數據分析是不錯的選擇。

互聯網行業目前還是最熱門的行業之一，學習IT技能之後足夠優秀是有機會進入騰訊、阿里、網易等互聯網大廠高薪就業的，發展前景非常好，普通人也可以學習。

想要系統學習，你可以考察對比一下開設有相關專業的熱門學校，好的學校擁有根據當下企業需求自主研發課程的能力，能夠在校期間取得大專或本科學歷，中博軟體學院、南京課工場、南京北大青鳥等開設相關專業的學校都是不錯的，建議實地考察對比一下。

祝你學有所成，望採納。

Ⅳ python可以做什麼

用Python可以算n的階乘，下面是n的階乘的代碼（自帶格式）。

def factorial(n):

result = n

for i in range(1,n):

result *= i

return result

def main():

print factorial(4)

if __name__ == '__main__':

main()

階乘介紹：

基斯頓·卡曼（Christian Kramp，1760～1826）於 1808 年發明的運算符號，是數學術語。

一個正整數的階乘（factorial）是所有小於及等於該數的正整數的積，並且0的階乘為1。自然數n的階乘寫作n!。1808年，基斯頓·卡曼引進這個表示法。

亦即n!=1×2×3×...×(n-1)×n。階乘亦可以遞歸方式定義：0!=1，n!=(n-1)!×n。

閱讀全文

熱點內容

腳本函數未定義發布：2025-01-12 09:39:44 瀏覽：634

頁面PHP 發布：2025-01-12 09:38:07 瀏覽：200

郵政銀行打電話登錄密碼是什麼發布：2025-01-12 09:37:27 瀏覽：563

linuxroot遠程登錄發布：2025-01-12 09:37:26 瀏覽：302

怎麼算伺服器ip 發布：2025-01-12 08:59:19 瀏覽：854

安卓與ios哪個適合做主力機發布：2025-01-12 08:54:11 瀏覽：341

微軟怎麼關閉配置更新發布：2025-01-12 08:34:23 瀏覽：316

wifi的有限的訪問許可權發布：2025-01-12 08:34:14 瀏覽：610

cftp文件重命名發布：2025-01-12 08:33:27 瀏覽：882

https的加密演算法發布：2025-01-12 08:19:15 瀏覽：654

javaorpython

與javaorpython相關的資訊