pythonbs4下載
1. python使用beautiful soap時查到一段代碼,不太了解,求大神解釋
您好,如果你用的是新版的Den或ubuntu,那麼可以通過系統的軟體包管理來安裝:
$ apt-get install Python-bs4
Beautiful Soup 4 通過PyPi發布,所以如果你無法使用系統包管理安裝,那麼也可以通過 easy_install 或 pip 來安裝.包的名字是beautifulsoup4 ,這個包兼容Python2和Python3.
$ easy_install beautifulsoup4
$ pip install beautifulsoup4
(在PyPi中還有一個名字是 BeautifulSoup 的包,但那可能不是你想要的,那是 Beautiful Soup3 的發布版本,因為很多項目還在使用BS3, 所以 BeautifulSoup 包依然有效.但是如果你在編寫新項目,那麼你應該安裝的 beautifulsoup4 )
如果你沒有安裝 easy_install 或 pip ,那你也可以 下載BS4的源碼 ,然後通過setup.py來安裝.
$ Python setup.py install
如果上述安裝方法都行不通,Beautiful Soup的發布協議允許你將BS4的代碼打包在你的項目中,這樣無須安裝即可使用.
作者在Python2.7和Python3.2的版本下開發Beautiful Soup, 理論上Beautiful Soup應該在所有當前的Python版本中正常工作。
2. python bs4怎麼抓豆瓣評論做詞頻表
根據詞頻生成詞雲。
該程序進行爬取豆瓣熱評,將爬取的評論(json文件)保存到與該python文件同一級目錄下注意需要下載這幾個庫:requests、lxml、json、time,該程序將json中的數據進行處理,提取重要信息,並用wordcloud庫製作詞雲圖片,同樣保存到與該python文件同一級目錄下注意需要下載這幾個庫:jieba、wordcloud、json。
Python是一種跨平台的計算機程序設計語言是一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言最初被設計用於編寫自動化腳本(shell),隨著版本的不斷更新和語言新功能的添加,越多被用於獨立的、大型項目的開發。
3. python3如何安裝bs4
在python官網找到beautifulsoup模塊的下載頁面,點擊"downloap"將該模塊的安裝包下載到本地。
相關推薦:《Python教程》
將該安裝包解壓,然後在打開cmd,並通過cmd進入到該安裝包解壓後的文件夾目錄下。
在該文件目錄下輸入"python install setup.py",進行beautifulsoup4模塊的安裝,當安裝完成後會看到有"Finished"字樣。
安裝完成後,在cmd中運行Python,然後輸入"from bs4 import BeautifulSoup" 導入該模塊,如果成功安裝的話將沒有任何列印信息,否則會有相應的錯誤信息列印。
直接通過pip安裝
打開cmd,然後在cmd中輸入命令「pip install beautifulsoup4」,就可以成功安裝beautifulsoup4,不過該版本不一定會是4.4.1,版本會是當前python庫中的最新版本。
4. 怎樣安裝python的bs4包
使用pip安裝,進入python安裝目錄的script目錄下。然後使用命令pip install 包名,就可以了
5. python bs4 是個什麼
這是一個模塊,要通過如下語句安裝:
pip install bs4
6. python爬蟲時,bs4無法讀取網頁標簽中的文本
稍微說一下背景,當時我想研究蛋白質與小分子的復合物在空間三維結構上的一些規律,首先得有數據啊,數據從哪裡來?就是從一個涵蓋所有已經解析三維結構的蛋白質-小分子復合物的資料庫裡面下載。這時候,手動一個個去下顯然是不可取的,我們需要寫個腳本,能從特定的網站選擇性得批量下載需要的信息。python是不錯的選擇。
import urllib #python中用於獲取網站的模塊
import urllib2, cookielib
有些網站訪問時需要cookie的,python處理cookie代碼如下:
cj = ***.cookiejar ( )
opener = ***.build_opener( ***.httpcookieprocessor(cj) )
***.install_opener (opener)
通常我們需要在網站中搜索得到我們需要的信息,這里分為二種情況:
1. 第一種,直接改變網址就可以得到你想要搜索的頁面:
def GetWebPage( x ): #我們定義一個獲取頁面的函數,x 是用於呈遞你在頁面中搜索的內容的參數
url = 'http://xxxxx/***.cgi?&' + 『你想要搜索的參數』 # 結合自己頁面情況適當修改
page = ***.urlopen(url)
pageContent = ***.read( )
return pageContent #返回的是HTML格式的頁面信息
2.第二種,你需要用到post方法,將你搜索的內容放在postdata裡面,然後返回你需要的頁面
def GetWebPage( x ): #我們定義一個獲取頁面的函數,x 是用於呈遞你在頁面中搜索的內容的參數
url = 'http://xxxxx/xxx' #這個網址是你進入搜索界面的網址
postData = ***.urlencode( { 各種『post』參數輸入 } ) #這裡面的post參數輸入需要自己去查
req= ***.request (url, postData)
pageContent = ***.urlopen (req). read( )
return pageContent #返回的是HTML格式的頁面信息
在獲取了我們需要的網頁信息之後,我們需要從獲得的網頁中進一步獲取我們需要的信息,這里我推薦使用 BeautifulSoup 這個模塊, python自帶的沒有,可以自行網路谷歌下載安裝。 BeautifulSoup 翻譯就是『美味的湯』,你需要做的是從一鍋湯裡面找到你喜歡吃的東西。
import re # 正則表達式,用於匹配字元
from bs4 import BeautifulSoup # 導入BeautifulSoup 模塊
soup = BeautifulSoup(pageContent) #pageContent就是上面我們搜索得到的頁面
soup就是 HTML 中所有的標簽(tag)BeautifulSoup處理格式化後的字元串,一個標準的tag形式為:
hwkobe24
通過一些過濾方法,我們可以從soup中獲取我們需要的信息:
(1) find_all ( name , attrs , recursive , text , **kwargs)
這裡面,我們通過添加對標簽的約束來獲取需要的標簽列表, 比如 ***.find_all ('p') 就是尋找名字為『p』的 標簽,而***.find_all (class = "tittle") 就是找到所有class屬性為"tittle" 的標簽,以及***.find_all ( class = ***.compile('lass')) 表示 class屬性中包含『lass』的所有標簽,這里用到了正則表達式(可以自己學習一下,非常有用滴)
當我們獲取了所有想要標簽的列表之後,遍歷這個列表,再獲取標簽中你需要的內容,通常我們需要標簽中的文字部分,也就是網頁中顯示出來的文字,代碼如下:
tagList = ***.find_all (class="tittle") #如果標簽比較復雜,可以用多個過濾條件使過濾更加嚴格
for tag in tagList:
print ***.text
***.write ( str(***.text) ) #將這些信息寫入本地文件中以後使用
(2)find( name , attrs , recursive , text , **kwargs )
它與 find_all( ) 方法唯一的區別是 find_all() 方法的返回結果是值包含一個元素的列表,而 find() 方法直接返回結果
(3)find_parents( ) find_parent( )
find_all() 和 find() 只搜索當前節點的所有子節點,孫子節點等. find_parents() 和 find_parent() 用來搜索當前節點的父輩節點,搜索方法與普通tag的搜索方法相同,搜索文檔搜索文檔包含的內容
(4)find_next_siblings() find_next_sibling()
這2個方法通過 .next_siblings 屬性對當 tag 的所有後面解析的兄弟 tag 節點進代, find_next_siblings() 方法返回所有符合條件的後面的兄弟節點,find_next_sibling() 只返回符合條件的後面的第一個tag節點
(5)find_previous_siblings() find_previous_sibling()
這2個方法通過 .previous_siblings 屬性對當前 tag 的前面解析的兄弟 tag 節點進行迭代, find_previous_siblings()方法返回所有符合條件的前面的兄弟節點, find_previous_sibling() 方法返回第一個符合條件的前面的兄弟節點
(6)find_all_next() find_next()
這2個方法通過 .next_elements 屬性對當前 tag 的之後的 tag 和字元串進行迭代, find_all_next() 方法返回所有符合條件的節點, find_next() 方法返回第一個符合條件的節點
(7)find_all_previous() 和 find_previous()
這2個方法通過 .previous_elements 屬性對當前節點前面的 tag 和字元串進行迭代, find_all_previous() 方法返回所有符合條件的節點, find_previous()方法返回第一個符合條件的節點
具體的使用方法還有很多,用到這里你應該可以解決大部分問題了,如果要更深入了解可以參考官方的使用說明哈!
7. 怎麼安裝python模塊,如何安裝python模塊,常用安裝方式
.
直接
下載的模塊文件中已經有了模塊的文件,有些模塊只有一個文件,比如較早版本的BeautifulSoup,有些是一個文件夾,比如新版本BeautifulSoup就是一個叫做bs4的文件夾。
把這些文件直接到你的python路徑下的/Lib/site-packages文件夾中,比如C:/Python27/Lib/site-packages。之後就可以在程序里直接引用了:
import BeautifulSoup
或者
from bs4 import BeautifulSoup
這是根據你放置的文件位置不同而決定的。
網上有人說直接放在Lib文件夾中就可以了。的確這樣也行,但Lib文件夾中都是自帶的模塊,看一下就會發現我們用過的random、re等模塊的代碼文件。而外部模塊一般放在site-packages文件夾中。
2.
setup.py
很多模塊里都附帶了setup.py文件,有同學直接雙擊了,然後發現沒有用。
它的使用方法是從命令行去到setup.py所在的路徑下,運行
python setup.py install
仔細看一下安裝時輸出的信息可以發現,在線學習這個命令做的事情其實也就是幫你把模塊的代碼到site-packages文件夾。
3.
setuptools
使用setuptools可以直接根據模塊名稱來自動下載安裝,不需要自己再去尋找模塊的安裝文件。不過在使用之前,你得先安裝setuptools自身。
windows平台的32位python,可以直接下載setuptools的exe文件安裝。(去搜索setuptools windows可以找到,我也上傳了一份在論壇本帖後面)
Linux用戶可以從包管理器中安裝,比如ubuntu:
apt-get install python-setuptools
windows平台64位python得用ez_setup.py進行安裝(文件我也上傳了)。這種方式也適用於所有平台。
在ez_setup.py所在文件夾下運行:
python ez_setup.py
setuptools會被安裝在python路徑\Scripts下。之後,你可以把這個路徑添加到環境變數path中,也可以直接從命令行進入到Scripts文件夾下,執行easy_install,看看是否安裝成功了。
之後,你就可以直接用它來安裝你想要的模塊,比如PIL:
easy_install PIL
視頻教程程序就會幫你自動下載安裝到site-packages里。
最後,介紹幾個不錯的模塊,供大家參考使用。
PIL - 圖形處理
PyXML - 解析和處理XML文件
MySQLdb - 連接MySQL資料庫
Tkinter - 圖形界面介面,python自帶
smtplib - 發送電子郵件
ftplib - ftp編程
PyMedia - 多媒體操作
PyOpenGL - OpenGL介面
BeautifulSoup - HTML/XML的解析器
8. python bs4壓縮安裝包
命令行直接pipinstallbs4即可
如果使用的anaconda,則使用condainstallbs4
或者直接去網上下載 :網頁鏈接
9. python 3 bs4 怎麼安裝 mac
pipinstallbs4#ormaybe`pip3installbs4`