python下載url
A. 求教python,如何用python自動下載文件
可以使用requests模塊完成下載
#--------------------第一種:使用headers攜帶cookie-----------------------------
#coding=utf-8
importrequests
headers={
'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64),
'Cookie':'你的cookies',
}
#發起請求,獲取二進制數據
html_str=requests.get(url,headers=headers).content
#寫入文件,採用二進制寫入文件
withopen('路徑/文件名.後綴','wb')asf:
f.write(html_str)
#--------------------第二種:在requests直接攜帶--------------------------------
#coding=utf-8
importrequests
headers={
'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64),
}
cookies={你的cookies,這里必須是以鍵值對,也就是字典的形式}
#發起請求,獲取二進制數據
html_str=requests.get(url,headers=headers,cookies=cookies).content
#寫入文件,採用二進制寫入文件
withopen('路徑/文件名.後綴','wb')asf:
f.write(html_str)
B. 請教如何用python下載文件到本地
知道文件的url地址就用urllib模塊的urlretrieve函數。urllib.urlretrieve(url,
filename)filename是要保存到本地的文件名。函數後面還有2個可選參數,要用就看幫助文檔吧。多線下載的話,每一線程要指定下載伺服器上文件的哪一塊。http協議中head里可以指定Range。下面用的是urllib2模塊request
=
urllib2.Request(url)request.add_header("Range",
"bytes=%d-%d"%(1024,
204)
#指定下載文件的范圍opener
=
urllib2.build_opener()data
=
opener.open(request).read()現在data裡面就是文件的1024位元組到2048位元組的內容。
C. python爬蟲怎麼獲取到的網站的所有url
首先我們可以先獲取要下載圖片的整個頁面信息。
getjpg.py
#coding=utf-8
import
urllib
def
getHtml(url):
page
=
urllib.urlopen(url)
html
=
page.read()
return
html
print
html
Urllib
模塊提供了讀取web頁面數據的介面,我們可以像讀取本地文件一樣讀取www和ftp上的數據。首先,我們定義了一個getHtml()函數:
urllib.urlopen()方法用於打開一個URL地址。
read()方法用於讀取URL上的數據,向getHtml()函數傳遞一個網址,並把整個頁面下載下來。執行程序就會把整個網頁列印輸出。
D. Python爬蟲怎麼獲取下一頁的URL和網頁內容
用瀏覽器調試工具,如firebug,查看點擊下一頁時的http請求,再用python模擬就行了。
E. python 根據規律生成url列表然後在下載 做一個爬蟲
importrequests
forindexinrange(000000000000,999999999999):
try:
filename="%s.doc"%index
url='http://188.161.79.8/qiongzhong/document/downloadFile.jsp?FILENAME='+filename
r=requests.get(url)
withopen(filename,"wb")ascode:
code.write(r.content)
exceptException,e:
print(str(e))
continue#出現異常忽略
F. python如何實現文件的下載,請盡量詳細,高分!!!
import
os,urllib.request,re
os.chdir(r'd:')
data
=
urllib.request.urlopen(url).read()
with
open(filename,
'wb')
as
f:
f.write(data)
url就是你要下載的文件鏈接,filename就是下載後保存的文件名。這段代碼是把文件下載在d盤根目錄下,你可以自己修改。
不過是單線程的,想要多線程下載,比較復雜,我沒有試過,這個下載小文件還是沒有問題的。
G. python如何下載環境
先來區分幾個在Python基礎學習中比較容易混淆的工具,然後幫助大家一步步修改鏡像源,完成環境的搭建,下面一起來看看吧!
1、概念區分
對於剛剛開始學習Python的零基礎小白來說,可能很容易就會對Pycharm、Python解釋器、conda安裝、pip安裝這個幾個概念混淆。下面跟著我來逐一認識一下它們:
(1)Pycharm是Pytho開發的集成開發環境(Integrated Development Environment,簡稱IDE),它本身無法執行Python代碼。
(2)Python解釋器才是真正執行代碼的工具,pycharm里可設置Python解釋器,一般我們可去Python官網下載Python3.7或Python3.8版本;如果安裝過anaconda ,它裡面必然也包括一個某版本的Python解釋器;Pycharm配置Python解釋器選擇哪一個都可以。
(3)anaconda是把python所有常用包的合集,並提供給我們使用 conda 命令非常非常方便的安裝各種Python包。
(4)conda安裝:我們安裝過anaconda軟體後,就能夠使用conda命令下載anaconda源里(比如中科大鏡像源)的包。
(5)pip安裝:也是一種類似於conda安裝的python安裝方法,如果用過Centos系統,它就像yum安裝一樣。
2、修改鏡像源
在使用安裝 conda 安裝某些包會出現慢或安裝失敗問題,最有效方法是修改鏡像源為國內鏡像源。之前都選用清華鏡像源,但是2019年後已停止服務。推薦選用中科大鏡像源。
先查看已經安裝過的鏡像源,cmd窗口執行命令:
conda config --show
查看配置項 channels ,如果顯示帶有 tsinghua ,則說明已安裝過清華鏡像。
channels:
https://mirrors.tuna.tsinghua.e.cn/tensorflow/linux/cpu/
https://mirrors.tuna.tsinghua.e.cn/anaconda/cloud/msys2/
https://mirrors.tuna.tsinghua.e.cn/anaconda/cloud/conda-forge/
https://mirrors.tuna.tsinghua.e.cn/anaconda/pkgs/free/
https://mirrors.tuna.tsinghua.e.cn/anaconda/cloud/pytorch/
下一步,使用 conda config --remove channels url地址 刪除清華鏡像,如下命令刪除第一個。然後,依次刪除所有鏡像源
conda config --remove channels https://mirrors.tuna.tsinghua.e.cn/tensorflow/linux/cpu/
添加目前可用的中科大鏡像源:
conda config --add channels https://mirrors.ustc.e.cn/anaconda/pkgs/free/
並設置搜索時顯示通道地址:
conda config --set show_channel_urls yes
確認是否安裝鏡像源成功,執行 conda config --show ,找到 channels 值為如下:
channels:
https://mirrors.ustc.e.cn/anaconda/pkgs/free/
defaults
以上就是分享的Python基礎學習之環境搭建的全部學習內容,大家都看懂了嗎?希望本文的分享能幫到大家!
H. python爬取圖片時候url地址是下載圖片時報錯了
你的參數可能不對,你可以加個teace來看看,在報錯的第二十二行前,看一下參數是什麼,type看一下類型再說。
希望懂的回答能幫到你
是
I. Python爬蟲是什麼
爬蟲一般指網路資源的抓取,通過編程語言撰寫爬蟲工具,抓取自己想要的數據以及內容。而在眾多編程語言之中,Python有豐富的網路抓取模塊,因此成為撰寫爬蟲的首選語言,並引起了學習熱潮。
Python作為一門編程語言而純粹的自由軟體,以簡潔清晰的語法和強制使用空白符號進行語句縮進的特點受到程序員的喜愛。用不同編程語言完成一個任務,C語言一共要寫1000行代碼,Java要寫100行代碼,而Python只需要20行,用Python來完成編程任務代碼量更少,代碼簡潔簡短而且可讀性強。
Python非常適合開發網路爬蟲,因為對比其他靜態編程語言,Python抓取網頁文檔的介面更簡潔;對比其他腳本語言,Python的urllib2包提供了較為完整的訪問網頁文檔的API。
Python爬蟲的工作流程是什麼?
Python爬蟲通過URL管理器,判斷是否有待爬URL,如果有待爬URL,通過調度器進行傳遞給下載器,下載URL內容,通過調度器傳送給解釋器,解析URL內容,將有價值數據和新的URL列表通過調度器傳遞給應用程序,輸出價值信息的過程。
Python是一門非常適合開發網路爬蟲的語言,提供了urllib、re、json、pyquery等模塊,同時還有很多成型框架,比如說Scrapy框架、PySpider爬蟲系統等,代碼十分簡潔方便,是新手學習網路爬蟲的首選語言。
J. Python如何下載請求的url指向文件,例如這樣的: http://edi.chi/Print.dofileId=123
#!/usr/bin/envpython
#-*-coding:utf-8-*-
importrequests
print('start')
url=r'問號前面的網址'
parms={
'fileId':'123'
}
try:
r=requests.post(url,data=parms)
print(r.text)
exceptExceptionase:
print(e)