pythonurlretrieve
❶ 如何用python做爬虫
1)首先你要明白爬虫怎样工作。
想象你是一只蜘蛛,现在你被放到了互联“网”上。那么,你需要把所有的网页都看一遍。怎么办呢?没问题呀,你就随便从某个地方开始,比如说人民日报的首页,这个叫initial pages,用$表示吧。
在人民日报的首页,你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了,这样你就已经爬完了俩页面(首页和国内新闻)!暂且不用管爬下来的页面怎么处理的,你就想象你把这个页面完完整整抄成了个html放到了你身上。
突然你发现, 在国内新闻这个页面上,有一个链接链回“首页”。作为一只聪明的蜘蛛,你肯定知道你不用爬回去的吧,因为你已经看过了啊。所以,你需要用你的脑子,存下你已经看过的页面地址。这样,每次看到一个可能需要爬的新链接,你就先查查你脑子里是不是已经去过这个页面地址。如果去过,那就别去了。
好的,理论上如果所有的页面可以从initial page达到的话,那么可以证明你一定可以爬完所有的网页。
那么在python里怎么实现呢?
很简单
import Queue
initial_page = "初始化页"
url_queue = Queue.Queue()
seen = set()
seen.insert(initial_page)
url_queue.put(initial_page)
while(True): #一直进行直到海枯石烂
if url_queue.size()>0:
current_url = url_queue.get() #拿出队例中第一个的url
store(current_url) #把这个url代表的网页存储好
for next_url in extract_urls(current_url): #提取把这个url里链向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break
写得已经很伪代码了。
所有的爬虫的backbone都在这里,下面分析一下为什么爬虫事实上是个非常复杂的东西——搜索引擎公司通常有一整个团队来维护和开发。
2)效率
如果你直接加工一下上面的代码直接运行的话,你需要一整年才能爬下整个豆瓣的内容。更别说Google这样的搜索引擎需要爬下全网的内容了。
问题出在哪呢?需要爬的网页实在太多太多了,而上面的代码太慢太慢了。设想全网有N个网站,那么分析一下判重的复杂度就是N*log(N),因为所有网页要遍历一次,而每次判重用set的话需要log(N)的复杂度。OK,OK,我知道python的set实现是hash——不过这样还是太慢了,至少内存使用效率不高。
通常的判重做法是怎样呢?Bloom Filter. 简单讲它仍然是一种hash的方法,但是它的特点是,它可以使用固定的内存(不随url的数量而增长)以O(1)的效率判定url是否已经在set中。可惜天下没有白吃的午餐,它的唯一问题在于,如果这个url不在set中,BF可以100%确定这个url没有看过。但是如果这个url在set中,它会告诉你:这个url应该已经出现过,不过我有2%的不确定性。注意这里的不确定性在你分配的内存足够大的时候,可以变得很小很少。一个简单的教程:Bloom Filters by Example
注意到这个特点,url如果被看过,那么可能以小概率重复看一看(没关系,多看看不会累死)。但是如果没被看过,一定会被看一下(这个很重要,不然我们就要漏掉一些网页了!)。 [IMPORTANT: 此段有问题,请暂时略过]
好,现在已经接近处理判重最快的方法了。另外一个瓶颈——你只有一台机器。不管你的带宽有多大,只要你的机器下载网页的速度是瓶颈的话,那么你只有加快这个速度。用一台机子不够的话——用很多台吧!当然,我们假设每台机子都已经进了最大的效率——使用多线程(python的话,多进程吧)。
3)集群化抓取
爬取豆瓣的时候,我总共用了100多台机器昼夜不停地运行了一个月。想象如果只用一台机子你就得运行100个月了...
那么,假设你现在有100台机器可以用,怎么用python实现一个分布式的爬取算法呢?
我们把这100台中的99台运算能力较小的机器叫作slave,另外一台较大的机器叫作master,那么回顾上面代码中的url_queue,如果我们能把这个queue放到这台master机器上,所有的slave都可以通过网络跟master联通,每当一个slave完成下载一个网页,就向master请求一个新的网页来抓取。而每次slave新抓到一个网页,就把这个网页上所有的链接送到master的queue里去。同样,bloom filter也放到master上,但是现在master只发送确定没有被访问过的url给slave。Bloom Filter放到master的内存里,而被访问过的url放到运行在master上的Redis里,这样保证所有操作都是O(1)。(至少平摊是O(1),Redis的访问效率见:LINSERT – Redis)
考虑如何用python实现:
在各台slave上装好scrapy,那么各台机子就变成了一台有抓取能力的slave,在master上装好Redis和rq用作分布式队列。
代码于是写成
#slave.py
current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)
store(current_url);
send_to_master(to_send)
#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()
initial_pages = "www.renmingribao.com"
while(True):
if request == 'GET':
if distributed_queue.size()>0:
send(distributed_queue.get())
else:
break
elif request == 'POST':
bf.put(request.url)
好的,其实你能想到,有人已经给你写好了你需要的:darkrho/scrapy-redis · GitHub
4)展望及后处理
虽然上面用很多“简单”,但是真正要实现一个商业规模可用的爬虫并不是一件容易的事。上面的代码用来爬一个整体的网站几乎没有太大的问题。
但是如果附加上你需要这些后续处理,比如
有效地存储(数据库应该怎样安排)
有效地判重(这里指网页判重,咱可不想把人民日报和抄袭它的大民日报都爬一遍)
有效地信息抽取(比如怎么样抽取出网页上所有的地址抽取出来,“朝阳区奋进路中华道”),搜索引擎通常不需要存储所有的信息,比如图片我存来干嘛...
及时更新(预测这个网页多久会更新一次)
如你所想,这里每一个点都可以供很多研究者十数年的研究。虽然如此,
“路漫漫其修远兮,吾将上下而求索”。
所以,不要问怎么入门,直接上路就好了:)
❷ 如何设置python 中函数 urlretrieve 下载文档,5秒没有下载完成就跳出执行下一次的下载
给你一段代码吧。
importsocket
socket.setdefaulttimeout(5.0)
importurllib
urllib.urlretrieve(url,filename)
通过socket类设置氏册渗全局歼脊的超姿轿时。
❸ 怎么使用python扒网上的照片
# coding=utf-8
# 声明编码方式 默认编码方式ASCII
import urllib
import time
import re
import os
'''''
Python下载游迅网图片 BY:Eastmount
'''
'''''
**************************************************
#第一步 遍历获取每页对应主题的URL
**************************************************
'''
fileurl=open('yxdown_url.txt','w')
fileurl.write('****************获取游讯网图片URL*************\n\n')
#建议num=3 while num<=3一次遍历一个页面所有主题,下次换成num=4 while num<=4而不是1-75
num=3
while num<=3:
temp = ''+str(num)+'.html'
content = urllib.urlopen(temp).read()
open('yxdown_'+str(num)+'.html','w+').write(content)
print temp
fileurl.write('****************第'+str(num)+'页*************\n\n')
#爬取对应主题的URL
#<div class="cbmiddle"></div>中<a target="_blank" href="/饥肢凳html/5533.html" >
count=1 #计算每页1-75中具体网页个数
res_div = r'<div class="cbmiddle">(.*?)</div>'
m_div = re.findall(res_div,content,re.S|re.M)
for line in m_div:
#fileurl.write(line+'\n')
#获取每页所有主题对应的URL并输出
if "_blank" in line: #防止获取列表list/1_0_1.html list/2_0_1.html
#获取主题
fileurl.write('\n\n********************************************\n')
title_pat = r'<b class="imgname"烂旅>(.*?)</b>'
title_ex = re.compile(title_pat,re.M|re.S)
title_obj = re.search(title_ex, line)
title = title_obj.group()
print unicode(title,'utf-8')
fileurl.write(title+'\n')
#获取URL
res_href = r'<a target="_blank" href="(.*?)"'
m_linklist = re.findall(res_href,line)
#print unicode(str(m_linklist),'utf-8')
for link in m_linklist:
fileurl.write(str(link)+'\n') #形如"/html/5533.html"
'''''
**************************************************
#第二步 去到具体图像页面 下载HTML页面
#注意先本地创建yxdown 否则报错No such file or directory
**************************************************
'''
#下载HTML网页无原饥族图 故加'#p=1'错误
#HTTP Error 400. The request URL is invalid.
html_url = ''+str(link)
print html_url
html_content = urllib.urlopen(html_url).read() #具体网站内容
#可注释它 暂不下载静态HTML
open('yxdown/yxdown_html'+str(count)+'.html','w+').write(html_content)
'''''
#第三步 去到图片界面下载图片
#点击"查看原图"HTML代码如下
#<a href="javascript:;" style=""onclick="return false;">查看原图</a>
#通过JavaScript实现 而且该界面存储所有图片链接<script></script>之间
'''
html_script = r'<script>(.*?)</script>'
m_script = re.findall(html_script,html_content,re.S|re.M)
for script in m_script:
res_original = r'"original":"(.*?)"' #原图
m_original = re.findall(res_original,script)
for pic_url in m_original:
print pic_url
fileurl.write(str(pic_url)+'\n')
'''''
#第四步 下载图片
#如果浏览器存在验证信息如维基网络 需添加如下代码
class AppURLopener(urllib.FancyURLopener):
version = "Mozilla/5.0"
urllib._urlopener = AppURLopener()
'''
filename = os.path.basename(pic_url) #去掉目录路径,返回文件名
#No such file or directory 需要先创建文件Picture3
urllib.urlretrieve(pic_url, 'E:\\Picture3\\'+filename)
#IOError: [Errno socket error] [Errno 10060]
#只输出一个URL 否则输出两个相同的URL
break
#当前页具体内容个数加1
count=count+1
time.sleep(0.1)
else:
print 'no url about content'
time.sleep(1)
num=num+1
else:
print 'Download Over!!!'
❹ python 如何将大量图片的url保存到本地
你如果要保存图片的url,直接把imgsrc写入本地文件就可以了,urllib.request.urlretrieve(imgsrc)这个的意思是你要保存的不是图片的url,而是要把图片下载下来,这个是要批量爬取网站上的图片,需要考虑网站的反爬虫措施了。
❺ python 3中urlretrieve方法直接将远程数据下载到本地.为什么不行
你的路径可能不对,按照我的代码,你需要在d盘根目录下新建一个test文件夹,才能正常运行
❻ 按楼号保存图片!用python怎么实现
分类: 电脑/网络 >> 程迅森盯序设计 >> 其他编程语言
问题描述:
按楼号保存图片!用python怎么实现?
我要把k68上2128号任务所有的作品全部保存到硬盘上
比如三楼的作品是就命名为3(如果是gif格式存为3.gif)
四楼的作品存为4
如果同一楼有多个作品,比如39楼,第一个作品就命名为39-1
第二个就是39-2
以此类推。。。。
k68 2128号任务 连接:k68/PostViewMission?dMode=0&PostPage=1&BoardID=1001&imageID=34314&page=1&imageNum=1&SearchWords=&sstype=1&rmd=19260
解析:
这种情况用正则表达式最恰当。
注意:程序运行完毕后,note.txt 将记载所有程序找不到图片链接的楼号及相关的页春慎面链接,
你必须自己鉴定那些楼里是否真的没有图片。估计有少于十层其实是有图片亩和的(链接太不规律所致): 你自己储存好了。
# -*- coding: utf-8 -*-
import urllib, re, time
URLTemplate = 'k68/PostViewMission?dMode=0&PostPage=%d' + \
'&BoardID=1001&imageID=34314&page=1&imageNum=1&SearchWords=&sstype=1&rmd=19260'
pageURLs = [ URLTemplate % pageNum for pageNum in range( 1, 155 ) ]
startTime = time.time( )
noteFile = open( 'note.txt', 'w' )
savedFileCount = 0
print '\nInitializing... (will plete shortly)',
for pageURL in pageURLs :
pageSource = urllib.urlopen( pageURL ).read( )
splitted = re.split( '<b>(\d+)楼', pageSource )[ 1 : ]
for i in range( len( splitted ) ): # for each floor
if not i % 2: # floor numbers in even posistions, floor source in odd positions
floorNumber = splitted[ i ]
pictureURLPattern = r'(?<=href=")[^? ]+?\.\w{3}(?="\s*target)'
pictureURLs = re.findall( pictureURLPattern, splitted[ i + 1 ] )
if not pictureURLs:
note = 'no picture URL found at floor #%s on this page:\n%s\n' % ( floorNumber, pageURL )
print >> noteFile, note
else:
if len( pictureURLs ) == 1:
fileName = floorNumber + pictureURLs[ 0 ][ -4 : ]
urllib.urlretrieve( pictureURLs[ 0 ], fileName )
else:
for pictureNumber, pictureURL in enumerate( pictureURLs ):
fileName = '%s-%d%s' % ( floorNumber, pictureNumber + 1, pictureURL[ -4 : ] )
urllib.urlretrieve( pictureURL, fileName )
savedFileCount += len( pictureURLs )
print '\rSo far, %d files saved, floor # %s reached.\t\t\t\t' % ( savedFileCount, floorNumber ),
print '\n\nAll done! Saved %d files, took %.1f minutes.' % ( savedFileCount, ( time.time( ) - startTime ) / 60 )
❼ 请教如何用python下载文件到本地
知道文件的url地址就用urllib模块的urlretrieve函数。urllib.urlretrieve(url,
filename)filename是要保存到本地的文件名。函数后面还有2个可选参数,要用就看帮助文档吧。多线下载的话,每一线程要指定下载服务器上文件的哪一块。http协议中head里可以指定Range。下面用的是urllib2模块request
=
urllib2.Request(url)request.add_header("Range",
"bytes=%d-%d"%(1024,
204)
#指定下载文件的范围opener
=
urllib2.build_opener()data
=
opener.open(request).read()现在data里面就是文件的1024字节到2048字节的内容。
❽ 如何用python把网页上的文本内容保存下来
1、了解Python如何获取网页内容。
❾ 用python抓取的网页保存后为什么乱码
从你给的代码来是Python2。我下面给一个基于Python3的代码,可以参考一下:
romurllib.requestimporturlopen;
fromurllib.parseimportquote;
rawtext=urlopen('http://www.ccnu.e.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)
大概的原理是,在Python3下面,抓取到的页面默认是byte类型的(通过第4行输出的结果就可以看出来),我们需要根据网页的实际编码进行处理。本例中给的网页使用的是gb2312。所以,我要先以gbk的格式进行解码(gbk包含了gb2312,能够表示更多的汉语字符),解码后实际上得到的就是unicode码了,由于我的控制台编码设置的是utf8,在打印时系统会自动将字符串从unicode转为utf8,所以第6行控制台打印结果正常;第7行写入文件时也要指定文件的编码格式,我这里选择的是utf8,当然用gbk也是一切正常的,因为这个编码设置的是保存文件的编码,而不是原来那个网页内容的编码了。字符串编码和文件编码不是一回事。打开ccnu.txt发现无乱码。
Python2的代码我不熟。
建议你也在代码中添加print 看控制输出是否正常。如果控制台输出正常,则有可能是在保存页面文件时,没有正确指定内容字符串的encode格式。或者把所有gb2312换为gbk再试试。
反正Python2下面极容易出现汉字乱码,如果能理解编码encode和解码decode的含义,了解Python2的字符串处理过程,就可以避免这些问题。
❿ 如何用Python抓取动态页面信息
解决思路:
有一个思路最为简单的思路可以动态解析页面信息。urllib不可以解析动态信息,但是浏览器可以。在浏览器上展现处理的信息其实是处理好的HTML文
档。这为我们抓取动态页面信息提供了很好的思路。在Python中有一个很有名的图形库——PyQt。PyQt虽然是图形库,但是他里面
QtWebkit。这个很实用。谷歌的Chrome和苹果的Safari都是基于WebKit内核开发的,所以我们可以通过PyQt中得QtWebKit
把页面中的信息读取加载到HTML文档中,再解析HTML文档,从HTML文档中提取我们想用得信息。
所需材料:
作者本人实用Mac OS X。应该在Windows和Linux平台也可以采用相同的办法。
1、Qt4 library
Library,而不是Creator。Library在Mac的默认安装路径下,应该是/home/username/Developor/,不要改变Qt4的默认安装路径。否则可能安装失败。
官方网址:http://qt-project.org/downloads
2、SIP、PyQt4
这两个软件可以在在PyQt的官网找到。下载的是它的源码。Mac和Linux需要自己编译。
下载地址是:http://www.riverbankcomputing.co.uk/software/pyqt/download
在终端切换到文件解压后的目录中。
在终端中输入
python configure.py
make
sudo make install
进行安装编译。
SIP和PyQt4两个安装方法相同。但是PyQt4依赖SIP。所以先安装SIP再安装PyQt4
1、2两步完成之后,Python的PyQt4的模块就安装好了。在Python shell中输入import PyQt4看看能不能找到PyQt4的模块。
3、Spynner
spynner是一个QtWebKit的客户端,它可以模拟浏览器,完成加载页面、引发事件、填写表单等操作。
这个模块可以在Python的官网找到。
下载地址: https://pypi.python.org/pypi/spynner/2.5
解压后,cd到安装目录,然后输入sudo python configure.py install安装该模块。
这样Spynner模块就安装完成了,在python shell中试试import spynner看看该模块有没有安装完成。
Spynner的简单使用
Spynner的功能十分强大,但是由于本人能力有限,就介绍一下如何显示网页的源码吧。
#! /usr/bin/python
#-*-coding: utf-8 -*-
import spynner
browser = spynner.Browser()
#创建一个浏览器对象
browser.hide()
#打开浏览器,并隐藏。
browser.load("http://www..com")
#browser 类中有一个类方法load,可以用webkit加载你想加载的页面信息。
#load(是你想要加载的网址的字符串形式)
print browser.html.encode("utf-8")
#browser 类中有一个成员是html,是页面进过处理后的源码的字符串.
#将其转码为UTF-8编码
open("Test.html", 'w+').write(browser.html.encode("utf-8"))
#你也可以将它写到文件中,用浏览器打开。
browser.close()
#关闭该浏览器
通过这个程序,就可以比较容易的显示webkit处理的页面HTML源码了。
spynner应用
下面介绍一下spynner的简单应用,通过简单的程序,可以获取你在浏览器中看到的页面的全部图片。用HTMLParser、BeautifulSoup等都可以完成HTMLParser文档的解析。而我选择HTMParser。
#!/usr/bin/python
import spynner
import HTMLParser
import os
import urllib
class MyParser(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'img':
url = dict(attrs)['src']
name = os.path.basename(dict(attrs)['src'])
if name.endswith('.jpg') or name.endswith('.png') or name.endswith('gif'):
print "Download.....", name
urllib.urlretrieve(url, name)
if __name__ == "__main__":
browser = spynner.Browser()
browser.show()
browser.load("http://www.artist.cn/snakewu1994/StyleBasis_Four/en_album_607236.shtml")
Parser = MyParser()
Parser.feed(browser.html)
print "Done"
browser.close()
通过这个程序,可以下载你在页面上看到的全部图片。简单的几行程序就完成了这个艰巨的任务。实现了图片的批量处理。这真是Python语言的优势,再艰巨的任务交给第三方吧。