pythonwget
打开终端,输入:wget https://www.python.org/ftp/python/3.5.0/Python-3.5.0b4.tgz
下载完毕后 输入解压命令:tar –zxvf Python-3.5.0b4.tgz
切换到解压的目录:cd Python*
接下来就是安装:
./configure
make
make install
然后查看一下就知道了:
Python 3.5.0 (#1, Aug 06 2015, 14:04:52)
[GCC 4.1.1 20061130 (Red Hat 4.1.1-43)] on linux2
Type “help”, “right”, “credits” or “license” for more information.
就说明成功了,因为linux系统可能不一样,第二行有可能不同哈。
‘贰’ python错误
你文件保存路径出问题了,前面加个r转义,
wget.download(url, r'c:/users/LikeGeeks/downloads/pythonLogo.png')
‘叁’ python编程遇到的几个坑
1. 爬个别特定网站,不一定得用python写爬虫,多数情况wget一条命令多数网站就能爬的不错,真的玩到自己写爬虫了,最终遇到的无非是如何做大做壮,怎么做分布式爬虫。scrapy这种价值接近0,异步或者多线程搞抓取,选一个成熟的基于磁盘的队列库,kafka之类的,scrapy帮了啥?
2. http库众多,还有gevent库monkey patch以后coroutine的玩这一选择,规模千万的话urllib3很好。
3. 对付网站的诸如登录、ajax,这种不过是体力民工活,不展开了。
4. 速度很重要,放ec2或者国内的云上跑,很重要的指标是你每一亿网页爬下来成本多少,爬的时候比如4核一个虚拟机节点,你能inbound贷款用足100mbps吗。
5. beautifulsoup太慢,全网的爬,encoding的分析也要要快,c实现的chardet还行
最关键的,永远是爬下来以后的信息的提取、分析、使用,就是另外一个话题了。
1.学会使用chrome浏览器查看通信以及查看元素格式
2.增加User-Agent, 这是最简单的反爬措施了
3.写爬虫最好使用Ipython,在交互式的环境下,可以时刻了解自己问题具体出在哪里
4.使用requests
5.用get或者post下好html之后,要确认你需要的东西html里面有,而不是之后用ajax或者javascript加载的。
6.解析的话,BeautifulSoup不错。对于少数非常特殊的,可以考虑用re。
7,需要大量采集数据的话,学会使用框架,比如scrapy。
进阶:
加入网站需要模拟登陆,里面使用了很多ajax或者javascript,或者反爬虫厉害,用requests的session,注意F12查看到底发送了什么数据。
实在不会,就使用模拟浏览器吧,推荐selenium,虽然速度慢点,内存多点,但是真的很省力,而且基本查不出来。
最后,爬虫速度不要太快,加上time.sleep(1),尽量少用多线程,别人建站也不容易,(尤其是小站)你不给别人带来很大的麻烦,别人也就睁一只眼闭一只眼了,否则封IP不是好玩的。
有些页面喜欢使用redirect,然而requests的get和post方法中默认是直接跳转的!很可能你就带着错误的cookies和headers跳转了,所以务必将allow_redirects参数设为false
‘肆’ 如何安装python3.6.2
下载python安装包,然后双击运行,弹出如下对话框,记得勾选最后一项“Add python 3.6 to PATH",然后点击”Customize installatiion“自定义安装。
最后点击”确定“按钮完成设置。
‘伍’ 如何在linux系统中安装python
linux系统中安装python包括以下三个步骤:
‘陆’ python 如何使用wget
你可以使用 subprocess 模块,检查执行 subprocess.call("Your-Command") 后的返回值:
‘柒’ ubuntu 下怎样安装python
1.先检查当前系统中是否已经安装python,直接使用python -V查看