拉勾网源码

发布时间: 2024-12-07 15:01:52

① Python学完之后从事什么工作比较有发展前途

Python具有简单、易学、免费、开源、可移植、可扩展、可嵌入、面向对象等优点，它的面向对象甚至比Java和C#.net更彻底。作为一种通用语言，Python几乎可以用在任何领域和场合，角色几乎是无限的。

Python学习可以从事的工作：

web开发

豆瓣、知乎、拉勾网等都是用的Python，web开发在国内的发展也是很不错的

1、web开发的薪资

游戏并不适合用Python开发，Python虽有pygame库，但是功能不强，游戏运行效率低下，写游戏还是要靠游戏引擎。

以上的回答希望对你有所帮助

② 学Python能干什么

Python可以做什么？
1）网站后端程序员：使用它单间网站，后台服务比较容易维护。如：Gmail、Youtube、知乎、豆瓣
2）自动化运维：自动化处理大量的运维任务
3）数据分析师：快速开发快速验证，分析数据得到结果
4）游戏开发者：一般是作为游戏脚本内嵌在游戏中
5）自动化测试：编写为简单的实现脚本，运用在Selenium/lr中，实现自动化。
6）网站开发：借助django,flask框架自己搭建网站。
7）爬虫获取或处理大量信息：批量下载美剧、运行投资策略、爬合适房源、系统管理员的脚本任务等。

③ R爬虫必备基础—HTTP协议

HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。HTTP是一个基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件, 查询结果等）。

HTTP协议工作于客户端-服务端架构上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器有：Apache服务器，IIS服务器（Internet Information Services）等。Web服务器根据接收到的请求后，向客户端发送响应信息。HTTP默认端口号为80，但是你也可以改为8080或者其他端口。

通信流程说明：

①用户首先通过鼠标/键盘点击或手动输入目标链接（即URL（Uniform Resource Locators），中文名称：统一资源定位符），向HTTP客户端（如常见的浏览器）传达数据查询需求。
②HTTP客户端收到需求后，将收到的URL信息向DNS服务器（域名系统）询问链接对应的具体IP地址，DNS服务器返回URL对应的IP地址。
③HTTP客户端再拿着IP地址通过TCP协议（传输控制协议，Transmission Control Protocol）和IP协议（Internet Protocol）向HTTP服务器发出数据请求，等待服务器响应。
④HTTP服务器将请求的相关信息返回给HTTP客户端，由客户端返回给客户。
⑤重复上述步骤①~④，直到所有请求执行完毕。

URL格式： 如 scheme://hostname:port/path?querystring#fragment 。一个完整的URL共有6部分构成，但是并不是每个部分都一定要具备。参数解释如下：

HTTP是基于客户端/服务端（C/S）的架构模型，通过一个可靠的链接来交换信息，是一个无状态的请求/响应协议。一个HTTP"客户端"是一个应用程序（Web浏览器或其他任何客户端），通过连接到服务器达到向服务器发送一个或多个HTTP的请求的目的。一个HTTP"服务器"同样也是一个应用程序（通常是一个Web服务，如Apache Web服务器或IIS服务器等），通过接收客户端的请求并向客户端发送HTTP响应数据。HTTP使用统一资源标识符（Uniform Resource Identifiers, URI）来传输数据和建立连接。一旦建立连接后，数据消息就通过类似Internet邮件所使用的格式[RFC5322]和多用途Internet邮件扩展（MIME）[RFC2045]来传送。

客户端发送一个HTTP请求到服务器的请求消息包括以下格式：请求行（request line）、请求头部（header）、空行和请求数据四个部分组成，下图给出了请求报文的一般格式。

如：

HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行和响应正文。

如：

根据 HTTP 标准，HTTP 请求可以使用多种请求方法。HTTP1.0 定义了三种请求方法：GET, POST 和 HEAD方法。HTTP1.1 新增了六种请求方法：OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。

在请求模式中，最常用的请求方法是GET和POST方法，在爬虫过程中至关重要。这两个方法都是从服务器请求一个资源，但是在正文的使用上有所不同。GET方法是网络请求最通用方法，可理解为直接请求。POST则有所区别，需要提交表单信息才能请求到信息，比如说拉勾网招聘首页需要用户输入地点、薪资范围等信息才能请求到匹配的网页界面。

HTTP请求头提供了关于请求，响应或者其他的发送实体的信息。下面将具体来介绍HTTP响应头信息。

当浏览者访问一个网页时，浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前，此网页所在的服务器会返回一个包含HTTP状态码的信息头（server header）用以响应浏览器的请求。HTTP状态码的英文为HTTP Status Code。下面是常见的HTTP状态码：

200 - 请求成功
301 - 资源（网页等）被永久转移到其它URL
404 - 请求的资源（网页等）不存在
500 - 内部服务器错误

HTTP状态码由三个十进制数字组成，第一个十进制数字定义了状态码的类型，后两个数字没有分类的作用。HTTP状态码共分为5种类型：

Content-Type（内容类型），一般是指网页中存在的 Content-Type，用于定义网络文件的类型和网页的编码，决定浏览器将以什么形式、什么编码读取这个文件，比如text/html/xml/json/jpg/gif/pdf等。Content-Type 标头告诉客户端实际返回的内容的内容类型，如下图，返回的是html格式文件。

当我们在地址栏输入 www.sina.com.cn 时，浏览器将显示新浪的首页。在这个过程中，浏览器都干了哪些事情呢？通过Network的记录，我们就可以知道。在Network中，定位到第一条记录，点击右侧Headers，从Request Headers中可以看到浏览器发给新浪服务器的请求：请求网址为 https://www.sina.com.cn/ ，请求方法为GET.

继续往下找到Response Headers，它显示服务器返回的原始响应数据。其中200表示一个成功的响应，后面的OK是说明。失败的响应有404 Not Found：网页不存在，500 Internal Server Error：服务器内部出错，等等。Content-Type指示响应的内容，这里是text/html表示HTML网页。请注意，浏览器就是依靠Content-Type来判断响应的内容是网页还是图片，是视频还是音乐。

HTTP响应返回的是HTML源码，点击Response，可以看到返回的html网页源码。

接着，当浏览器读取到新浪首页的HTML源码后，它会解析HTML，显示页面，然后，根据HTML里面的各种链接，再发送HTTP请求给新浪服务器，拿到相应的图片、视频、Flash、JavaScript脚本、CSS等各种资源，最终显示出一个完整的页面。

参考： https://www.runoob.com/http/http-tutorial.html

更多内容可关注公共号“YJY技能修炼”~~~

往期回顾
R爬虫在工作中的一点妙用
R爬虫必备基础——HTML和CSS初识
R爬虫必备基础——静态网页+动态网页
R爬虫必备——rvest包的使用
R爬虫必备基础——CSS+SelectorGadget
R爬虫必备基础—Chrome开发者工具(F12)

阅读全文

热点内容

为什么越来越多人从苹果转向安卓发布：2025-03-10 10:28:08 浏览：104

php正则结尾发布：2025-03-10 10:19:57 浏览：779

影音先锋在线脚本发布：2025-03-10 10:10:51 浏览：420

油猴万能脚本发布：2025-03-10 10:09:10 浏览：444

磁性加密闸阀发布：2025-03-10 10:09:08 浏览：346

sqlwhereor效率发布：2025-03-10 09:57:06 浏览：104

12306java 发布：2025-03-10 09:52:39 浏览：603

php键值发布：2025-03-10 09:51:14 浏览：630

FTP对吧发布：2025-03-10 09:50:28 浏览：95

单机游戏怎么解压安装发布：2025-03-10 09:49:41 浏览：673

拉勾网源码

与拉勾网源码相关的资讯