python采集

发布时间: 2022-01-19 05:26:16

Ⅰ 使用python采集网页内容时那登录那个网站，否则采集不了！请问怎么实现python登录后采集网页

有些网页需要你登录之后才可以访问,你需要提供账户和密码。
只要在发送http请求时，带上含有正常登陆的cookie就可以了。
1.首先我们要先了解cookie的工作原理。
Cookie是由服务器端生成，发送给User-Agent（一般是浏览器），浏览器会将Cookie的key/value保存到某个目录下的文本文件内，下次请求同一网站时就发送该Cookie给服务器（前提是浏览器设置为启用cookie）。Cookie名称和值可以由服务器端开发自己定义，对于JSP而言也可以直接写入jsessionid，这样服务器可以知道该用户是否合法用户以及是否需要重新登录等。
2.之后我们要获取到用户正常登录的cookie.
python提供了cookieJar的库，只要把cookieJar的实例作为参数传到urllib2的一个opener里面。
然后访问一次登录的页面，cookie就已经保存下来了。之后通过这个实例访问所有的页面都带有正常登陆的cookie了。
以人人网为例子。
#encoding=utf-8
import urllib2
import urllib
import cookielib
def renrenBrower(url,user,password):
#登陆页面，可以通过抓包工具分析获得，如fiddler，wireshark
login_page = "http://www.renren.com/PLogin.do"
try:
#获得一个cookieJar实例
cj = cookielib.CookieJar()
#cookieJar作为参数，获得一个opener的实例
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
#伪装成一个正常的浏览器，避免有些web服务器拒绝访问。
opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')]
#生成Post数据，含有登陆用户名密码。
data = urllib.urlencode({"email":user,"password":password})
#以post的方法访问登陆页面，访问之后cookieJar会自定保存cookie
opener.open(login_page,data)
#以带cookie的方式访问页面
op=opener.open(url)
#读取页面源码
data= op.read()
return data
except Exception,e:
print str(e)
#访问某用户的个人主页，其实这已经实现了人人网的签到功能。
print renrenBrower("http://www.renren.com/home","用户名","密码")

Ⅱ python网络数据采集用python写网络爬虫哪个好

写python爬虫2年多了，主要用的scrapy。关于python3，还没有开始学；在这方面，我算是传统的。一直在思考什么时候转python3。我主要关注的是我常用的python库是否支持，一旦支持，就立刻转python3.从最早的django、MySQLdb、PIL（Pillow）不支持，但现在这三者都支持了。所以在做web项目的时候是可以直接用python3了。所以现在的计划是今年下半年转python3。

说回爬虫。scrapy确实使用者众，可惜还不支持python3。所以现在的爬虫项目还是用python2.7。现在用着非常顺手。我的思路是，用django开发业务逻辑，根据业务逻辑建立的model，用scrapy抓取。是的，我的项目将django和scrapy代码放在一个repo了。也可以分开。另外，scrapy的调度使用的是celery，所有爬虫的调度时间和频率都是用celery控制的。django、scrapy、celery是我做开发的三大法器。

如果你不想使用scrapy等框架，像上面的回答一样，用一些请求库和解析库也能搭建出来。但我倾向于用django、celery、scrapy搭建通用的抓取系统。简单说，用django建立模型，scrapy做一些常用爬虫，规则定义模块；celery制定调度策略，可以非常快地建立一套系统。

Ⅲ python如何能采集多个摄像头的数据

可以，用PYQT+CV2,四个USB连接成功，程序如下，UI要自己搞了，放不下
# -*- coding: utf-8 -*-
import sys#, time
from PyQt5 import QtWidgets
from PyQt5.QtCore import QTimer, QThread, pyqtSignal
from Ui_cv2ui_thread import Ui_MainWindow
import cv2 as cv
from PyQt5.QtGui import QImage, QPixmap
from PyQt5.QtWidgets import (QApplication, QDialog, QFileDialog, QGridLayout,
QLabel, QPushButton, QColorDialog)
import numpy as np
class MainWindow(QtWidgets.QMainWindow, Ui_MainWindow):
def __init__(self, parent=None):
super(MainWindow, self).__init__(parent=parent)
self.setupUi(self) #这个一定要在这个最前面位置
# define the slot for pushbutton to save the merged image
self.pushButton.clicked.connect(self.savemergeimage)
self.img = np.ndarray(()) #空的numpy array
self.img1 = np.ndarray(())
self.img2= np.ndarray(())
self.img3= np.ndarray(())
self.img4= np.ndarray(())
self.img4= np.empty([960,1280, 3], int)
self.cap = cv.VideoCapture(3) #注意，由大开到小,很重要
self.cap.set(3, 640) # setup the resolution of CCD
self.cap.set(4, 480)
ret, self.img=self.cap.read()
self.cap1 = cv.VideoCapture(2)
self.cap1.set(3, 640)
self.cap1.set(4, 480)
ret, self.img1=self.cap1.read()
self.cap2 = cv.VideoCapture(1)
self.cap2.set(3, 640)
self.cap2.set(4, 480)
ret, self.img2=self.cap2.read()
self.cap3 = cv.VideoCapture(0)
self.cap3.set(3, 640)
self.cap3.set(4, 480)
ret, self.img3=self.cap3.read()
#time.sleep(1)也许需要延迟，等他准备好
# 初始化一个定时器，在其他条件下用的
#self.timer = QTimer(self)
# 实例化一个线程
self.work0= WorkThread()
self.work0.trigger.connect(self.ccd2)
# 定义时间任务是一次性任务就设定下一行
#self.timer.setSingleShot(True)
# 启动时间任务，注意一致性
self.work0.start()
# 实例化一个线程
self.work= WorkThread()
# 多线程的信号触发连接到ccd3
self.work.trigger.connect(self.ccd3)
self.work.start()
# 实例化一个线程
self.work2 = WorkThread()
# 多线程的信号触发连接到ccd4
self.work2.trigger.connect(self.ccd4)
self.work2.start()
# 实例化一个线程
self.work3 = WorkThread()
# 多线程的信号触发连接到ccd1
self.work3.trigger.connect(self.ccdmerge)
self.work3.start()
self.work4 = WorkThread()
# 多线程的信号触发连接到ccd1
self.work4.trigger.connect(self.ccd1)
self.work4.start()
def refreshShowa(self):#显示ccd1到label1
# 提取图像的尺寸和通道, 用于将opencv下的image转换成Qimage
height, width, channel = self.img.shape
bytesPerLine = 3 * width
self.qImg = QImage(self.img.data, width, height, bytesPerLine,
QImage.Format_RGB888).rgbSwapped()
# 将Qimage显示出来
self.label.setPixmap(QPixmap.fromImage(self.qImg))
def refreshShowb(self):#显示ccd2到label2
# 提取图像的尺寸和通道, 用于将opencv下的image转换成Qimage
height, width, channel = self.img1.shape
bytesPerLine = 3 * width
self.qImg1 = QImage(self.img1.data, width, height, bytesPerLine,
QImage.Format_RGB888).rgbSwapped()
# 将Qimage显示出来
self.label_2.setPixmap(QPixmap.fromImage( self.qImg1))
def refreshShowc(self):#显示ccd3到label3
# 提取图像的尺寸和通道, 用于将opencv下的image转换成Qimage
height, width, channel = self.img2.shape
bytesPerLine = 3 * width
self.qImg2 = QImage(self.img2.data, width, height, bytesPerLine,
QImage.Format_RGB888).rgbSwapped()
# 将Qimage显示出来
self.label_3.setPixmap(QPixmap.fromImage( self.qImg2))
def refreshShowd(self):#显示ccd4到label4
# 提取图像的尺寸和通道, 用于将opencv下的image转换成Qimage
height, width, channel = self.img3.shape
bytesPerLine = 3 * width
self.qImg3 = QImage(self.img3.data, width, height, bytesPerLine,
QImage.Format_RGB888).rgbSwapped()
# 将Qimage显示出来
self.label_4.setPixmap(QPixmap.fromImage( self.qImg3))
def refreshShowe(self):#显示合并的影像到label6
# 提取图像的尺寸和通道, 用于将opencv下的image转换成Qimage
height, width, channel = self.img4.shape
bytesPerLine = 3 * width
self.qImg4 = QImage(self.img4.data, width, height, bytesPerLine,
QImage.Format_RGB888).rgbSwapped()
# 将Qimage显示出来
self.label_6.setPixmap(QPixmap.fromImage( self.qImg4))
def ccd1(self):
self.cap.set(3, 640)
self.cap.set(4, 480)
ret, self.img = self.cap.read()
self.refreshShowa()
# 启动另一个线程
self.work0.start()#注意一致性
def ccd2(self, str):
self.cap1.set(3, 640)
self.cap1.set(4, 480)
ret, self.img1 = self.cap1.read()
self.refreshShowb()
self.work.start()#注意一致性
def ccd3(self, str):
self.cap2.set(3, 640)
self.cap2.set(4, 480)
ret, self.img2= self.cap2.read()
self.refreshShowc()
self.work2.start()#注意一致性
def ccd4(self, str):
self.cap3.set(3, 640)
self.cap3.set(4, 480)
ret, self.img3 = self.cap3.read()
self.refreshShowd()
self.work3.start()#注意一致性
def ccdmerge(self, str):
self.img4=np.hstack((self.img, self.img1))
self.img4=np.vstack((self.img4, np.hstack((self.img2, self.img3))))
#print ('here is a merge process') 可以用来判断多线程的执行
self.refreshShowe() #later to remove the remark
self.work4.start()#注意一致性
def savemergeimage(self):
# 调用存储文件dialog
fileName, tmp = QFileDialog.getSaveFileName(
self, 'Save Image', './__data', '*.png *.jpg *.bmp', '*.png')
if fileName == '':
return
if self.img.size == 1:
return
# 调用opencv写入图像
cv.imwrite(fileName,self.img4)
class WorkThread(QThread): #多线程核心，非常重要
# 定义一个信号
trigger = pyqtSignal(str)
def __int__(self):
# 初始化函数，默认
super(WorkThread, self).__init__()
def run(self):
self.trigger.emit('')
if __name__ == "__main__":
app = QtWidgets.QApplication(sys.argv)
w = MainWindow()
w.show()
sys.exit(app.exec_())

Ⅳ 微信聊天记录使用python爬虫到底能采集吗

首先，下载互盾苹果恢复大师，先安装好备用。
第二，打开“互盾苹果恢复大师”软件，看到界面上“从iTunes备份文件中恢复”，点击即可。
第三，此时你可以看到软件正在扫描手机数据，等待扫描完成即可。
第四，扫描完成后，可以看到界面上有“微信”、“短信”等栏目显示，点击“微信”即可恢复微信的内容。
最后，点击“微信”后可以在右侧直接看到内容，也可以选择“导出”。

Ⅳ 对于数据抓取和采集，是用python好还是php好

1. python不是脚本语言，虽然它是动态解释的。它可以完成系统级的开发。
2. python是跨平台的，你可以运用python在mac,在linux，在win下，甚至是s60手机中开发软件；PHP没有这些能力。
3. 从语法上说python的语法蜜糖更多些，语言结构简练，最简单的，PHP的就比较复杂繁琐。
4. web开发上，PHP应用较广，有很多现成的代码和模版，python这方面欠缺，虽然它有很多很好的框架。比如django。
5. python因其应用范围，学习时间更长，当然如果你只玩网站建设，像有人说的webpy学习周期很短，基本上在浏览器中就能完成基本的建站工作。
6. 如果要学习编程技术，建议python。如果想尽快出网站建议PHP。

Ⅵ 学python可以编辑采集器吗

python完全可以胜任这个工作，它很适合大数据操作的

Ⅶ python 做监控数据采集，怎么做.新手请教

这么具体的问题，找通用demo很难啊，个人觉得问题的难点不在Python。
1. 获取什么服务器性能数据和如何获取，可以请教公司内部运维。
2. 获取什么数据库性能数据和如何获取，可以请教公司内部DBA。
3. 以上两点搞定了，才能确定临时数据存储结构和最终数据库表结构。

以上三点是关键，Python的事情就简单多了，提供一种思路：一分钟一次，实时性不高，每台服务器用cron部署一个a.py，用于获取性能数据，在某
一台服务器有一个b.py，负责获取所有服务器a.py产生的数据，然后写入数据库；a.py如何上报到b.py取决于你擅长什么，如果熟悉网络编程，用
a.py做客户端上报到服务端b.py，如果熟悉shell的文件同步(如rsync)，a.py只写本地文件，b.py调用c.sh（封装rsync）
拉取远程文件。

如果解决了您的问题请采纳！
如果未解决请继续追问！

Ⅷ 如何利用python对网页的数据进行实时采集并输出

这让我想到了一个应用场景，在实时网络征信系统中，通过即时网络爬虫从多个信用数据源获取数据。并且将数据即时注入到信用评估系统中，形成一个集成化的数据流。

可以通过下面的代码生成一个提取器将标准的HTML DOM对象输出为结构化内容。

图片来自集搜客网络爬虫官网，侵删。

Ⅸ 如何用最简单的Python爬虫采集整个网站

采集网站数据并不难，但是需要爬虫有足够的深度。我们创建一个爬虫，递归地遍历每个网站，只收集那些网站页面上的数据。一般的比较费时间的网站采集方法从顶级页面开始（一般是网站主页），然后搜索页面上的所有链接，形成列表，再去采集到的这些链接页面，继续采集每个页面的链接形成新的列表，重复执行。

Ⅹ 基于python数据采集与处理

数据采集作为信息获取的主要方法,被广泛应用于电力监测、航空航天、生物医学、电子通信等测控领域。
针对LabVIEW数据采集系统整体架构以及系统软件设计进行了分析，希望能借助LabVIEW丰富的函数库,易于进行系统功能扩展。

阅读全文

热点内容

支票原始密码是多少发布：2024-12-28 18:20:21 浏览：338

官方版的时空猎人怎么改密码发布：2024-12-28 18:12:28 浏览：323

万能钥匙wifi破解不了密码怎么办发布：2024-12-28 18:03:41 浏览：162

上传义乌购发布：2024-12-28 17:57:59 浏览：280

python网络开发发布：2024-12-28 17:56:36 浏览：511

androidisvisible 发布：2024-12-28 17:51:43 浏览：513

安卓系统如何卡游戏首充优惠发布：2024-12-28 17:30:51 浏览：478

收银机密码忘了怎么办发布：2024-12-28 17:24:57 浏览：653

开源服务器怎么登陆发布：2024-12-28 17:22:47 浏览：268

微信无法清理缓存发布：2024-12-28 17:19:34 浏览：19

python采集

与python采集相关的资讯