當前位置:首頁 » 編程語言 » python爬取知乎

python爬取知乎

發布時間: 2022-08-08 11:43:04

『壹』 python爬取知乎首頁問題

唔可能是你沒有登錄成功啊

因為發現-知乎這個鏈接是不用登錄就能抓的

但是這個知乎沒有登錄不行

看了下知乎登錄不是這么簡單的你沒有登錄成功

『貳』 python爬蟲能幹什麼

python爬蟲就是模擬瀏覽器打開網頁,獲取網頁中想要的那部分數據。利用爬蟲我們可以抓取商品信息、評論及銷量數據;可以抓取房產買賣及租售信息;可以抓取各類職位信息等。

爬蟲:

網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

(推薦教程:Python入門教程)

通俗的講就是通過程序去獲取web頁面上自己想要的數據,也就是自動抓取數據。

python爬蟲能做什麼?

從技術層面來說就是通過程序模擬瀏覽器請求站點的行為,把站點返回的HTML代碼/JSON數據/二進制數據(圖片、視頻) 爬到本地,進而提取自己需要的數據存放起來使用。

利用爬蟲我們可以獲取大量的價值數據,從而獲得感性認識中不能得到的信息,比如:

爬取知乎優質答案,為你篩選出各話題下最優質的內容。

抓取淘寶、京東商品、評論及銷量數據,對各種商品及用戶的消費場景進行分析。

抓取房產買賣及租售信息,分析房價變化趨勢、做不同區域的房價分析。

爬取各類職位信息,分析各行業人才需求情況及薪資水平。

爬蟲的本質:

爬蟲的本質就是模擬瀏覽器打開網頁,獲取網頁中我們想要的那部分數據。

『叄』 如何利用python爬取知乎首頁

找本有爬蟲項目的參考書,照著做一遍;或者網上爬蟲項目的視頻,學懂了就好,不就是爬個首頁而已嘛。

『肆』 如何使用python爬取知乎數據並做簡單分析

一、使用的技術棧:
爬蟲:python27 +requests+json+bs4+time
分析工具: ELK套件
開發工具:pycharm
數據成果簡單的可視化分析
1.性別分布
0 綠色代表的是男性 ^ . ^
1 代表的是女性
-1 性別不確定
可見知乎的用戶男性頗多。
二、粉絲最多的top30
粉絲最多的前三十名:依次是張佳瑋、李開復、黃繼新等等,去知乎上查這些人,也差不多這個排名,說明爬取的數據具有一定的說服力。
三、寫文章最多的top30
四、爬蟲架構
爬蟲架構圖如下:
說明:
選擇一個活躍的用戶(比如李開復)的url作為入口url.並將已爬取的url存在set中。
抓取內容,並解析該用戶的關注的用戶的列表url,添加這些url到另一個set中,並用已爬取的url作為過濾。
解析該用戶的個人信息,並存取到本地磁碟。
logstash取實時的獲取本地磁碟的用戶數據,並給elsticsearchkibana和elasticsearch配合,將數據轉換成用戶友好的可視化圖形。
五、編碼
爬取一個url:
解析內容:
存本地文件:
代碼說明:
* 需要修改獲取requests請求頭的authorization。
* 需要修改你的文件存儲路徑。
源碼下載:點擊這里,記得star哦!https : // github . com/forezp/ZhihuSpiderMan六、如何獲取authorization
打開chorme,打開https : // www. hu .com/,
登陸,首頁隨便找個用戶,進入他的個人主頁,F12(或滑鼠右鍵,點檢查)七、可改進的地方
可增加線程池,提高爬蟲效率
存儲url的時候我才用的set(),並且採用緩存策略,最多隻存2000個url,防止內存不夠,其實可以存在redis中。
存儲爬取後的用戶我說採取的是本地文件的方式,更好的方式應該是存在mongodb中。
對爬取的用戶應該有一個信息的過濾,比如用戶的粉絲數需要大與100或者參與話題數大於10等才存儲。防止抓取了過多的僵屍用戶。
八、關於ELK套件
關於elk的套件安裝就不討論了,具體見官網就行了。網站:https : // www . elastic . co/另外logstash的配置文件如下:
從爬取的用戶數據可分析的地方很多,比如地域、學歷、年齡等等,我就不一一列舉了。另外,我覺得爬蟲是一件非常有意思的事情,在這個內容消費升級的年代,如何在廣闊的互聯網的數據海洋中挖掘有價值的數據,是一件值得思考和需不斷踐行的事情。

『伍』 request庫用python3怎麼偽裝header爬取知乎

可以嘗試安裝一個簡單實用的庫:fake-useragent

網址鏈接:https://pypi.python.org/pypi/fake-useragent

下載後,在命令行裡面輸入:pip install fake-useragent就可以了

嘗試輸入下面代碼:

from fake_useragent import UserAgent
ua = UserAgent()
#ie瀏覽器的user agent
print(ua.ie)

『陸』 知乎python 爬蟲如何入門學習

鏈接:https://pan..com/s/1wMgTx-M-Ea9y1IYn-UTZaA

提取碼:2b6c

課程簡介

畢業不知如何就業?工作效率低經常挨罵?很多次想學編程都沒有學會?

Python 實戰:四周實現爬蟲系統,無需編程基礎,二十八天掌握一項謀生技能。

帶你學到如何從網上批量獲得幾十萬數據,如何處理海量大數據,數據可視化及網站製作。

課程目錄

開始之前,魔力手冊 for 實戰學員預習

第一周:學會爬取網頁信息

第二周:學會爬取大規模數據

第三周:數據統計與分析

第四周:搭建 Django 數據可視化網站

......

『柒』 Python如何爬取知乎一個話題下的全部源碼(為什麼我只能獲取很少一部分)

手動打開知乎也只能看到很少一部分,必須下拉才會載入。所以要模擬這種動作吧。

『捌』 python爬蟲登錄知乎後怎樣爬取數據

模擬登錄
很多網站,比如知乎、微博、豆瓣,都需要登錄之後,才能瀏覽某些內容。所以想要爬取這類網站,必須先模擬登錄。比較簡單的方式是利用這個網站的 cookie。cookie 相當於是一個密碼箱,裡面儲存了用戶在該網站的基本信息。在一次登錄之後,網站會記住你的信息,把它放到cookie里,方便下次自動登錄。所以,要爬取這類網站的策略是:先進行一次手動登錄,獲取cookie,然後再次登錄時,調用上一次登錄得到的cookie,實現自動登錄。
動態爬取
在爬取知乎某個問題的時候,需要將滑動滑鼠滾輪到底部,以顯示新的回答。靜態的爬取方法無法做到這一點,可以引入selenium庫來解決這一問題。selenium庫模擬人瀏覽網站、進行操作,簡單易懂。

『玖』 如何入門 Python 爬蟲

個人覺得:
新手學習python爬取網頁先用下面4個庫就夠了:(第4個是實在搞不定用的,當然某些特殊情況它也可能搞不定)

1. 打開網頁,下載文件:urllib
2. 解析網頁:BeautifulSoup,熟悉JQuery的可以用Pyquery
3. 使用Requests來提交各種類型的請求,支持重定向,cookies等。
4. 使用Selenium,模擬瀏覽器提交類似用戶的操作,處理js動態產生的網頁

這幾個庫有它們各自的功能。配合起來就可以完成爬取各種網頁並分析的功能。具體的用法可以查他們的官網手冊(上面有鏈接)。

做事情是要有驅動的,如果你沒什麼特別想抓取的,新手學習可以從這個闖關網站開始
,目前更新到第五關,闖過前四關,你應該就掌握了這些庫的基本操作。

實在闖不過去,再到這里看題解吧,第四關會用到並行編程。(串列編程完成第四關會很費時間哦),第四,五關只出了題,還沒發布題解。。。

學完這些基礎,再去學習scrapy這個強大的爬蟲框架會更順些。這里有它的中文介紹。

這是我在知乎的回答,直接轉過來有些鏈接沒有生效,可以到這里看原版,http://www.hu.com/question/20899988/answer/59131676

『拾』 如何利用python 爬取知乎上面的數據

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author: Administrator
# @Date: 2015-10-31 15:45:27
# @Last Modified by: Administrator
# @Last Modified time: 2015-11-23 16:57:31
import requests
import sys
import json
import re
reload(sys)
sys.setdefaultencoding('utf-8')

#獲取到匹配字元的字元串
def find(pattern,test):
finder = re.search(pattern, test)
start = finder.start()
end = finder.end()
return test[start:end-1]

cookies = {
'_ga':'GA1.2.10sdfsdfsdf', '_za':'8d570b05-b0b1-4c96-a441-faddff34',
'q_c1':'23ddd234234',
'_xsrf':'234id':'"ZTE3NWY2ZTsdfsdfsdfWM2YzYxZmE=|1446435757|"',
'z_c0':'"=|14464e234767|"',
'__utmt':'1', '__utma':'51854390.109883802f8.1417518721.1447917637.144c7922009.4',
'__utmb':'518542340.4.10.1447922009', '__utmc':'51123390', '__utmz':'5185435454sdf06.1.1.utmcsr=hu.com|utmcgcn=(referral)|utmcmd=referral|utmcct=/',
'__utmv':'51854340.1d200-1|2=registration_date=2028=1^3=entry_date=201330318=1'}

headers = {'user-agent':
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36',
'referer':'http://www.hu.com/question/following',
'host':'www.hu.com','Origin':'http://www.hu.com',
'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
'Connection':'keep-alive','X-Requested-With':'XMLHttpRequest','Content-Length':'81',
'Accept-Encoding':'gzip,deflate','Accept-Language':'zh-CN,zh;q=0.8','Connection':'keep-alive'
}

#多次訪問之後,其實一載入時載入20個問題,具體參數傳輸就是offset,以20遞增

dicc = {"offset":60}
n=20
b=0

# 與爬取圖片相同的是,往下拉的時候也會發送http請求返回json數據,但是不同的是,像模擬登錄首頁不同的是除了
# 發送form表單的那些東西後,知乎是拒絕了我的請求了,剛開始以為是headers上的攔截,往headers添加瀏覽器
# 訪問是的headers那些信息添加上,發現還是拒絕訪問。

#想了一下,應該是cookie原因。這個載入的請求和模擬登錄首頁不同
#所以補上其他的cookies信息,再次請求,請求成功。
for x in xrange(20,460,20):
n = n+20
b = b+20
dicc['offset'] = x
formdata = {'method':'next','params':'{"offset":20}','_xsrf':''}

#傳輸需要json串,和python的字典是有區別的,需要轉換
formdata['params'] = json.mps(dicc)
# print json.mps(dicc)
# print dicc

circle = requests.post("http://www.hu.com/node/ProfileFollowedQuestionsV2",
cookies=cookies,data=formdata,headers=headers)

#response內容 其實爬過一次之後就大同小異了。 都是
#問題返回的json串格式
# {"r":0,
# "msg": ["<div class=\"zm-profile-section-item zg-clear\">\n
# <span class=\"zm-profile-vote-count\">\n<div class=\"zm-profile-vote-num\">205K<\/div>\n
# <div class=\"zm-profile-vote-type\">\u6d4f\u89c8<\/div>\n
# <\/span>\n<div class=\"zm-profile-section-main\">\n
# <h2 class=\"zm-profile-question\">\n
# <a class=\"question_link\" target=\"_blank\" href=\"\/question\/21719532\">
# \u4ec0\u4e48\u4fc3\u4f7f\u4f60\u8d70\u4e0a\u72ec\u7acb\u5f00\u53d1\u8005\u4e4b\u8def\uff1f<\/a>\n
# <\/h2>\n<div class=\"meta zg-gray\">\n<a data-follow=\"q:link\" class=\"follow-link zg-unfollow meta-item\"
# href=\"javascript:;\" id=\"sfb-868760\">
# <i class=\"z-icon-follow\"><\/i>\u53d6\u6d88\u5173\u6ce8<\/a>\n<span class=\"zg-bull\">•<\/span>\n63 \u4e2a\u56de\u7b54\n<span class=\"zg-bull\">•<\/span>\n3589 \u4eba\u5173\u6ce8\n<\/div>\n<\/div>\n<\/div>",
# "<div class=\"zm-profile-section-item zg-clear\">\n
# <span class=\"zm-profile-vote-count\">\n
# <div class=\"zm-profile-vote-num\">157K<\/div>\n
# <div class=\"zm-profile-vote-type\">\u6d4f\u89c8<\/div>\n
# <\/span>\n<div class=\"zm-profile-section-main\">\n
# <h2 class=\"zm-profile-question\">\n
# <a class=\"question_link\" target=\"_blank\" href=\"\/question\/31764065\">
# \u672c\u79d1\u6e23\u6821\u7684\u5b66\u751f\u5982\u4f55\u8fdb\u5165\u7f8e\u5e1d\u725b\u6821\u8bfbPhD\uff1f<\/a>\n
# <\/h2>\n<div class=\"meta zg-gray\">\n
# <a data-follow=\"q:link\" class=\"follow-link zg-unfollow meta-item\" href=\"javascript:;\" id=\"sfb-4904877\">
# <i class=\"z-icon-follow\"><\/i>\u53d6\u6d88\u5173\u6ce8<\/a>\n<span class=\"zg-bull\">•
# <\/span>\n112 \u4e2a\u56de\u7b54\n<span class=\"zg-bull\">•<\/span>\n1582 \u4eba\u5173\u6ce8\n
# <\/div>\n<\/div>\n<\/div>"]}
# print circle.content

#同樣json串需要自己 轉換成字典後使用
jsondict = json.loads(circle.text)
msgstr = jsondict['msg']
# print len(msgstr)

#根據自己所需要的提取信息規則寫出正則表達式
pattern = 'question\/.*?/a>'
try:
for y in xrange(0,20):
wholequestion = find(pattern, msgstr[y])
pattern2 = '>.*?<'
finalquestion = find(pattern2, wholequestion).replace('>','')
print str(b+y)+" "+finalquestion

#當問題已經訪問完後再傳參數 拋出異常 此時退出循環
except Exception, e:
print "全部%s個問題" %(b+y)
break

熱點內容
hibernate查詢sql語句 發布:2025-01-21 18:48:46 瀏覽:303
微信在安卓手機的哪個文件夾 發布:2025-01-21 18:43:52 瀏覽:51
sql127001 發布:2025-01-21 18:31:50 瀏覽:112
伺服器ip是什麼格式 發布:2025-01-21 18:13:13 瀏覽:706
oa和郵箱的初始密碼在哪裡改 發布:2025-01-21 18:08:46 瀏覽:52
如何去除pdf的加密 發布:2025-01-21 18:08:46 瀏覽:565
雲端的伺服器怎麼設置ip 發布:2025-01-21 17:48:52 瀏覽:186
會議腳本 發布:2025-01-21 17:41:29 瀏覽:23
android的toast 發布:2025-01-21 17:41:28 瀏覽:9
linux默認安裝的mysql 發布:2025-01-21 17:40:08 瀏覽:912