豆瓣爬取電視劇並存儲

發布時間: 2022-02-27 11:45:17

❶ 用java調用了豆瓣api後，怎麼講獲得的數據存儲到資料庫中

首先，不管你用何種語言，對於api它總是依賴一個協議（http）
通過情況下，都會搭建一個webservice，暴露一些介面供他人調用
wenservice經常是跨平台（語言）、跨資料庫，所以你用何種語言都可以

以java為例，對於api所提供的介面，你想如何存儲介面返回的數據，
首先要弄清楚介面返回的數據格式
通常有xml、json、jsonp等
然後你進行解析，然後按照你創建表進行保存
或許更簡單一點，他們的api會提供幾個jar包，直接調用function，即可得到你想的數據

一般對於開放的第三方介面都有文檔提供，你可以搜搜

❷ 如何給一部電視劇評價下載豆瓣嗎

可以下載一個，因為很多人看評分是一豆瓣為准，其實了很多看電視的app 也是可以評分的。

❸ U盤可以下載和存儲電影電視劇嗎還是只能通過硬碟到哪裡下載呢

相同點：1、都是用來儲存和轉移數據。
2、容量相對較小。
3、都有一定的使用壽命。
不同點：1、U盤比硬碟輕便。
2、硬碟平均容量價格比U盤便宜，容量比U盤大。
3、硬碟使用條件比U盤苛刻，受到劇烈震動極容易損毀。
鑒於你要看電影與電視劇容量在（500MB-5G），建議你買移動硬碟，價格在400RMB-500RMB 間，有10G-20G間容量可供選。

❹ 怎樣儲存豆瓣

360有登陸管家，保存就行了 http://www.douban.com/group/530515/

❺ 如何用python爬取豆瓣讀書的數據

這兩天爬了豆瓣讀書的十萬條左右的書目信息，用時將近一天，現在趁著這個空閑把代碼總結一下，還是菜鳥，都是用的最簡單最笨的方法，還請路過的大神不吝賜教。
第一步，先看一下我們需要的庫：

import requests #用來請求網頁
from bs4 import BeautifulSoup #解析網頁
import time #設置延時時間，防止爬取過於頻繁被封IP號
import re #正則表達式庫
import pymysql #由於爬取的數據太多，我們要把他存入MySQL資料庫中，這個庫用於連接資料庫
import random #這個庫里用到了產生隨機數的randint函數，和上面的time搭配，使爬取間隔時間隨機

這個是豆瓣的網址：x-sorttags-all
我們要從這里獲取所有分類的標簽鏈接，進一步去爬取裡面的信息，代碼先貼上來：

import requests
from bs4 import BeautifulSoup #導入庫

url="httom/tag/?icn=index-nav"
wb_data=requests.get(url) #請求網址
soup=BeautifulSoup(wb_data.text,"lxml") #解析網頁信息
tags=soup.select("#content > div > div.article > div > div > table > tbody > tr > td > a")
#根據CSS路徑查找標簽信息，CSS路徑獲取方法，右鍵-檢查- selector，tags返回的是一個列表
for tag in tags:
tag=tag.get_text() #將列表中的每一個標簽信息提取出來
helf="hom/tag/"
#觀察一下豆瓣的網址，基本都是這部分加上標簽信息，所以我們要組裝網址，用於爬取標簽詳情頁
url=helf+str(tag)
print(url) #網址組裝完畢，輸出

以上我們便爬取了所有標簽下的網址，我們將這個文件命名為channel,並在channel中創建一個channel字元串，放上我們所有爬取的網址信息，等下爬取詳情頁的時候直接從這里提取鏈接就好了，如下：

channel='''
tag/程序
'''

現在，我們開始第二個程序。

QQ圖片20160915233329.png

標簽頁下每一個圖片的信息基本都是這樣的，我們可以直接從這里提取到標題，作者，出版社，出版時間，價格，評價人數，以及評分等信息（有些外國作品還會有譯者信息），提取方法與提取標簽類似，也是根據CSS路徑提取。
我們先用一個網址來實驗爬取：

url="htt/tag/科技"
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")
tag=url.split("?")[0].split("/")[-1] #從鏈接裡面提取標簽信息，方便存儲
detils=soup.select("#subject_list > ul > li > div.info > div.pub") #抓取作者，出版社信息，稍後我們用spite()函數再將他們分離出來
scors=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums") #抓取評分信息
persons=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.pl") #評價人數
titles=soup.select("#subject_list > ul > li > div.info > h2 > a") #書名
#以上抓取的都是我們需要的html語言標簽信息，我們還需要將他們一一分離出來
for detil,scor,person,title in zip(detils,scors,persons,titles):
#用一個zip()函數實現一次遍歷
#因為一些標簽中有譯者信息，一些標簽中沒有，為避免錯誤，所以我們要用一個try來把他們分開執行
try:
author=detil.get_text().split("/",4)[0].split()[0] #這是含有譯者信息的提取辦法，根據「/」把標簽分為五部分，然後依次提取出來
yizhe= detil.get_text().split("/", 4)[1]
publish=detil.get_text().split("/", 4)[2]
time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0] #時間我們只提取了出版年份
price=ceshi_priceone(detil) #因為價格的單位不統一，我們用一個函數把他們換算為「元」
scoe=scor.get_text() if True else "" #有些書目是沒有評分的，為避免錯誤，我們把沒有評分的信息設置為空
person=ceshi_person(person) #有些書目的評價人數顯示少於十人，爬取過程中會出現錯誤，用一個函數來處理
title=title.get_text().split()[0]
#當沒有譯者信息時，會顯示IndexError，我們分開處理
except IndexError:
try:
author=detil.get_text().split("/", 3)[0].split()[0]
yizhe="" #將detil信息劃分為4部分提取，譯者信息直接設置為空，其他與上面一樣
publish=detil.get_text().split("/", 3)[1]
time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]
price=ceshi_pricetwo(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except (IndexError,TypeError):
continue
#出現其他錯誤信息，忽略，繼續執行（有些書目信息下會沒有出版社或者出版年份，但是數量很少，不影響我們大規模爬取，所以直接忽略）
except TypeError:
continue

#提取評價人數的函數，如果評價人數少於十人，按十人處理
def ceshi_person(person):
try:
person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])
except ValueError:
person = int(10)
return person

#分情況提取價格的函數，用正則表達式找到含有特殊字元的信息，並換算為「元」
def ceshi_priceone(price):
price = detil.get_text().split("/", 4)[4].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price
def ceshi_pricetwo(price):
price = detil.get_text().split("/", 3)[3].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

實驗成功後，我們就可以爬取數據並導入到資料庫中了，以下為全部源碼，特殊情況會用注釋一一說明。

import requests
from bs4 import BeautifulSoup
import time
import re
import pymysql
from channel import channel #這是我們第一個程序爬取的鏈接信息
import random

def ceshi_person(person):
try:
person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])
except ValueError:
person = int(10)
return person

def ceshi_priceone(price):
price = detil.get_text().split("/", 4)[4].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

def ceshi_pricetwo(price):
price = detil.get_text().split("/", 3)[3].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

#這是上面的那個測試函數，我們把它放在主函數中
def mains(url):
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")
tag=url.split("?")[0].split("/")[-1]
detils=soup.select("#subject_list > ul > li > div.info > div.pub")
scors=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums")
persons=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.pl")
titles=soup.select("#subject_list > ul > li > div.info > h2 > a")
for detil,scor,person,title in zip(detils,scors,persons,titles):
l = [] #建一個列表，用於存放數據
try:
author=detil.get_text().split("/",4)[0].split()[0]
yizhe= detil.get_text().split("/", 4)[1]
publish=detil.get_text().split("/", 4)[2]
time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0]
price=ceshi_priceone(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except IndexError:
try:
author=detil.get_text().split("/", 3)[0].split()[0]
yizhe=""
publish=detil.get_text().split("/", 3)[1]
time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]
price=ceshi_pricetwo(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except (IndexError,TypeError):
continue

except TypeError:
continue
l.append([title,scoe,author,price,time,publish,person,yizhe,tag])
#將爬取的數據依次填入列表中

sql="INSERT INTO allbooks values(%s,%s,%s,%s,%s,%s,%s,%s,%s)" #這是一條sql插入語句
cur.executemany(sql,l) #執行sql語句，並用executemary()函數批量插入資料庫中
conn.commit()

#主函數到此結束

# 將Python連接到MySQL中的python資料庫中
conn = pymysql.connect( user="root",password="123123",database="python",charset='utf8')
cur = conn.cursor()

cur.execute('DROP TABLE IF EXISTS allbooks') #如果資料庫中有allbooks的資料庫則刪除
sql = """CREATE TABLE allbooks(
title CHAR(255) NOT NULL,
scor CHAR(255),
author CHAR(255),
price CHAR(255),
time CHAR(255),
publish CHAR(255),
person CHAR(255),
yizhe CHAR(255),
tag CHAR(255)
)"""
cur.execute(sql) #執行sql語句，新建一個allbooks的資料庫

start = time.clock() #設置一個時鍾，這樣我們就能知道我們爬取了多長時間了
for urls in channel.split():
urlss=[urls+"?start={}&type=T".format(str(i)) for i in range(0,980,20)] #從channel中提取url信息，並組裝成每一頁的鏈接
for url in urlss:
mains(url) #執行主函數，開始爬取
print(url) #輸出要爬取的鏈接，這樣我們就能知道爬到哪了，發生錯誤也好處理
time.sleep(int(format(random.randint(0,9)))) #設置一個隨機數時間，每爬一個網頁可以隨機的停一段時間，防止IP被封
end = time.clock()
print('Time Usage:', end - start) #爬取結束，輸出爬取時間
count = cur.execute('select * from allbooks')
print('has %s record' % count) #輸出爬取的總數目條數

# 釋放數據連接
if cur:
cur.close()
if conn:
conn.close()

這樣，一個程序就算完成了，豆瓣的書目信息就一條條地寫進了我們的資料庫中，當然，在爬取的過程中，也遇到了很多問題，比如標題返回的信息拆分後中會有空格，寫入資料庫中會出現錯誤，所以只截取了標題的第一部分，因而導致資料庫中的一些書名不完整，過往的大神如果有什麼辦法，還請指教一二。
等待爬取的過程是漫長而又欣喜的，看著電腦上一條條信息被刷出來，成就感就不知不覺湧上心頭；然而如果你吃飯時它在爬，你上廁所時它在爬，你都已經爬了個山回來了它還在爬時，便會有點崩潰了，擔心電腦隨時都會壞掉（還是窮學生換不起啊啊啊啊~）
所以，還是要好好學學設置斷點，多線程，以及正則，路漫漫其修遠兮，吾將上下而求索~共勉~

❻ 豆瓣電影里的電視劇、綜藝劇照、海報圖片可以用下圖高手批量保存到電腦上嗎

可以的，我也是用下圖高手軟體下載的。

❼ 請問下圖高手可以批量下載豆瓣電影上的電視劇劇照圖片嗎

可以下載，把豆瓣電影圖片的鏈接復制到下圖高手軟體上就能批量下載圖片了。

❽ 豆瓣里怎麼沒有電視劇分類電影分類倒是齊全，但電視劇就只找到了新片榜，以前的那些怎麼找出來

電視劇分類默認歸檔到電影裡面了，你可以選擇「分類」

❾ 人人韓劇緩存電視劇怎麼存儲到外置內存卡求答！

若將手機中的文件與外置SD卡互相轉移，請操作：
1.若將話機中的多媒體文件移動到SD卡中：我的文件-設備存儲-查找需要移動的文件夾-更多-編輯-選擇需要移動的文件-移動至，返回到external_sd-點擊"移動到此處"即可。反之亦然。
2.部分手機支持將軟體移動到SD卡中，操作：設置-應用程序-應用程序管理器-打開某個軟體-存儲-選擇已使用的存儲空間-更改-選擇SD卡（或設置-更多-應用程序管理器-選中某個程序-移動到SD卡）。
溫馨提示：不是所有的程序均可移至到SD卡，具體根據所下載的軟體決定。

❿ 手機在哪裡可以下載電視劇跟電影並且直接保存到手機存儲

手機可以在一些視頻軟體里下載電視劇跟電影的片段。直接保存到手機相冊裡面就有說騰訊視頻，看視頻的時候是可以下載下來。

閱讀全文

熱點內容

android路線規劃發布：2025-03-14 13:23:22 瀏覽：302

poi瀏覽器島風go緩存發布：2025-03-14 13:10:24 瀏覽：187

具體可要說存儲在鋼瓶中是因為發布：2025-03-14 13:00:36 瀏覽：440

汽車空調壓縮機不轉了發布：2025-03-14 12:55:45 瀏覽：30

安卓和平營地cp怎麼組發布：2025-03-14 12:55:40 瀏覽：604

時序模式演算法發布：2025-03-14 12:50:45 瀏覽：203

爐石傳說標准模式多腳本發布：2025-03-14 12:47:53 瀏覽：210

密碼鎖用密碼打不開是什麼原因發布：2025-03-14 12:31:25 瀏覽：196

低溫存儲測試發布：2025-03-14 12:10:22 瀏覽：245

c語言二維數組的輸出發布：2025-03-14 11:58:10 瀏覽：26

豆瓣爬取電視劇並存儲

與豆瓣爬取電視劇並存儲相關的資訊