豆瓣爬取电视剧并存储

发布时间: 2022-02-27 11:45:17

❶ 用java调用了豆瓣api后，怎么讲获得的数据存储到数据库中

首先，不管你用何种语言，对于api它总是依赖一个协议（http）
通过情况下，都会搭建一个webservice，暴露一些接口供他人调用
wenservice经常是跨平台（语言）、跨数据库，所以你用何种语言都可以

以java为例，对于api所提供的接口，你想如何存储接口返回的数据，
首先要弄清楚接口返回的数据格式
通常有xml、json、jsonp等
然后你进行解析，然后按照你创建表进行保存
或许更简单一点，他们的api会提供几个jar包，直接调用function，即可得到你想的数据

一般对于开放的第三方接口都有文档提供，你可以搜搜

❷ 如何给一部电视剧评价下载豆瓣吗

可以下载一个，因为很多人看评分是一豆瓣为准，其实了很多看电视的app 也是可以评分的。

❸ U盘可以下载和存储电影电视剧吗还是只能通过硬盘到哪里下载呢

相同点：1、都是用来储存和转移数据。
2、容量相对较小。
3、都有一定的使用寿命。
不同点：1、U盘比硬盘轻便。
2、硬盘平均容量价格比U盘便宜，容量比U盘大。
3、硬盘使用条件比U盘苛刻，受到剧烈震动极容易损毁。
鉴于你要看电影与电视剧容量在（500MB-5G），建议你买移动硬盘，价格在400RMB-500RMB 间，有10G-20G间容量可供选。

❹ 怎样储存豆瓣

360有登陆管家，保存就行了 http://www.douban.com/group/530515/

❺ 如何用python爬取豆瓣读书的数据

这两天爬了豆瓣读书的十万条左右的书目信息，用时将近一天，现在趁着这个空闲把代码总结一下，还是菜鸟，都是用的最简单最笨的方法，还请路过的大神不吝赐教。
第一步，先看一下我们需要的库：

import requests #用来请求网页
from bs4 import BeautifulSoup #解析网页
import time #设置延时时间，防止爬取过于频繁被封IP号
import re #正则表达式库
import pymysql #由于爬取的数据太多，我们要把他存入MySQL数据库中，这个库用于连接数据库
import random #这个库里用到了产生随机数的randint函数，和上面的time搭配，使爬取间隔时间随机

这个是豆瓣的网址：x-sorttags-all
我们要从这里获取所有分类的标签链接，进一步去爬取里面的信息，代码先贴上来：

import requests
from bs4 import BeautifulSoup #导入库

url="httom/tag/?icn=index-nav"
wb_data=requests.get(url) #请求网址
soup=BeautifulSoup(wb_data.text,"lxml") #解析网页信息
tags=soup.select("#content > div > div.article > div > div > table > tbody > tr > td > a")
#根据CSS路径查找标签信息，CSS路径获取方法，右键-检查- selector，tags返回的是一个列表
for tag in tags:
tag=tag.get_text() #将列表中的每一个标签信息提取出来
helf="hom/tag/"
#观察一下豆瓣的网址，基本都是这部分加上标签信息，所以我们要组装网址，用于爬取标签详情页
url=helf+str(tag)
print(url) #网址组装完毕，输出

以上我们便爬取了所有标签下的网址，我们将这个文件命名为channel,并在channel中创建一个channel字符串，放上我们所有爬取的网址信息，等下爬取详情页的时候直接从这里提取链接就好了，如下：

channel='''
tag/程序
'''

现在，我们开始第二个程序。

QQ图片20160915233329.png

标签页下每一个图片的信息基本都是这样的，我们可以直接从这里提取到标题，作者，出版社，出版时间，价格，评价人数，以及评分等信息（有些外国作品还会有译者信息），提取方法与提取标签类似，也是根据CSS路径提取。
我们先用一个网址来实验爬取：

url="htt/tag/科技"
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")
tag=url.split("?")[0].split("/")[-1] #从链接里面提取标签信息，方便存储
detils=soup.select("#subject_list > ul > li > div.info > div.pub") #抓取作者，出版社信息，稍后我们用spite()函数再将他们分离出来
scors=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums") #抓取评分信息
persons=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.pl") #评价人数
titles=soup.select("#subject_list > ul > li > div.info > h2 > a") #书名
#以上抓取的都是我们需要的html语言标签信息，我们还需要将他们一一分离出来
for detil,scor,person,title in zip(detils,scors,persons,titles):
#用一个zip()函数实现一次遍历
#因为一些标签中有译者信息，一些标签中没有，为避免错误，所以我们要用一个try来把他们分开执行
try:
author=detil.get_text().split("/",4)[0].split()[0] #这是含有译者信息的提取办法，根据“/” 把标签分为五部分，然后依次提取出来
yizhe= detil.get_text().split("/", 4)[1]
publish=detil.get_text().split("/", 4)[2]
time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0] #时间我们只提取了出版年份
price=ceshi_priceone(detil) #因为价格的单位不统一，我们用一个函数把他们换算为“元”
scoe=scor.get_text() if True else "" #有些书目是没有评分的，为避免错误，我们把没有评分的信息设置为空
person=ceshi_person(person) #有些书目的评价人数显示少于十人，爬取过程中会出现错误，用一个函数来处理
title=title.get_text().split()[0]
#当没有译者信息时，会显示IndexError，我们分开处理
except IndexError:
try:
author=detil.get_text().split("/", 3)[0].split()[0]
yizhe="" #将detil信息划分为4部分提取，译者信息直接设置为空，其他与上面一样
publish=detil.get_text().split("/", 3)[1]
time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]
price=ceshi_pricetwo(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except (IndexError,TypeError):
continue
#出现其他错误信息，忽略，继续执行（有些书目信息下会没有出版社或者出版年份，但是数量很少，不影响我们大规模爬取，所以直接忽略）
except TypeError:
continue

#提取评价人数的函数，如果评价人数少于十人，按十人处理
def ceshi_person(person):
try:
person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])
except ValueError:
person = int(10)
return person

#分情况提取价格的函数，用正则表达式找到含有特殊字符的信息，并换算为“元”
def ceshi_priceone(price):
price = detil.get_text().split("/", 4)[4].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price
def ceshi_pricetwo(price):
price = detil.get_text().split("/", 3)[3].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

实验成功后，我们就可以爬取数据并导入到数据库中了，以下为全部源码，特殊情况会用注释一一说明。

import requests
from bs4 import BeautifulSoup
import time
import re
import pymysql
from channel import channel #这是我们第一个程序爬取的链接信息
import random

def ceshi_person(person):
try:
person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])
except ValueError:
person = int(10)
return person

def ceshi_priceone(price):
price = detil.get_text().split("/", 4)[4].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

def ceshi_pricetwo(price):
price = detil.get_text().split("/", 3)[3].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

#这是上面的那个测试函数，我们把它放在主函数中
def mains(url):
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")
tag=url.split("?")[0].split("/")[-1]
detils=soup.select("#subject_list > ul > li > div.info > div.pub")
scors=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums")
persons=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.pl")
titles=soup.select("#subject_list > ul > li > div.info > h2 > a")
for detil,scor,person,title in zip(detils,scors,persons,titles):
l = [] #建一个列表，用于存放数据
try:
author=detil.get_text().split("/",4)[0].split()[0]
yizhe= detil.get_text().split("/", 4)[1]
publish=detil.get_text().split("/", 4)[2]
time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0]
price=ceshi_priceone(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except IndexError:
try:
author=detil.get_text().split("/", 3)[0].split()[0]
yizhe=""
publish=detil.get_text().split("/", 3)[1]
time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]
price=ceshi_pricetwo(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except (IndexError,TypeError):
continue

except TypeError:
continue
l.append([title,scoe,author,price,time,publish,person,yizhe,tag])
#将爬取的数据依次填入列表中

sql="INSERT INTO allbooks values(%s,%s,%s,%s,%s,%s,%s,%s,%s)" #这是一条sql插入语句
cur.executemany(sql,l) #执行sql语句，并用executemary()函数批量插入数据库中
conn.commit()

#主函数到此结束

# 将Python连接到MySQL中的python数据库中
conn = pymysql.connect( user="root",password="123123",database="python",charset='utf8')
cur = conn.cursor()

cur.execute('DROP TABLE IF EXISTS allbooks') #如果数据库中有allbooks的数据库则删除
sql = """CREATE TABLE allbooks(
title CHAR(255) NOT NULL,
scor CHAR(255),
author CHAR(255),
price CHAR(255),
time CHAR(255),
publish CHAR(255),
person CHAR(255),
yizhe CHAR(255),
tag CHAR(255)
)"""
cur.execute(sql) #执行sql语句，新建一个allbooks的数据库

start = time.clock() #设置一个时钟，这样我们就能知道我们爬取了多长时间了
for urls in channel.split():
urlss=[urls+"?start={}&type=T".format(str(i)) for i in range(0,980,20)] #从channel中提取url信息，并组装成每一页的链接
for url in urlss:
mains(url) #执行主函数，开始爬取
print(url) #输出要爬取的链接，这样我们就能知道爬到哪了，发生错误也好处理
time.sleep(int(format(random.randint(0,9)))) #设置一个随机数时间，每爬一个网页可以随机的停一段时间，防止IP被封
end = time.clock()
print('Time Usage:', end - start) #爬取结束，输出爬取时间
count = cur.execute('select * from allbooks')
print('has %s record' % count) #输出爬取的总数目条数

# 释放数据连接
if cur:
cur.close()
if conn:
conn.close()

这样，一个程序就算完成了，豆瓣的书目信息就一条条地写进了我们的数据库中，当然，在爬取的过程中，也遇到了很多问题，比如标题返回的信息拆分后中会有空格，写入数据库中会出现错误，所以只截取了标题的第一部分，因而导致数据库中的一些书名不完整，过往的大神如果有什么办法，还请指教一二。
等待爬取的过程是漫长而又欣喜的，看着电脑上一条条信息被刷出来，成就感就不知不觉涌上心头；然而如果你吃饭时它在爬，你上厕所时它在爬，你都已经爬了个山回来了它还在爬时，便会有点崩溃了，担心电脑随时都会坏掉（还是穷学生换不起啊啊啊啊~）
所以，还是要好好学学设置断点，多线程，以及正则，路漫漫其修远兮，吾将上下而求索~共勉~

❻ 豆瓣电影里的电视剧、综艺剧照、海报图片可以用下图高手批量保存到电脑上吗

可以的，我也是用下图高手软件下载的。

❼ 请问下图高手可以批量下载豆瓣电影上的电视剧剧照图片吗

可以下载，把豆瓣电影图片的链接复制到下图高手软件上就能批量下载图片了。

❽ 豆瓣里怎么没有电视剧分类电影分类倒是齐全，但电视剧就只找到了新片榜，以前的那些怎么找出来

电视剧分类默认归档到电影里面了，你可以选择“分类”

❾ 人人韩剧缓存电视剧怎么存储到外置内存卡求答！

若将手机中的文件与外置SD卡互相转移，请操作：
1.若将话机中的多媒体文件移动到SD卡中：我的文件-设备存储-查找需要移动的文件夹-更多-编辑-选择需要移动的文件-移动至，返回到external_sd-点击"移动到此处"即可。反之亦然。
2.部分手机支持将软件移动到SD卡中，操作：设置-应用程序-应用程序管理器-打开某个软件-存储-选择已使用的存储空间-更改-选择SD卡（或设置-更多-应用程序管理器-选中某个程序-移动到SD卡）。
温馨提示：不是所有的程序均可移至到SD卡，具体根据所下载的软件决定。

❿ 手机在哪里可以下载电视剧跟电影并且直接保存到手机存储

手机可以在一些视频软件里下载电视剧跟电影的片段。直接保存到手机相册里面就有说腾讯视频，看视频的时候是可以下载下来。

阅读全文

热点内容

滑板鞋脚本视频发布：2025-02-02 09:48:54 浏览：432

群晖怎么玩安卓模拟器发布：2025-02-02 09:45:23 浏览：557

三星安卓12彩蛋怎么玩发布：2025-02-02 09:44:39 浏览：743

电脑显示连接服务器错误发布：2025-02-02 09:24:10 浏览：537

瑞芯微开发板编译发布：2025-02-02 09:22:54 浏览：146

linux虚拟机用gcc编译时显示错误发布：2025-02-02 09:14:01 浏览：235

java驼峰发布：2025-02-02 09:13:26 浏览：651

魔兽脚本怎么用发布：2025-02-02 09:10:28 浏览：538

linuxadobe 发布：2025-02-02 09:09:43 浏览：212

sql2000数据库连接发布：2025-02-02 09:09:43 浏览：726

豆瓣爬取电视剧并存储

与豆瓣爬取电视剧并存储相关的资讯