python爬电影

发布时间: 2023-09-14 14:47:06

⑴ python爬虫抓取电影top20排名怎么写

初步接触python爬虫(其实python也是才起步)，发现一段代码研究了一下，觉得还比较有用处，Mark下。
上代码：

#!/usr/bin/python#coding=utf-8#Author: Andrew_liu#mender：cy"""
一个简单的Python爬虫, 用于抓取豆瓣电影Top前100的电影的名称
Anthor: Andrew_liu
mender：cy
Version: 0.0.2
Date: 2017-03-02
Language: Python2.7.12
Editor: JetBrains PyCharm 4.5.4
"""import stringimport reimport urllib2import timeclass DouBanSpider(object) :
"""类的简要说明
主要用于抓取豆瓣Top100的电影名称

Attributes:
page: 用于表示当前所处的抓取页面
cur_url: 用于表示当前争取抓取页面的url
datas: 存储处理好的抓取到的电影名称
_top_num: 用于记录当前的top号码
"""

def __init__(self):
self.page = 1
self.cur_url = "h0?start={page}&filter=&type="
self.datas = []
self._top_num = 1
print u"豆瓣电影爬虫准备就绪, 准备爬取数据..."

def get_page(self, cur_page):
"""
根据当前页码爬取网页HTML
Args:
cur_page: 表示当前所抓取的网站页码
Returns:
返回抓取到整个页面的HTML(unicode编码)
Raises:
URLError:url引发的异常
"""
url = self.cur_url try:
my_page = urllib2.urlopen(url.format(page=(cur_page - 1) * 25)).read().decode("utf-8") except urllib2.URLError, e: if hasattr(e, "code"): print "The server couldn't fulfill the request."
print "Error code: %s" % e.code elif hasattr(e, "reason"): print "We failed to reach a server. Please check your url and read the Reason"
print "Reason: %s" % e.reason return my_page def find_title(self, my_page):
"""
通过返回的整个网页HTML, 正则匹配前100的电影名称

Args:
my_page: 传入页面的HTML文本用于正则匹配
"""
temp_data = []
movie_items = re.findall(r'<span.*?class="title">(.*?)</span>', my_page, re.S) for index, item in enumerate(movie_items): if item.find("&nbsp") == -1:
temp_data.append("Top" + str(self._top_num) + " " + item)
self._top_num += 1
self.datas.extend(temp_data) def start_spider(self):
"""
爬虫入口, 并控制爬虫抓取页面的范围
"""
while self.page <= 4:
my_page = self.get_page(self.page)
self.find_title(my_page)
self.page += 1def main():
print u"""
###############################
一个简单的豆瓣电影前100爬虫
Author: Andrew_liu
mender: cy
Version: 0.0.2
Date: 2017-03-02
###############################
"""
my_spider = DouBanSpider()
my_spider.start_spider()
fobj = open('/data/moxiaokai/HelloWorld/cyTest/blogcode/top_move.txt', 'w+') for item in my_spider.datas: print item
fobj.write(item.encode("utf-8")+' ')
time.sleep(0.1) print u"豆瓣爬虫爬取完成"if __name__ == '__main__':
main()

运行结果：

⑵ 用Python爬虫爬取爱奇艺上的VIP电影视频，是违法行为吗

不管是用python还是其他的语言来爬取电影资源，都是不合法的。特别是VIP电影，都是有版权保护的，不适当的使用爬取的资源可能会给他人和自己带来很多麻烦。比如有些人下载了电影，然后再出售给其他人观看，这种性质更加严重，会被罚的很重。所以建议还是通过官方渠道观看就好了，不要私自爬取VIP电影。

⑶ Python爬虫实战（1）requests爬取豆瓣电影TOP250

爬取时间：2020/11/25
系统环境：Windows 10
所用工具：Jupyter NotebookPython 3.0
涉及的库：requestslxmlpandasmatplotlib umpy

蛋肥想法： 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。

蛋肥想法： print数据列表后发现电影原名、分类信息等存在不需要的字符，需预先处理；同时因为后续想做一个豆瓣电影TOP250的维度分布图，而同一电影存在多个发行国家、类型（如“法国美国 / 剧情动作犯罪”），为了简（偷）便（懒），这里均取第一个作为记入的数据；最后将数据保存为xlsx。

蛋肥想法： 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据，为了练手，使用刚才保存成xlsx的数据，并分别画成雷达图、柱形图、扇形图。

⑷ .利用python获得豆瓣电影前30部电影的中文片名,排名,导演,主演,上映时间

热门频道

首页

博客

研修院

VIP

APP

问答

下载

社区

推荐频道

活动

招聘

专题

打开CSDN APP
Copyright © 1999-2020, CSDN.NET, All Rights Reserved

打开APP

python 网络爬虫 1.2 获取豆瓣TOP250电影的中英文名、港台名、导演、上映年份、电影分类以及评分，将数据存入文档。原创
2021-07-19 01:03:15
2点赞

zynaln

码龄8年

关注
题目：
获取豆瓣TOP250电影的中英文名、港台名、导演、上映年份、电影分类以及评分，将数据存入文档。
代码：

输出结果：

文章知识点与官方知识档案匹配
Python入门技能树网络爬虫urllib
201761 人正在系统学习中
打开CSDN APP，看更多技术内容

最新发布用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)
用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)
继续访问

python
写评论

7

14

2

踩

分享

⑸ Python爬虫实战，Python多线程抓取5千多部最新电影下载链接

利用Python多线程爬了5000多部最新电影下载链接，废话不多说~

让我们愉快地开始吧~

Python版本： 3.6.4

相关模块：

requests模块；

re模块；

csv模块；

以及一些Python自带的模块。

安装Python并添加到环境变量，pip安装需要的相关模块即可。

拿到链接之后，接下来就是继续访问这些链接，然后拿到电影的下载链接

但是这里还是有很多的小细节，例如我们需要拿到电影的总页数，其次这么多的页面，一个线程不知道要跑到什么时候，所以我们首先先拿到总页码，然后用多线程来进行任务的分配

我们首先先拿到总页码，然后用多线程来进行任务的分配

总页数其实我们用re正则来获取

爬取的内容存取到csv，也可以写个函数来存取

开启4个进程来下载链接

您学废了吗？最后祝大家天天进步！！学习Python最重要的就是心态。我们在学习过程中必然会遇到很多难题，可能自己想破脑袋都无法解决。这都是正常的，千万别急着否定自己，怀疑自己。如果大家在刚开始学习中遇到困难，想找一个python学习交流环境，可以加入我们，领取学习资料，一起讨论，会节约很多时间，减少很多遇到的难题。

⑹ 怎样用python获取电影

实验室这段时间要采集电影的信息，给出了一个很大的数据集，数据集包含了4000多个电影名，需要我写一个爬虫来爬取电影名对应的电影信息。

其实在实际运作中，根本就不需要爬虫，只需要一点简单的Python基础就可以了。

前置需求：

Python3语法基础

HTTP网络基础

===================================

第一步，确定API的提供方。IMDb是最大的电影数据库，与其相对的，有一个OMDb的网站提供了API供使用。这家网站的API非常友好，易于使用。

第二步，确定网址的格式。

第三步，了解基本的Requests库的使用方法。

阅读全文

热点内容

shell脚本教程视频发布：2025-03-10 20:05:45 浏览：60

呐喊解压歌曲发布：2025-03-10 19:30:22 浏览：668

怎样用电脑做家庭云服务器发布：2025-03-10 19:28:07 浏览：243

编程分享家发布：2025-03-10 19:24:19 浏览：730

python切换路径发布：2025-03-10 19:21:58 浏览：922

数值最优化算法与理论发布：2025-03-10 19:09:45 浏览：314

p30服务器怎么样发布：2025-03-10 19:01:36 浏览：5

四州志是由谁编译的发布：2025-03-10 19:01:33 浏览：214

java模发布：2025-03-10 19:00:42 浏览：122

数据库查不到数据发布：2025-03-10 18:52:16 浏览：483

python爬电影

与python爬电影相关的资讯