python爬虫day25（小电影网站Python爬虫）

本文目录一览：

1、如何用Python做爬虫
2、如何入门 Python 爬虫?
3、如何用Python做爬虫？
4、知乎python 爬虫如何入门学习
5、如何入门 Python 爬虫
6、python爬虫项目实战：爬取用户的所有信息，如性别、年龄等

如何用Python做爬虫

1）首先你要明白爬虫怎样工作。

想象你是一只蜘蛛，现在你被放到了互联“网”上。那么，你需要把所有的网页都看一遍。怎么办呢？没问题呀，你就随便从某个地方开始，比如说人民日报的首页，这个叫initial pages，用$表示吧。

在人民日报的首页，你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了，这样你就已经爬完了俩页面（首页和国内新闻）！暂且不用管爬下来的页面怎么处理的，你就想象你把这个页面完完整整抄成了个html放到了你身上。

突然你发现，在国内新闻这个页面上，有一个链接链回“首页”。作为一只聪明的蜘蛛，你肯定知道你不用爬回去的吧，因为你已经看过了啊。所以，你需要用你的脑子，存下你已经看过的页面地址。这样，每次看到一个可能需要爬的新链接，你就先查查你脑子里是不是已经去过这个页面地址。如果去过，那就别去了。

好的，理论上如果所有的页面可以从initial page达到的话，那么可以证明你一定可以爬完所有的网页。

那么在python里怎么实现呢？

很简单

import Queue

initial_page = "初始化页"

url_queue = Queue.Queue()

seen = set()

seen.insert(initial_page)

url_queue.put(initial_page)

while(True): #一直进行直到海枯石烂

if url_queue.size()0:

current_url = url_queue.get() #拿出队例中第一个的url

store(current_url) #把这个url代表的网页存储好

for next_url in extract_urls(current_url): #提取把这个url里链向的url

if next_url not in seen:

seen.put(next_url)

url_queue.put(next_url)

else:

break

写得已经很伪代码了。

所有的爬虫的backbone都在这里，下面分析一下为什么爬虫事实上是个非常复杂的东西——搜索引擎公司通常有一整个团队来维护和开发。

2）效率

如果你直接加工一下上面的代码直接运行的话，你需要一整年才能爬下整个豆瓣的内容。更别说Google这样的搜索引擎需要爬下全网的内容了。

问题出在哪呢？需要爬的网页实在太多太多了，而上面的代码太慢太慢了。设想全网有N个网站，那么分析一下判重的复杂度就是N*log(N)，因为所有网页要遍历一次，而每次判重用set的话需要log(N)的复杂度。OK，OK，我知道python的set实现是hash——不过这样还是太慢了，至少内存使用效率不高。

通常的判重做法是怎样呢？Bloom Filter. 简单讲它仍然是一种hash的方法，但是它的特点是，它可以使用固定的内存（不随url的数量而增长）以O(1)的效率判定url是否已经在set中。可惜天下没有白吃的午餐，它的唯一问题在于，如果这个url不在set中，BF可以100%确定这个url没有看过。但是如果这个url在set中，它会告诉你：这个url应该已经出现过，不过我有2%的不确定性。注意这里的不确定性在你分配的内存足够大的时候，可以变得很小很少。一个简单的教程:Bloom Filters by Example

注意到这个特点，url如果被看过，那么可能以小概率重复看一看（没关系，多看看不会累死）。但是如果没被看过，一定会被看一下（这个很重要，不然我们就要漏掉一些网页了！）。 [IMPORTANT: 此段有问题，请暂时略过]

好，现在已经接近处理判重最快的方法了。另外一个瓶颈——你只有一台机器。不管你的带宽有多大，只要你的机器下载网页的速度是瓶颈的话，那么你只有加快这个速度。用一台机子不够的话——用很多台吧！当然，我们假设每台机子都已经进了最大的效率——使用多线程（python的话，多进程吧）。

3）集群化抓取

爬取豆瓣的时候，我总共用了100多台机器昼夜不停地运行了一个月。想象如果只用一台机子你就得运行100个月了...

那么，假设你现在有100台机器可以用，怎么用python实现一个分布式的爬取算法呢？

我们把这100台中的99台运算能力较小的机器叫作slave，另外一台较大的机器叫作master，那么回顾上面代码中的url_queue，如果我们能把这个queue放到这台master机器上，所有的slave都可以通过网络跟master联通，每当一个slave完成下载一个网页，就向master请求一个新的网页来抓取。而每次slave新抓到一个网页，就把这个网页上所有的链接送到master的queue里去。同样，bloom filter也放到master上，但是现在master只发送确定没有被访问过的url给slave。Bloom Filter放到master的内存里，而被访问过的url放到运行在master上的Redis里，这样保证所有操作都是O(1)。（至少平摊是O(1)，Redis的访问效率见:LINSERT – Redis)

考虑如何用python实现：

在各台slave上装好scrapy，那么各台机子就变成了一台有抓取能力的slave，在master上装好Redis和rq用作分布式队列。

代码于是写成

#slave.py

current_url = request_from_master()

to_send = []

for next_url in extract_urls(current_url):

to_send.append(next_url)

store(current_url);

send_to_master(to_send)

#master.py

distributed_queue = DistributedQueue()

bf = BloomFilter()

initial_pages = ""

while(True):

if request == 'GET':

if distributed_queue.size()0:

send(distributed_queue.get())

else:

break

elif request == 'POST':

bf.put(request.url)

好的，其实你能想到，有人已经给你写好了你需要的：darkrho/scrapy-redis · GitHub

4）展望及后处理

虽然上面用很多“简单”，但是真正要实现一个商业规模可用的爬虫并不是一件容易的事。上面的代码用来爬一个整体的网站几乎没有太大的问题。

但是如果附加上你需要这些后续处理，比如

有效地存储（数据库应该怎样安排）

有效地判重（这里指网页判重，咱可不想把人民日报和抄袭它的大民日报都爬一遍）

有效地信息抽取（比如怎么样抽取出网页上所有的地址抽取出来，“朝阳区奋进路中华道”），搜索引擎通常不需要存储所有的信息，比如图片我存来干嘛...

及时更新（预测这个网页多久会更新一次）

如你所想，这里每一个点都可以供很多研究者十数年的研究。虽然如此，

“路漫漫其修远兮,吾将上下而求索”。

所以，不要问怎么入门，直接上路就好了：）

如何入门 Python 爬虫?

“入门”是良好的动机，但是可能作用缓慢。如果你手里或者脑子里有一个项目，那么实践起来你会被目标驱动，而不会像学习模块一样慢慢学习。

如果你想要入门Python爬虫，你需要做很多准备。首先是熟悉python编程；其次是了解HTML；

还要了解网络爬虫的基本原理；最后是学习使用python爬虫库。

如果你不懂python，那么需要先学习python这门非常easy的语言。编程语言基础语法无非是数据类型、数据结构、运算符、逻辑结构、函数、文件IO、错误处理这些，学起来会显枯燥但并不难。

刚开始入门爬虫，你甚至不需要去学习python的类、多线程、模块之类的略难内容。找一个面向初学者的教材或者网络教程，花个十几天功夫，就能对python基础有个三四分的认识了。

网络爬虫的含义：

网络爬虫，其实也可以叫做网络数据采集更容易理解。就是通过编程向网络服务器请求数据（HTML表单），然后解析HTML，提取出自己想要的数据。

这会涉及到数据库、网络服务器、HTTP协议、HTML、数据科学、网络安全、图像处理等非常多的内容。但对于初学者而言，并不需要掌握这么多。

如何用Python做爬虫？

在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。

我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。好吧其实你很厉害的，右键查看页面源代码。

我们可以通过python 来实现这样一个简单的爬虫功能，把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。

具体步骤

获取整个页面数据首先我们可以先获取要下载图片的整个页面信息。

getjpg.py

#coding=utf-8import urllibdef getHtml(url):

page = urllib.urlopen(url)

html = page.read() return html

html = getHtml("")print html

Urllib 模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据。首先，我们定义了一个getHtml()函数:

urllib.urlopen()方法用于打开一个URL地址。

read()方法用于读取URL上的数据，向getHtml()函数传递一个网址，并把整个页面下载下来。执行程序就会把整个网页打印输出。

2.筛选页面中想要的数据

Python 提供了非常强大的正则表达式，我们需要先要了解一点python 正则表达式的知识才行。

假如我们百度贴吧找到了几张漂亮的壁纸，通过到前段查看工具。找到了图片的地址，如：src=””pic_ext=”jpeg”

修改代码如下：

import reimport urllibdef getHtml(url):

page = urllib.urlopen(url)

html = page.read() return htmldef getImg(html):

reg = r'src="(.+?\.jpg)" pic_ext'

imgre = re.compile(reg)

imglist = re.findall(imgre,html) return imglist

html = getHtml("")print getImg(html)

我们又创建了getImg()函数，用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式：

re.compile() 可以把正则表达式编译成一个正则表达式对象.

re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。

运行脚本将得到整个页面中包含图片的URL地址。

3.将页面筛选的数据保存到本地

把筛选的图片地址通过for循环遍历并保存到本地，代码如下：

#coding=utf-8import urllibimport redef getHtml(url):

page = urllib.urlopen(url)

html = page.read() return htmldef getImg(html):

reg = r'src="(.+?\.jpg)" pic_ext'

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

x = 0 for imgurl in imglist:

urllib.urlretrieve(imgurl,'%s.jpg' % x)

x+=1html = getHtml("")print getImg(html)

这里的核心是用到了urllib.urlretrieve()方法，直接将远程数据下载到本地。

通过一个for循环对获取的图片连接进行遍历，为了使图片的文件名看上去更规范，对其进行重命名，命名规则通过x变量加1。保存的位置默认为程序的存放目录。

程序运行完成，将在目录下看到下载到本地的文件。

知乎python 爬虫如何入门学习

链接：

提取码：2b6c

课程简介

毕业不知如何就业？工作效率低经常挨骂？很多次想学编程都没有学会？

Python 实战：四周实现爬虫系统，无需编程基础，二十八天掌握一项谋生技能。

带你学到如何从网上批量获得几十万数据，如何处理海量大数据，数据可视化及网站制作。

课程目录

开始之前，魔力手册 for 实战学员预习

第一周：学会爬取网页信息

第二周：学会爬取大规模数据

第三周：数据统计与分析

第四周：搭建 Django 数据可视化网站

......

python爬虫day25（小电影网站Python爬虫）

如何入门 Python 爬虫

现在之所以有这么多的小伙伴热衷于爬虫技术，无外乎是因为爬虫可以帮我们做很多事情，比如搜索引擎、采集数据、广告过滤等，以Python为例，Python爬虫可以用于数据分析，在数据抓取方面发挥巨大的作用。

但是这并不意味着单纯掌握一门Python语言，就对爬虫技术触类旁通，要学习的知识和规范还有喜很多，包括但不仅限于HTML 知识、HTTP/HTTPS 协议的基本知识、正则表达式、数据库知识，常用抓包工具的使用、爬虫框架的使用等。而且涉及到大规模爬虫，还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存，甚至还包括机器学习的应用，大规模的系统背后都是靠很多技术来支撑的。

零基础如何学爬虫技术？对于迷茫的初学者来说，爬虫技术起步学习阶段，最重要的就是明确学习路径，找准学习方法，唯有如此，在良好的学习习惯督促下，后期的系统学习才会事半功倍，游刃有余。

用Python写爬虫，首先需要会Python，把基础语法搞懂，知道怎么使用函数、类和常用的数据结构如list、dict中的常用方法就算基本入门。作为入门爬虫来说，需要了解 HTTP协议的基本原理，虽然 HTTP 规范用一本书都写不完，但深入的内容可以放以后慢慢去看，理论与实践相结合后期学习才会越来越轻松。关于爬虫学习的具体步骤，我大概罗列了以下几大部分，大家可以参考：

网络爬虫基础知识:

爬虫的定义

爬虫的作用

Http协议

基本抓包工具(Fiddler)使用

Python模块实现爬虫：

urllib3、requests、lxml、bs4 模块大体作用讲解

使用requests模块 get 方式获取静态页面数据

使用requests模块 post 方式获取静态页面数据

使用requests模块获取 ajax 动态页面数据

使用requests模块模拟登录网站

使用Tesseract进行验证码识别

Scrapy框架与Scrapy-Redis：

Scrapy 爬虫框架大体说明

Scrapy spider 类

Scrapy item 及 pipeline

Scrapy CrawlSpider 类

通过Scrapy-Redis 实现分布式爬虫

借助自动化测试工具和浏览器爬取数据：

Selenium + PhantomJS 说明及简单实例

Selenium + PhantomJS 实现网站登录

Selenium + PhantomJS 实现动态页面数据爬取

爬虫项目实战：

分布式爬虫+ Elasticsearch 打造搜索引擎

python爬虫项目实战：爬取用户的所有信息，如性别、年龄等

python爬虫项目实战：

爬取糗事百科用户的所有信息，包括用户名、性别、年龄、内容等等。

10个步骤实现项目功能，下面开始实例讲解：

1.导入模块

import re

import urllib.request

from bs4 import BeautifulSoup

2.添加头文件，防止爬取过程被拒绝链接

def qiuShi(url,page):

################### 模拟成高仿度浏览器的行为 ##############

heads ={

'Connection':'keep-alive',

'Accept-Language':'zh-CN,zh;q=0.9',

'Accept':'text/html,application/xhtml+xml,application/xml;

q=0.9,image/webp,image/apng, / ;q=0.8',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36

(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

}

headall = []

for key,value in heads.items():

items = (key,value)

headall.append(items)

opener = urllib.request.build_opener()

opener.addheaders = headall

urllib.request.install_opener(opener)

data = opener.open(url).read().decode()

################## end ########################################

3.创建soup解析器对象

soup = BeautifulSoup(data,'lxml')

x = 0

4.开始使用BeautifulSoup4解析器提取用户名信息

############### 获取用户名 ########################

name = []

unames = soup.find_all('h2')

for uname in unames:

name.append(uname.get_text())

#################end#############################

5.提取发表的内容信息

############## 发表的内容 #########################

cont = []

data4 = soup.find_all('div',class_='content')

data4 = str(data4)

soup3 = BeautifulSoup(data4,'lxml')

contents = soup3.find_all('span')

for content in contents:

cont.append(content.get_text())

##############end####################################

6.提取搞笑指数

#################搞笑指数##########################

happy = []

data2 = soup.find_all('span',class_="stats-vote")

data2 = str(data2) # 将列表转换成字符串形式才可以使用

soup1 = BeautifulSoup(data2,'lxml')

happynumbers = soup1.find_all('i',class_="number")

for happynumber in happynumbers:

happy.append(happynumber.get_text())

##################end#############################

7.提取评论数

############## 评论数 ############################

comm = []

data3 = soup.find_all('a',class_='qiushi_comments')

data3 = str(data3)

soup2 = BeautifulSoup(data3,'lxml')

comments = soup2.find_all('i',class_="number")

for comment in comments:

comm.append(comment.get_text())

############end#####################################

8.使用正则表达式提取性别和年龄

######## 获取性别和年龄 ##########################

pattern1 = 'div class="articleGender (w ?)Icon"(d ?)/div'

sexages = re.compile(pattern1).findall(data)

9.设置用户所有信息输出的格局设置

################## 批量输出用户的所以个人信息 #################

print()

for sexage in sexages:

sa = sexage

print(' ' 17, '= = 第', page, '页-第', str(x+1) + '个用户 = = ',' ' 17)

print('【用户名】：',name[x],end='')

print('【性别】：',sa[0],' 【年龄】：',sa[1])

print('【内容】：',cont[x])

print('【搞笑指数】：',happy[x],' 【评论数】：',comm[x])

print(' ' 25,' 三八分割线 ',' ' 25)

x += 1

###################end##########################

10.设置循环遍历爬取13页的用户信息

for i in range(1,14):

url = ' '+str(i)+'/'

qiuShi(url,i)

运行结果，部分截图：

python爬虫day25（小电影网站Python爬虫）

2022-11-15

python爬虫学习5,python爬虫笔记

2022-11-20

爬虫pythonjson（爬虫python和java）

本文目录一览： 1、Python爬虫笔记（二）requests模块get，post，代理 2、Python爬虫（七）数据处理方法之JSON 3、Python与爬虫有什么关系？ Python爬虫笔记（二

2023-12-08

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

python爬虫day25（小电影网站Python爬虫）

本文目录一览：

如何用Python做爬虫

如何入门 Python 爬虫?

如何用Python做爬虫？

知乎python 爬虫如何入门学习

如何入门 Python 爬虫

python爬虫项目实战：爬取用户的所有信息，如性别、年龄等

python爬虫day25（小电影网站Python爬虫）

python爬虫学习5,python爬虫笔记

爬虫pythonjson（爬虫python和java）

python爬虫二,python爬虫二级页面

python爬虫之基础内容,python爬虫笔记

Python爬虫实战：抓取豆瓣Top250电影

python网络爬虫7（python网络爬虫爬取图片）

Python 爬虫实战：抓取网站数据

Python爬虫爬取网页数据详解

Python爬虫实战

Python爬虫代码分享

python爬虫的掉坑之路（python爬虫坐牢）

python爬虫学习01,爬虫 python

python爬虫前奏（Python爬虫例子）

python爬取b站排行榜（python爬虫b站）

python爬虫与k（爬虫和Python）

用Python打造网络爬虫

python爬虫之字体反爬虫（用python写爬虫）

Python爬虫快速入门

python爬虫环境与爬虫介绍（python爬虫开发环境）

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

python爬虫day25（小电影网站Python爬虫）

本文目录一览：

如何用Python做爬虫

如何入门 Python 爬虫?

如何用Python做爬虫？

知乎python 爬虫如何入门学习

如何入门 Python 爬虫

python爬虫项目实战：爬取用户的所有信息，如性别、年龄等

python爬虫day25（小电影网站Python爬虫）

python爬虫学习5,python爬虫笔记

爬虫pythonjson（爬虫python和java）

python爬虫二,python爬虫二级页面

python爬虫之基础内容,python爬虫笔记

Python爬虫实战：抓取豆瓣Top250电影

python网络爬虫7（python网络爬虫爬取图片）

Python 爬虫实战：抓取网站数据

Python爬虫爬取网页数据详解

Python爬虫实战

Python爬虫代码分享

python爬虫的掉坑之路（python爬虫坐牢）

python爬虫学习01,爬虫 python

python爬虫前奏（Python爬虫例子）

python爬取b站排行榜（python爬虫b站）

python爬虫与k（爬虫和Python）

用Python打造网络爬虫

python爬虫之字体反爬虫（用python写爬虫）

Python爬虫快速入门

python爬虫环境与爬虫介绍（python爬虫开发环境）

人机检测，请谅解