python爬虫day44（python爬虫打印网页名称）

本文目录一览：

1、用python写一个爬虫有多难
2、如何用Python爬虫抓取网页内容?
3、如何用Python做爬虫

用python写一个爬虫有多难

爬虫是互联网上最常见的一种东西了吧。

爬虫这东西每天都在网上爬大量的信息，各大搜索引擎厂商每天都有上百万的爬虫在网络上活动，这些爬虫的作用就是给搜索引擎采集互联网上最新的内容，采集来的内容经过分类、加工之后，进入搜索引擎的索引。这是爬虫最常见的应用。

关于搜索引擎的理论非常多，应该已经形成系统的理论和方法了。这里不再多追求搜索引擎的细节，只来看看爬虫如何爬有效的信息。

ps. 这个博客已经很久没有更新了。现在时间越来越少，平时鲜有时间来更新博客了。

最近某人发现，python其实是一种很适合写爬虫的语言，而且python越用越顺手。现在若是有人问我“c++和c#学哪一个？“之类的问题的时候，我一定会说，学python吧，因为生命短暂，你应该学习python。

所谓爬虫，就是把网页的html下载下来，然后从里面提取出来有用的信息，这些有用的信息一般就是正文，图片，链接一类的信息。

针对特定网站的爬虫就更好写了，用正则表达式，把网页里的链接信息找到，然后找到需要的信息，保存在本地，然后进入下一个链接重复上一次的过程。

下面的脚本演示如何从加菲猫的官网上把从1978年至今的所有漫画全部下载下来

import os,urllib,urllib2,re

hosts = "http://**********"

#initpos = "/mobile/garfield/1978/06/19"

initpos ="/mobile/garfield/1979/08/08"

pname = re.compile('''span class="authorText".+?em(.*?)/em/span''')

pcomic = re.compile('''div id="comic".+?src="(.*?)".+?/div''')

pnext = re.compile('''a href="(.*?)" class="next"''')

def getpage(url):

print url

req = urllib2.Request(url)

req.add_header("User-Agent","Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:21.0) Gecko/20100101 Firefox/21.0")

req.add_header("If-None-Match","c1858c2845ca9501136ca83d624f8d4d")

u = urllib2.urlopen(req).read()

return u

def getnextpos(content,patten):

r = patten.findall(content)

for x in r:

print 'find next: ',x

return x

def savecomic(content,patten):

r = patten.findall(content)

print 'find commic:',r

r2 = pname.findall(content)

print 'find name:',r2

urlcomic = r[0]

u = urllib.urlopen(urlcomic).read()

name = r2[0].replace(' ','').split(',')

year = name[-1]

day = name[-2]

filename = 'test.jpg'

if not os.path.exists(year):

os.makedirs(year)

# is gif file ,the name the file as gif

if ((u[0] is 'G') and (u[1] is 'I') and (u[2] is 'F')):

filename = year+day+'.gif'

else:

filename = year+day+'.jpg'

f = file(year+"/"+filename,"wb+")

f.write(u)

f.close()

def main():

url = hosts+initpos

while(True):

c = getpage(url)

savecomic(c,pcomic)

u = getnextpos(c,pnext)

if u is None:

break

else:

url = hosts+u

if __name__ == '__main__':

main()

python爬虫day44（python爬虫打印网页名称）

如何用Python爬虫抓取网页内容?

爬虫流程

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('')

print(res)

print(type(res))

Response [200]

class 'requests.models.Response'

如何用Python做爬虫

1）首先你要明白爬虫怎样工作。

想象你是一只蜘蛛，现在你被放到了互联“网”上。那么，你需要把所有的网页都看一遍。怎么办呢？没问题呀，你就随便从某个地方开始，比如说人民日报的首页，这个叫initial pages，用$表示吧。

在人民日报的首页，你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了，这样你就已经爬完了俩页面（首页和国内新闻）！暂且不用管爬下来的页面怎么处理的，你就想象你把这个页面完完整整抄成了个html放到了你身上。

突然你发现，在国内新闻这个页面上，有一个链接链回“首页”。作为一只聪明的蜘蛛，你肯定知道你不用爬回去的吧，因为你已经看过了啊。所以，你需要用你的脑子，存下你已经看过的页面地址。这样，每次看到一个可能需要爬的新链接，你就先查查你脑子里是不是已经去过这个页面地址。如果去过，那就别去了。

好的，理论上如果所有的页面可以从initial page达到的话，那么可以证明你一定可以爬完所有的网页。

那么在python里怎么实现呢？

很简单

import Queue

initial_page = "初始化页"

url_queue = Queue.Queue()

seen = set()

seen.insert(initial_page)

url_queue.put(initial_page)

while(True): #一直进行直到海枯石烂

if url_queue.size()0:

current_url = url_queue.get() #拿出队例中第一个的url

store(current_url) #把这个url代表的网页存储好

for next_url in extract_urls(current_url): #提取把这个url里链向的url

if next_url not in seen:

seen.put(next_url)

url_queue.put(next_url)

else:

break

写得已经很伪代码了。

所有的爬虫的backbone都在这里，下面分析一下为什么爬虫事实上是个非常复杂的东西——搜索引擎公司通常有一整个团队来维护和开发。

2）效率

如果你直接加工一下上面的代码直接运行的话，你需要一整年才能爬下整个豆瓣的内容。更别说Google这样的搜索引擎需要爬下全网的内容了。

问题出在哪呢？需要爬的网页实在太多太多了，而上面的代码太慢太慢了。设想全网有N个网站，那么分析一下判重的复杂度就是N*log(N)，因为所有网页要遍历一次，而每次判重用set的话需要log(N)的复杂度。OK，OK，我知道python的set实现是hash——不过这样还是太慢了，至少内存使用效率不高。

通常的判重做法是怎样呢？Bloom Filter. 简单讲它仍然是一种hash的方法，但是它的特点是，它可以使用固定的内存（不随url的数量而增长）以O(1)的效率判定url是否已经在set中。可惜天下没有白吃的午餐，它的唯一问题在于，如果这个url不在set中，BF可以100%确定这个url没有看过。但是如果这个url在set中，它会告诉你：这个url应该已经出现过，不过我有2%的不确定性。注意这里的不确定性在你分配的内存足够大的时候，可以变得很小很少。一个简单的教程:Bloom Filters by Example

注意到这个特点，url如果被看过，那么可能以小概率重复看一看（没关系，多看看不会累死）。但是如果没被看过，一定会被看一下（这个很重要，不然我们就要漏掉一些网页了！）。 [IMPORTANT: 此段有问题，请暂时略过]

好，现在已经接近处理判重最快的方法了。另外一个瓶颈——你只有一台机器。不管你的带宽有多大，只要你的机器下载网页的速度是瓶颈的话，那么你只有加快这个速度。用一台机子不够的话——用很多台吧！当然，我们假设每台机子都已经进了最大的效率——使用多线程（python的话，多进程吧）。

3）集群化抓取

爬取豆瓣的时候，我总共用了100多台机器昼夜不停地运行了一个月。想象如果只用一台机子你就得运行100个月了...

那么，假设你现在有100台机器可以用，怎么用python实现一个分布式的爬取算法呢？

我们把这100台中的99台运算能力较小的机器叫作slave，另外一台较大的机器叫作master，那么回顾上面代码中的url_queue，如果我们能把这个queue放到这台master机器上，所有的slave都可以通过网络跟master联通，每当一个slave完成下载一个网页，就向master请求一个新的网页来抓取。而每次slave新抓到一个网页，就把这个网页上所有的链接送到master的queue里去。同样，bloom filter也放到master上，但是现在master只发送确定没有被访问过的url给slave。Bloom Filter放到master的内存里，而被访问过的url放到运行在master上的Redis里，这样保证所有操作都是O(1)。（至少平摊是O(1)，Redis的访问效率见:LINSERT – Redis)

考虑如何用python实现：

在各台slave上装好scrapy，那么各台机子就变成了一台有抓取能力的slave，在master上装好Redis和rq用作分布式队列。

代码于是写成

#slave.py

current_url = request_from_master()

to_send = []

for next_url in extract_urls(current_url):

to_send.append(next_url)

store(current_url);

send_to_master(to_send)

#master.py

distributed_queue = DistributedQueue()

bf = BloomFilter()

initial_pages = ""

while(True):

if request == 'GET':

if distributed_queue.size()0:

send(distributed_queue.get())

else:

break

elif request == 'POST':

bf.put(request.url)

好的，其实你能想到，有人已经给你写好了你需要的：darkrho/scrapy-redis · GitHub

4）展望及后处理

虽然上面用很多“简单”，但是真正要实现一个商业规模可用的爬虫并不是一件容易的事。上面的代码用来爬一个整体的网站几乎没有太大的问题。

但是如果附加上你需要这些后续处理，比如

有效地存储（数据库应该怎样安排）

有效地判重（这里指网页判重，咱可不想把人民日报和抄袭它的大民日报都爬一遍）

有效地信息抽取（比如怎么样抽取出网页上所有的地址抽取出来，“朝阳区奋进路中华道”），搜索引擎通常不需要存储所有的信息，比如图片我存来干嘛...

及时更新（预测这个网页多久会更新一次）

如你所想，这里每一个点都可以供很多研究者十数年的研究。虽然如此，

“路漫漫其修远兮,吾将上下而求索”。

所以，不要问怎么入门，直接上路就好了：）

爬虫pythonjson（爬虫python和java）

本文目录一览： 1、Python爬虫笔记（二）requests模块get，post，代理 2、Python爬虫（七）数据处理方法之JSON 3、Python与爬虫有什么关系？ Python爬虫笔记（二

2023-12-08

python爬虫笔记安装篇（python爬虫模块安装）

2022-11-14

python编写网页爬虫（python网页爬虫案例）

2022-11-09

python爬虫25,python爬虫2层图片

2022-11-22

python爬虫淘宝比价,Python爬虫淘宝

2022-11-20

python爬虫复制网页内容（python爬取网页数据）

2022-11-12

python爬虫学习01,爬虫 python

2022-11-21

python之网络爬虫完全教程（网络爬虫 python）

2022-11-15

python爬虫day25（小电影网站Python爬虫）

2022-11-15

python爬虫之字体反爬虫（用python写爬虫）

2022-11-14

python爬虫环境与爬虫介绍（python爬虫开发环境）

2022-11-12

python爬虫（python爬虫需要安装哪些库）

2022-11-13

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

python爬虫day44（python爬虫打印网页名称）

本文目录一览：

用python写一个爬虫有多难

如何用Python爬虫抓取网页内容?

如何用Python做爬虫

python爬虫day44（python爬虫打印网页名称）

python爬虫学习5,python爬虫笔记

python网页爬虫入门指导（python 网页爬虫）

python爬虫二,python爬虫二级页面

Python网页爬虫

python爬虫之基础内容,python爬虫笔记

python网络爬虫7（python网络爬虫爬取图片）

Python爬虫爬取网页数据详解

爬虫pythonjson（爬虫python和java）

python爬虫笔记安装篇（python爬虫模块安装）

python编写网页爬虫（python网页爬虫案例）

python爬虫25,python爬虫2层图片

python爬虫淘宝比价,Python爬虫淘宝

python爬虫复制网页内容（python爬取网页数据）

python爬虫学习01,爬虫 python

python之网络爬虫完全教程（网络爬虫 python）

python爬虫day25（小电影网站Python爬虫）

python爬虫之字体反爬虫（用python写爬虫）

python爬虫环境与爬虫介绍（python爬虫开发环境）

python爬虫（python爬虫需要安装哪些库）

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

python爬虫day44（python爬虫打印网页名称）

本文目录一览：

用python写一个爬虫有多难

如何用Python爬虫抓取网页内容?

如何用Python做爬虫

python爬虫day44（python爬虫打印网页名称）

python爬虫学习5,python爬虫笔记

python网页爬虫入门指导（python 网页爬虫）

python爬虫二,python爬虫二级页面

Python网页爬虫

python爬虫之基础内容,python爬虫笔记

python网络爬虫7（python网络爬虫爬取图片）

Python爬虫爬取网页数据详解

爬虫pythonjson（爬虫python和java）

python爬虫笔记安装篇（python爬虫模块安装）

python编写网页爬虫（python网页爬虫案例）

python爬虫25,python爬虫2层图片

python爬虫淘宝比价,Python爬虫淘宝

python爬虫复制网页内容（python爬取网页数据）

python爬虫学习01,爬虫 python

python之网络爬虫完全教程（网络爬虫 python）

python爬虫day25（小电影网站Python爬虫）

python爬虫之字体反爬虫（用python写爬虫）

python爬虫环境与爬虫介绍（python爬虫开发环境）

python爬虫（python爬虫需要安装哪些库）

人机检测，请谅解