本文目录一览：

1、「python爬虫保姆级教学」urllib的使用以及页面解析
2、python如何安装网络爬虫？
3、[python 爬虫](#python 爬虫)
4、如何python安装及配置扩展包爬虫爬取
5、python爬虫怎么做？
6、python爬虫需要安装哪些库

「python爬虫保姆级教学」urllib的使用以及页面解析

使用urllib来获取百度首页的源码 get请求参数，如果是中文，需要对中文进行编码，如下面这样，如果不编码会报错。 urlencode应用场景：多个参数的时候。如下为什么要学习handler？为什么需要代理？因为有的网站是禁止爬虫的，如果用真实的ip去爬虫，容易被封掉。 2.解析技术 1.安装lxml库 2.导入lxml.etree 3.etree.parse() 解析本地文件 4.etree.HTML() 服务器响应文件 5.解析获取DOM元素 1.路径查询 2.谓词查询 3.属性查询 4.模糊查询 5.内容查询 6.逻辑运算示例： JsonPath只能解析本地文件。 pip安装： jsonpath的使用：示例：解析上面的json数据缺点：效率没有lxml的效率高优点：接口设计人性化，使用方便 pip install bs4 - from bs4 import BeautifulSoup 1.根据标签名查找节点 soup.a.attrs 2.函数 find('a')：只找到第一个a标签 find('a', title='名字') find('a', class_='名字') find_all('a') ：查找到所有的a find_all(['a', 'span']) 返回所有的a和span find_all('a', limit=2) 只找前两个a obj.string obj.get_text()【推荐】 tag.name：获取标签名 tag.attrs：将属性值作为一个字典返回 obj.attrs.get('title')【常用】 obj.get('title') obj['title'] 示例：使用BeautifulSoup解析上面的html

python如何安装网络爬虫？

你的模块没有安装你在win系统下用pip工具安装第三方模块 pip install 模块名然后再执行你上面的代码就可以了

python 爬虫

验证码（CAPTCHA）全称为全自动区分计算机和人类的公开图灵测试（Completely Automated Public Turing test to tell Computersand Humans Apart）。从其全称可以看出，验证码用于测试用户是真实的人类还是计算机机器人。 1.获得验证码图片每次加载注册网页都会显示不同的验证验图像，为了了解表单需要哪些参数，我们可以复用上一章编写的parse_form()函数。

import cookielib,urllib2,pprint import form REGISTER_URL = '' cj=cookielib.CookieJar() opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) html=opener.open(REGISTER_URL).read() form=form.parse_form(html) pprint.pprint(form)

{'_formkey': 'a67cbc84-f291-4ecd-9c2c-93937faca2e2', '_formname': 'register', '_next': '/places/default/index', 'email': '', 'first_name': '', 'last_name': '', 'password': '', 'password_two': '', 'recaptcha_response_field': None}

上面recaptcha_response_field是存储验证码的值，其值可以用Pillow从验证码图像获取出来。先安装pip install Pillow，其它安装Pillow的方法可以参考。Pillow提价了一个便捷的Image类，其中包含了很多用于处理验证码图像的高级方法。下面的函数使用注册页的HTML作为输入参数，返回包含验证码图像的Image对象。

import lxml.html from io import BytesIO from PIL import Image tree=lxml.html.fromstring(html) print tree

Element html at 0x7f8b006ba890 img_data_all=tree.cssselect('div#recaptcha img')[0].get('src') print img_data_all

data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAQAAAABgCAIAAAB9kzvfAACAtklEQVR4nO29Z5gcZ5ku3F2dc865
...
rkJggg==

img_data=img_data_all.partition(',')[2] print img_data

iVBORw0KGgoAAAANSUhEUgAAAQAAAABgCAIAAAB9kzvfAACAtklEQVR4nO29Z5gcZ5ku3F2dc865
...
rkJggg==

binary_img_data=img_data.decode('base64') file_like=BytesIO(binary_img_data) print file_like

_io.BytesIO object at 0x7f8aff6736b0

img=Image.open(file_like) print img

PIL.PngImagePlugin.PngImageFile image mode=RGB size=256x96 at 0x7F8AFF5FAC90

在本例中，这是一张进行了Base64编码的PNG图像，这种格式会使用ASCII编码表示二进制数据。我们可以通过在第一个逗号处分割的方法移除该前缀。然后，使用Base64解码图像数据，回到最初的二进制格式。要想加载图像，PIL需要一个类似文件的接口，所以在传给Image类之前，我们以使用了BytesIO对这个二进制数据进行了封装。完整代码:

# -*- coding: utf-8 -*-form.pyimport urllibimport urllib2import cookielibfrom io import BytesIOimport lxml.htmlfrom PIL import Image
REGISTER_URL = ''#REGISTER_URL = ''def extract_image(html):
tree = lxml.html.fromstring(html)
img_data = tree.cssselect('div#recaptcha img')[0].get('src') # remove data:image/png;base64, header
img_data = img_data.partition(',')[-1] #open('test_.png', 'wb').write(data.decode('base64'))
binary_img_data = img_data.decode('base64')
file_like = BytesIO(binary_img_data)
img = Image.open(file_like) #img.save('test.png')
return imgdef parse_form(html):
"""extract all input properties from the form
"""
tree = lxml.html.fromstring(html)
data = {} for e in tree.cssselect('form input'): if e.get('name'):
data[e.get('name')] = e.get('value') return datadef register(first_name, last_name, email, password, captcha_fn):
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
html = opener.open(REGISTER_URL).read()
form = parse_form(html)
form['first_name'] = first_name
form['last_name'] = last_name
form['email'] = email
form['password'] = form['password_two'] = password
img = extract_image(html)#
captcha = captcha_fn(img)#
form['recaptcha_response_field'] = captcha
encoded_data = urllib.urlencode(form)
request = urllib2.Request(REGISTER_URL, encoded_data)
response = opener.open(request)
success = '/user/register' not in response.geturl() #success = '/places/default/user/register' not in response.geturl()
return success

2.光学字符识别验证码光学字符识别（Optical Character Recognition, OCR）用于图像中抽取文本。本节中，我们将使用开源的Tesseract OCR引擎，该引擎最初由惠普公司开发的，目前由Google主导。Tesseract的安装说明可以从获取。然后可以使用pip安装其Python封装版本pytesseractpip install pytesseract。下面我们用光学字符识别图像验证码：

import pytesseract import form img=form.extract_image(html) pytesseract.image_to_string(img)''

如果直接把验证码原始图像传给pytesseract，一般不能解析出来。这是因为Tesseract是抽取更加典型的文本，比如背景统一的书页。下面我们进行去除背景噪音，只保留文本部分。验证码文本一般都是黑色的，背景则会更加明亮，所以我们可以通过检查是否为黑色将文本分离出来，该处理过程又被称为阈值化。

img.save('2captcha_1original.png') gray=img.convert('L') gray.save('2captcha_2gray.png') bw=gray.point(lambda x:0 if x1 else 255,'1') bw.save('2captcha_3thresholded.png')

这里只有阈值小于1的像素（全黑）都会保留下来，分别得到三张图像：原始验证码图像、转换后的灰度图和阈值化处理后的黑白图像。最后我们将阈值化处理后黑白图像再进行Tesseract处理，验证码中的文字已经被成功抽取出来了。

pytesseract.image_to_string(bw)'language' import Image,pytesseract img=Image.open('2captcha_3thresholded.png') pytesseract.image_to_string(img)'language'

我们通过示例样本测试，100张验证码能正确识别出90张。

import ocr ocr.test_samples()
Accuracy: 90/100

下面是注册账号完整代码：

# -*- coding: utf-8 -*-import csvimport stringfrom PIL import Imageimport pytesseractfrom form import registerdef main():
print register('Wu1', 'Being1', 'Wu_Being001@qq.com', 'example', ocr)def ocr(img):
# threshold the image to ignore background and keep text
gray = img.convert('L') #gray.save('captcha_greyscale.png')
bw = gray.point(lambda x: 0 if x 1 else 255, '1') #bw.save('captcha_threshold.png')
word = pytesseract.image_to_string(bw)
ascii_word = ''.join(c for c in word if c in string.letters).lower() return ascii_wordif __name__ == '__main__':
main()

我们可以进一步改善OCR性能：

实验不同阈值
腐蚀阈值文本，突出字符形状
调整图像大小
根据验证码字体训练ORC工具
限制结果为字典单词

如何python安装及配置扩展包爬虫爬取

一.安装Python及基础知识一.安装Python 在开始使用Python编程之前，需要介绍Python的安装过程。python解释器在Linux中可以内置使用安装，windows中需要去官网downloads页面下载。具体步骤如下：第一步：打开Web浏览器并访问官网；第二步：在官网首页点击Download链接，进入下载界面，选择Python软件的版本，作者选择下载python 2.7.8，点击“Download”链接。 Python下载地址：第三步：选择文件下载地址，并下载文件。第四步：双击下载的“python-2.7.8.msi”软件，并对软件进行安装。第五步：在Python安装向导中选择默认设置，点击“Next”，选择安装路径，这里设置为默认的安装路径“C:\Python27”，点击“Next”按钮，如图所示。注意1：建议将Python安装在C盘下，通常路径为C:\Python27，不要存在中文路径。在Python安装向导中选择默认设置，点击“Next”，选择安装路径，这里设置为默认的安装路径“C:\Python27”，点击“Next”按钮。安装成功后，如下图所示：

python爬虫怎么做？

具体步骤整体思路流程简单代码演示准备工作下载并安装所需要的python库，包括：对所需要的网页进行请求并解析返回的数据对于想要做一个简单的爬虫而言，这一步其实很简单，主要是通过requests库来进行请求，然后对返回的数据进行一个解析，解析之后通过对于元素的定位和选择来获取所需要的数据元素，进而获取到数据的一个过程。可以通过定义不同的爬虫来实现爬取不同页面的信息，并通过程序的控制来实现一个自动化爬虫。以下是一个爬虫的实例

python爬虫需要安装哪些库

一、请求库

requests
requests 类库是第三方库，比 Python 自带的 urllib 类库使用方便和
selenium
利用它执行浏览器动作，模拟操作。
chromedriver
安装chromedriver来驱动chrome。
aiohttp
aiohttp是异步请求库，抓取数据时可以提升效率。
二、解析库
lxml
lxml是Python的一个解析库，支持解析HTML和XML，支持XPath的解析方式，而且解析效率非常高。
beautifulsoup4
Beautiful Soup可以使用它更方便的从 HTML 文档中提取数据。
pyquery
pyquery是一个网页解析库，采用类似jquery的语法来解析HTML文档。
三、存储库
mysql
mongodb
redis
四、爬虫框架scrapy
Scrapy 是一套异步处理框架，纯python实现的爬虫框架，用来抓取网页内容以及各种图片
需要先安装scrapy基本依赖库，比如lxml、pyOpenSSL、Twisted

python爬虫笔记安装篇（python爬虫模块安装）