包含python如何实现简单的验证码输入的词条

本文目录一览：

1、python如何识别验证码
2、如何利用Python做简单的验证码识别
3、selenium+python怎么模拟用户输入验证码登录
4、python简单验证码识别的实现过程

python如何识别验证码

我们首先识别最简单的一种验证码，即图形验证码。这种验证码最早出现，现在也很常见，一般由4位字母或者数字组成。例如，中国知网的注册页面有类似的验证码，页面如下所示：

表单中最后一项就是图形验证码，我们必须完全正确输入图中的字符才可以完成注册。

更多有关验证码的知识，可以参考这些文章：

Python3爬虫进阶：识别图形验证码

Python3爬虫进阶：识别极验滑动验证码

Python3爬虫进阶：识别点触点选验证码

Python3爬虫进阶：识别微博宫格验证码

·本节目标以知网的验证码为例，讲解利用OCR技术识别图形验证码的方法。

·准备工作识别图形验证码需要库tesserocr，以mac安装为例：在mac下，我们首先使用Homebrew安装ImageMagick和tesseract库： brew install imagemagickbrew install tesseract 接下来再安装tesserocr即可：pip3 install tesserocr pillow这样我们就完成了 tesserocr的安装。

·获取验证码为了便于实验，我们先将验证码的图片保存到本地。打开开发者工具，找到验证码元素。验证码元素是一张图片，它的ser属性是CheckCode.aspk。所以我们直接打开如下链接就可以看到一个验证码，右键保存即可，将其命名为code.jpg：

这样我们就得到一张验证码图片，以供测试识别使用。

如何利用Python做简单的验证码识别

先是获取验证码样本。。。我存了大概500个。

用dia测了测每个字之间的间距，直接用PIL开始切。

from PIL import Image

for j in range(0,500):

f=Image.open("../test{}.jpg".format(j))

for i in range(0,4):

f.crop((20+20*i,0,40+20*i,40)).save("test{0}-{1}.jpg".format(j,i+1))

上面一段脚本的意思是把jpg切成四个小块然后保存

之后就是二值化啦。

def TotallyShit(im):

x,y=im.size

mmltilist=list()

for i in range(x):

for j in range(y):

if im.getpixel((i,j))200:

mmltilist.append(1)

else:

mmltilist.append(0)

return mmltilist

咳咳，不要在意函数的名字。上面的一段代码的意思是遍历图片的每个像素点，颜色数值小于200的用1表示，其他的用0表示。

其中的im代表的是Image.open()类型。

切好的图片长这样的。

只能说这样切的图片还是很粗糙，很僵硬。

下面就是分类啦。

把0-9，“+”，”-“的图片挑好并放在不同的文件夹里面，这里就是纯体力活了。

再之后就是模型建立了。

这里我试了自己写的还有sklearn svm和sklearn neural_network。发现最后一个的识别正确率高的多。不知道是不是我样本问题QAQ。

下面是模型建立的代码

from sklearn.neural_network import MLPClassifier

import numpy as np

def clf():

clf=MLPClassifier()

mmltilist=list()

X=list()

for i in range(0,12):

for j in os.listdir("douplings/douplings-{}".format(i)):

mmltilist.append(TotallyShit(Image.open("douplings/douplings-{0}/{1}".format(i,j)).convert("L")))

X.append(i)

clf.fit(mmltilist,X)

return clf

大概的意思是从图片源中读取图片和label然后放到模型中去跑吧。

之后便是图像匹配啦。

def get_captcha(self):

with open("test.jpg","wb") as f:

f.write(self.session.get(self.live_captcha_url).content)

gim=Image.open("test.jpg").convert("L")

recognize_list=list()

for i in range(0,4):

part=TotallyShit(gim.crop((20+20*i,0,40+20*i,40)))

np_part_array=np.array(part).reshape(1,-1)

predict_num=int(self.clf.predict(np_part_array)[0])

if predict_num==11:

recognize_list.append("+")

elif predict_num==10:

recognize_list.append("-")

else:

recognize_list.append(str(predict_num))

return ''.join(recognize_list)

最后eval一下识别出来的字符串就得出结果了。。

顺便提一句现在的bilibili登陆改成rsa加密了，麻蛋，以前的脚本全部作废，心好痛。

登陆的代码。

import time

import requests

import rsa

r=requests.session()

data=r.get("act=getkey_="+str(int(time.time()*1000))).json()

pub_key=rsa.PublicKey.load_pkcs1_openssl_pem(data['key'])

payload = {

'keep': 1,

'captcha': '',

'userid': "youruserid",

'pwd': b64encode(rsa.encrypt((data['hash'] +"yourpassword").encode(), pub_key)).decode(),

}

r.post("",data=payload)

selenium+python怎么模拟用户输入验证码登录

selenium模块调用浏览器chromdriver，这样就是一个可以看见的浏览器，用户可以手动的去填写验证码，然后下面就交给程序去操作了

如果你能采用图像识别，那就不需要用selenium了，用selenium在爬虫中主要目的是加载js文件，

如果能直接抓取登录接口，直接一个post就能搞定！！！

python简单验证码识别的实现过程

demo :

import pytesseract

from PIL import Image

image = Image.open("captcha.png")

print(pytesseract.image_to_string(image))

=================================================

=================================================中文识别

import pytesseract

from PIL import Image

image = Image.open("00.jpg")

print(pytesseract.image_to_string(image,lang='chi_sim'))

有时候文本识别率并不高，建议图像识别前，先对图像进行灰度化和二值化

效果如下（有时候第一次可能识别失败，可以写个循环逻辑让它多识别几次，一般程序运行1-3次基本会识别成功）：

包含pythonjsondump的词条

本文目录一览： 1、【Python】浅谈python中的json 2、Python用json模块时怎么才能用dump存数据时自动换行呢 3、python 用json.dumps处理字典后如何还原？ 4

2023-12-08

包含python实验报告七的词条

2022-11-09

包含python实现爬取马云的微博的词条

2022-11-15

包含并举例用python实现断言的词条

2022-11-22

包含如何用python实现人工智能的词条

2022-11-17

包含这段姓名验证的js代码很烂的词条

本文目录一览： 1、JS表单验证姓名不能为空且一定为中文 2、求前端验证js代码 3、用JS验证姓名，年龄，电话怎么写。 JS表单验证姓名不能为空且一定为中文就这么2句代码就写得乱七八糟的funct

2023-12-08

包含python相关的函数知识的词条

2022-11-10

软件测试之python篇的简单介绍

2022-11-20

包含基于python的scikit的词条

2022-11-12

包含python如何格式化json的词条

本文目录一览： 1、python 怎么处理json 2、python字符串如何转json？ 3、python 字符串转 json 4、何用shell或者python脚本格式化 json后缀名文件，并保

2023-12-08

包含python关于编码basic的词条

2022-11-11

包含python实现lsb算法代码的词条

2022-11-14

包含皆用python实现的词条

2022-11-10

包含python进阶四的词条

2022-11-14

包含python实现人证合一的词条

2022-11-12

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

包含python如何实现简单的验证码输入的词条

本文目录一览：

python如何识别验证码

如何利用Python做简单的验证码识别

selenium+python怎么模拟用户输入验证码登录

python简单验证码识别的实现过程

包含python如何实现简单的验证码输入的词条

包含python之nlp简单实践的词条

python最简单验证码（Python验证码）

python表单验证（表单验证怎么实现）

包含python实现mtcnn的词条

包含pythonjsondump的词条

包含python实验报告七的词条

包含python实现爬取马云的微博的词条

包含并举例用python实现断言的词条

包含如何用python实现人工智能的词条

包含这段姓名验证的js代码很烂的词条

包含python相关的函数知识的词条

软件测试之python篇的简单介绍

包含基于python的scikit的词条

包含python如何格式化json的词条

包含python关于编码basic的词条

包含python实现lsb算法代码的词条

包含皆用python实现的词条

包含python进阶四的词条

包含python实现人证合一的词条

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

包含python如何实现简单的验证码输入的词条

本文目录一览：

python如何识别验证码

如何利用Python做简单的验证码识别

selenium+python怎么模拟用户输入验证码登录

python简单验证码识别的实现过程

包含python如何实现简单的验证码输入的词条

包含python之nlp简单实践的词条

python最简单验证码（Python验证码）

python表单验证（表单验证怎么实现）

包含python实现mtcnn的词条

包含pythonjsondump的词条

包含python实验报告七的词条

包含python实现爬取马云的微博的词条

包含并举例用python实现断言的词条

包含如何用python实现人工智能的词条

包含这段姓名验证的js代码很烂的词条

包含python相关的函数知识的词条

软件测试之python篇的简单介绍

包含基于python的scikit的词条

包含python如何格式化json的词条

包含python关于编码basic的词条

包含python实现lsb算法代码的词条

包含皆用python实现的词条

包含python进阶四的词条

包含python实现人证合一的词条

人机检测，请谅解