任务介绍

无论是在爬虫还是自动化项目中，经常会用到登录，而登录又经常会出现图片验证码。本示例将使用Keras来搭建CNN开山之作——LeNet来破解一个网站的验证码

本实例代码修改自Adam Geitgey的博文

破解验证码的网站：https://www.139130.com/saas/findpwd.html

0.前期准备

环境搭建

代码在Python3.7的环境下调试通过，但讲道理Python3.x应该都没问题\

安装Python3.7

可参考廖雪峰的博客（含视频）

进阶的同学可以使用virtualenv来创建一个虚拟环境，以免不同代码之间的依赖相互影响：virtualenv教程

或者使用PyCharm来新建虚拟环境：Pycharm虚拟环境（Virtualenv）配置

安装依赖

Python依赖都已记录在requirements.txt中，请尝试执行

pip install -r requirements.txt

Tips

本示例程序所需计算量不大，默认安装的是CPU版本的tensorflow，如需使用GPU版本，只需将requirments.txt中的tensorflow修改为tensorflow-gpu即可

所需数据

我手动打码了一部分数据，保存在captcha_images文件夹下，解压即可，解压后captcha_images/xuanwu文件夹下将有大概400多张验证码照片

另外为了充实数据集，我们再使用类似的方法手动生成一些图片便于学习

我们使用Python的captcha库来生成验证码，但其默认生成的验证码带有干扰元素，为了让接下来的分割更容易，我们需要修改captcha包的源代码

以下操作非常不建议实践，但我实在太懒了……

如果看了一遍之后不太清楚怎么操作，可以放心的忽略，直接进行第1步

找到依赖的安装文件夹，可以执行where pip来查看并定位到Lib\site-packages\captcha\image.py文件
将image.py的229和230号注释掉，以去掉噪声，like this：

227     color = random_color(10, 200, random.randint(220, 255))
228     im = self.create_captcha_image(chars, color, background)
229     # self.create_noise_dots(im, color)
230     # self.create_noise_curve(im, color)
231     im = im.filter(ImageFilter.SMOOTH)
232     return im

将image.py的197行注释掉，198行向前缩进一格，以保证所有的字符之间都有空格间隔，否则可能会相互连接在一起

 195    images = []
 196    for c in chars:
 197       # if random.random() > 0.5:
 198       images.append(_draw_character(" "))
 199       images.append(_draw_character(c))

1. 验证码图片分割为单个字符的图片

执行

python extract_single_letters_from_captchas.py

为了减少机器学习的工作量，我们将验证码图片分割为4个字符的图片分割的图片将保存在extracted_letter_images文件夹中

2. 训练模型

python train_model.py

可能需要十几分钟的时间，如果感兴趣也可以尝试采用其他模型，比如常规的线性回归到更深的神经网络

3. 用训练好的模型识别验证码

python solve_captchas_with_model.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

任务介绍

0.前期准备

环境搭建

安装Python3.7

安装依赖

所需数据

1. 验证码图片分割为单个字符的图片

2. 训练模型

3. 用训练好的模型识别验证码

Files

README.md

Latest commit

History

README.md

File metadata and controls

任务介绍

0.前期准备

环境搭建

安装Python3.7

安装依赖

所需数据

1. 验证码图片分割为单个字符的图片

2. 训练模型

3. 用训练好的模型识别验证码