全国首例AI犯罪案：能识别98%的验证码，泄露10亿多组个人信息|行业资讯 -- 青岛申汇科技有限公司

媒体中心

AI 开始进入我们的生活，栖息在智能音箱或者手机里的它们，是能够给你放音乐、陪聊天的助手，而在互联网的灰色地带里，它们也正成为犯罪分子的帮凶。

今年9 月，浙江绍兴警方公布，破获全国首例利用人工智能技术窃取公民个人信息的案件，截获了10 亿余组公民个人信息。

被警方查封的平台叫做「快啊」，曾经是市场上最大的打码平台。他们在破解、窃取、贩卖和盗用个人信息实施诈骗有着完整的链条，其中人工智能技术运用在识别验证码这个环节。

为什么AI 会先学习识别验证码？

一般而言，黑产最初盗取的账号密码信息往往是「粗糙」的。但由于人们的同一个邮箱，通常也是多个网站的登陆账号，同样的密码往往也在多个网站使用。因此黑产会通过利用已有的账号密码信息，去批量尝试这些账号密码能否在更多不同的平台上登陆。

这个过程被称为「撞库」，而撞库的过程中最主要的障碍就是各个网站设置的验证码。

黑产使用的AI，就是用来应对这些验证码的。为什么AI 会先学习识别验证码呢？我们先来解释一下验证码是什么。

当我们登陆网站、提交信息时，总能遇上验证步骤，尤其是在12306 上买票时，对那些图片验证码真的是咬牙切齿。但事实上，验证码是各个网站用来对抗网络黑产恶意登陆等行为而设置的安全策略。

验证码的全名是「全自动区分计算机和人类的图灵测试」，由卡内基梅隆大学的路易斯· 冯· 安（Luis von Ahn）提出。图灵测试，顾名思义，验证码的目的，是为了识别网络请求的发起方是人类，亦或是机器。因此早期的验证码就是网站提出一些问题，这些问题不能被机器破解回答，又得能够被人类轻易答对。

网络黑产在撞库时，他们就会将所遇到的海量验证码「打码」任务，交给「打码平台」去完成。

根据腾讯守护者计划安全团队的介绍，网络黑产撞库时，与打码平台是这样合作的：

首先黑产把已窃取的帐号密码信息导入到撞库软件，撞库软件模拟登录协议，向互联网公司的服务器发送登录请求。服务器检测到登录异常时，会通过验证码来进行拦截；

撞库软件将收到的验证码图片发送给「打码平台」，请求将图片转化为字符。打码平台后台破解验证码，将字符结果返回给撞库软件，完成撞库流程，得到更多的用户信息。

随后这些信息可能被贩卖、用于诈骗犯罪等。

早期的打码平台，是通过众包让分布在各地电脑前的打码小工来完成的。后来进化到了「人工+ OCR 降维识别图片」。随着互联网公司对验证码识别难度的升级，「人工+ OCR 降维识别图片」的识别率在降低，因此像「快啊」这样的打码平台就开始运用AI 技术训练机器，提高识别验证码的精度和效率。

随着安全防护与破解入侵两方面的抗衡日益升级，验证码的难度在增加，形式也在多样化。从简单的字母数字、算术题，到扭曲的字符、模糊的图片，这些被归类为知识性验证码；如今新一代的验证码已经开始向无知识型进化，例如Google 的reCAPTCHA，某些网站需要拖动滑条的验证步骤。

机器学习的发展，让字母、数字组成的知识性验证码被识别和破解的风险日渐增大，但这种验证码，依然是主流。据警方公布，这次抓捕的团伙所使用和训练的AI，已经能够识别出98% 以上的验证码。

中国互联网协会发布的《中国网名权益保护调查报告2016》显示，在2016 年，我国6.88 亿网民因诈骗短信、信息泄露等造成的经济损失约为915 亿元。全国平均每个人的个人信息至少被泄露了5 次。

AI 犯罪离我们有多远？

对于网络黑产而言，AI 技术就是他们所发现的一把更加好用的枪支。技术本身是不分善恶的，只是看如何去运用它、在哪些情景使用它。使用AI 犯罪，其源头，依然是人类本身。

今年7 月，金融时报报道，国内人脸识别公司云从科技（Cloud Walk）正与警方合作，开发和测试用来识别犯罪嫌疑人的人工智能，其中包括人脸识别和步态分析等技术。

总而言之，攻防双方的对抗是一直在迭代升级的。在AI 使用的争议上，埃隆· 马斯克则是一次一次地向公众发布自己的顾虑和警告。

>>公司新闻

>>数据安全管理系列

>>图文档管理系列

数据安全管理系列