12306验证码已不再安全 机器准确率99.8%
4月13日,中国科学院科技战略咨询研究院与腾讯研究院在北京联合举办了“2017人工智能:技术、伦理与法律研讨会”。 会议邀请了中国科学院科技战略咨询研究院院长潘教峰、腾讯研究院院长司晓、中国科学院学部科学规范与伦理研究与支撑中心李真真、复旦大学计算机学院肖仰华等数十位人工智能领域专家和学者,共同探讨当前人工智能技术发展中面临的和带来的伦理、法律、社会经济影响等问题。 期间,肖仰华教授做了主题为“未来人机区分——基于语言认知的智能验证码”的分享,雷锋网根据现场录音、PPT、以及采访内容整理成文。 雷锋网按:肖仰华,复旦大学计算机科学技术学院,副教授,博士生导师,上海市互联网大数据工程技术中心副主任。主要从事大数据管理与挖掘、知识库等方向的研究工作。 为什么需要验证码? 首先,非常高兴有机会跟大家来分享我在人机区分方面一些思考和工作。我主要从事计算机研究,近几年关注的比较多的是人工智能领域的相关研究。 在研究不断开展的过程中我们越来越强烈地意识到一个问题,那就是我们现在已经很难区分计算机背后到底是人还是机器,这就很容易造成一个非常尴尬的局面,我们到底是在跟人交互还是在跟机器交互?我最近听到一个笑话,有一个人在婚恋网站上谈朋友,最后发现是一个机器人在跟他聊天。所以人机区已经成了非常重要的一个议题。 到底怎样才能有效地区分互联网的另一端是机器还是人呢?我们计算机领域给出的方案就是验证码。这个小小的验证码是所有人最熟悉却又最为陌生的事物,几乎所有人都使用过验证码,但是验证码背后的机制与原理却并不为人所熟知。为什么在登录系统的时候系统会让人输入验证码? 事实上就是为了做人机区分,系统需要知道是真实的人还是机器在获取我们的数据,是真实的人在购买还是机器在刷单,是真实的人在购票还是机器在抢票。所以验证不单单是一件事关乎整个人类身份和尊严的事情,同时也是具有重大安全意义的问题,而且已经在保证网站安全、数据安全、运营安全和交易安全等方面发挥了巨大的作用。 网站安全:垃圾注册、恶意登录、账号盗用 数据安全:数据爬取、数据破坏 运营安全:恶意刷单、虚假秒杀、虚假评论 交易安全:虚假交易、恶意套现、盗卡支付 为什么传统的验证码已经不安全了? 但是最近几年人工智能技术的发展,特别是大数据推动下的人工智能技术的发展,已经使得机器的感知能力达到甚至超越了人类的水平,这个技术趋势的直接结果是什么呢?就是基于感知能力的人机验证的方式已然失效。 先简单回顾一下近几年人工智能发展的趋势。如果想寻求一个简单原因来解释为什么最近几年人工智能风风火火,或者人工智能为何这么兴旺,那么这个原因应该是大数据时代的到来,没有大数据不可能有人工智能如今的发展。我们现在有着越来越庞大的数据规模,越来越完整的数据生态,这是人工智能跨越式发展的前提和基础。 此外,大数据时代我们的硬件水平呈现出指数级增长的趋势。现在我们拥有前所未有的计算能力,而这个计算能力仍然在飞速增长。正是计算能力的飞速增长以及大数据的迅速积累为人工智能的跨越式发展奠定了基础。大数据时代为人工智能的发展可以说带来前所未有的数据红利。 人工智能近期的发展,尤其体现在以深度学习为代表的机器学习方面,近几年我们看到深度学习在很多领域取得了前所未有的突破。深度学习之所以能够迅猛发展,其实就是因为有了海量的标注数据,所以大家看到最近很多深度学习方面突破大都来自像Google、Facebook这样的大公司,为什么?因为他们有海量的数据。 以深度学习为代表的人工智能技术快速发展的一个直接结果就是:机器在某些方面的感知能力方面已经达到甚至超越了人类水平。比如微软在图像识别方面的准确率达到96.43%,人类只有94.9%。也就是说人去看一个图像都不一定有机器看得准。 百度的DeepSpeech平台的语音识别错误率已经降到3.7%-5.7%之间,而人类的错误率仍有4%-9.7%,所以在语音识别方面机器已经超越人类。以深度学习为代表的人工智能技术已经让机器在视觉、听觉方面的感知能力大幅进步,在视听这些基本的感知能力层面人类已经没有什么好值得骄傲的。现在我们身边的机器,其感知能力事实上比我们强。 这个技术趋势的直接结果是什么呢?就是大家最为熟悉的图片验证方式已经彻彻底底失效。这些结果不是来自什么顶尖的实验室,而是来自某大学的硕士生课程作业。对于Complex Image这种相对复杂的验证码,机器识别的准确率高达98%-99.8%。 在人机对比实验里,人大概10个里面要错3个,机器10个里面只错了1个,基本上是机器完败人类。互联网上的很多平台目前还严重依赖这类验证码,以为能够防止刷单、刷票等等,但是事实上并不安全。 传统验证码可以说已经十分不安全。比如上图中拖拽验证码,已经可以通过自动化程序来破解。而且这样的破解程序也不需要什么高手才能做出来的,这里演示的是我实验室同学用来练手的破解项目。 先通过图像处理算法找出方块的目标位置,由于方块区位特征明显,很容易找到。之后设计一个带参数刚体运动的轨迹模拟模型,参数随机化之后模拟真人的轨迹拖动,从而实现破解。 12306图形验证码 除了拖拽验证码,据说难倒了很多购票者的12306的验证码其实也可以被破解。12306的验证码本质上在做图片中的对象识别,因此可以利用已经相当成熟的ImageNet相关算法,而ImageNet相关算法对图片中的实体识别已经到达很高的准确率。 谷歌图形验证码 (编辑:ASP站长网) |