寒武纪副总裁刘道福:算力是人工智能的第一推动力(3)
进入2000年后,由于互联网企业的崛起,互联网巨头能够拥有大量的算力和数据,用于神经网络这类算力密集型和数据密集型的算法研究,神经网络重新焕发了第三春,并且诞生了比传统浅层神经网络(两三层)层数多很多的深度神经网络,层数高达上千层。 这些深度神经网络的表述能力比传统浅层神经网络好很多,可以解决更加复杂的问题。 因此,深度神经网络很快在2012年后逐步成为机器学习主流算法,并且迅猛发展,很快在包括计算机视觉、语音识别、自然语言等领域成为了主流。 人工智能有三个很重要的因素:数据、算法、算力。 数据是人工智能的生产资料,没有好的数据,无论算法多好,也很难加工出来好的模型。 算法是人工智能的灵魂,好的算法,能把好的数据进行加工(训练),得到一个好的模型,对于新的数据进行更好的预测。 算力是人工智能的生产力,由于数据量越来越大,算法越来越复杂,需要非常非常高的算力支撑。就像人类社会进步需要生产力推动一样,算力是推动人工智能发展的第一推动力。 人工智能为什么需要一些专门的处理器呢?从历史发展来讲也可以看到一些端倪,传统在80年代、90年代所有的运算都是控制为主的运算或者文本处理,CPU就够了。 到90年代,图形界面的出现、游戏的出现,出现了图形渲染等这些新的的计算需求,原来的CPU处理这些计算太低效,成本太高,速度太慢,出现了针对图形界面和图像渲染的图形处理器(Graphics Processing Unit, GPU)。 人工智能计算特点相对图形渲染的计算,有一些新的特点,图像渲染以向量为主,但是人工智能计算往往是三维矩阵或者更高维运算为主,所以需要不一样架构的处理器来支撑人工智能这一类的计算。 伴随着人工智能的发展和应用,2000年后,人工智能芯片也开始得到学术界和产业界的关注。寒武纪在这个领域做的很早,我们在2008年在相关领域进行学术研究,2016年成立公司进行真正的产业落地。 作为一家芯片公司,我们关注整个人工智能的角度与大家可能稍微不一样,我们关注的是不同应用场景对算力的需求。 比如说对于物联网领域,算力需求不会那么大,但是对功耗要求很高,希望做到极低功耗,这个场景对算力的要求往往小于1Tops。对移动消费电子,比如手机或者VR、AR设备,算力要求和具体场景有关系,1-20Tops的算力要求都有。 而对于一些关键实时应用,比如自动驾驶领域,取决于自动驾驶水平(Level)不一样,算力范围变化是很大的,可能从20-2000TOPS。 有观点认为,自动驾驶每往上升一个Level,所需要的算力会增加5~10倍。Level 2的自动驾驶典型算力要求为20~30TOPS。 另外一个关键场景就是互联网、数据中心的应用,这个场景,取决于业务规模的大小,可能从POPS到EOPS不等。 人工智能发展当中,数据促进了IT技术变革以及人工智能落地。因为数据越多,所需要处理的类型越来越丰富,从而推动了很多新需求、很多新应用诞的生。 另外,人工智能发展的另一个趋势,就是终端与云端的联系越来越紧密。在终端,由于越来越多传感器被部署,越来越多的数据需要被处理,需要进行推理。 而这些推理,又往往依赖于云端,一方面,推理所需要的模型,往往需要终端数据汇集到云端,进行标注和训练得到。另一方面,终端由于受限于计算力和存储容量,对于一些复杂推理应用,需要云端的算力进行支撑。 人工智能芯片要做到“好用”与“通用”,要解决一系列问题和挑战。寒武纪在这方面,做了很多尝试和工作。 首先在处理器指令和架构设计方面,我们从应用需求出发,分析和抽取应用负载特征,基于这些特征设计灵活指令集,提供灵活的运算器方案,以及可扩展性强、高效架构。 在具体产品落地上,寒武纪通过灵活和丰富的软件栈支持主流编程框架,并在大规模商用中得到反馈和修正,降低了成功智能芯片的开发成本,加速了人工智能芯片的落地。 在实际的人工智能处理器设计过程中,采用传统ASIC芯片设计思路,也即直接将算法硬件化,存在三大矛盾和挑战需要克服。 第一个有限规模的硬件和任意规模的算法的矛盾,硬件受限于物理限制,所能同时处理的算法规模是受限的。 第二个是结构固定的硬件和千变万化的算法的矛盾,芯片和硬件的迭代速度较慢,周期较长,而算法迭代速度极快,同时同一时期的算法本身也是有各种各样的算法,如何通过一个结构的芯片或硬件支持各种时期,各种变化的算法,是个重大的挑战。 第三个是能耗受限的硬件和计算量大的算法,由于处理数据的人工智能算法越来越复杂,以及所需要处理的数据量越来越大,所需要的算力也越来越大,对计算的成本提出了很大的挑战,计算所需要的电力成本升高及其后面的基础设施建造都会是一个重要的负担,因此,在实际落地中,企业往往对于人工智能硬件功耗提出了各种限制,各种要求。 寒武纪在设计人工智能芯片过程中,采用了一系列技术来克服上述挑战,包括集成大量片内SRAM,神经元虚拟化,通用灵活的人工智能指令集,以及对稀疏神经网络的专门支持等技术。 在产品战略上,寒武纪坚持云边端一体发展、协同发展,坚持推理和训练,云端、边缘和终端形成一系列产品矩阵,实现AI应用的全场景覆盖。我们在终端、云端、边缘都有不同层次的产品。 在终端,由于产品形态非常千变万化,我们采用的IP授权的方式,把我们的AI能力赋能于各类终端SOC厂商,包括手机、摄像头SOC芯片厂商。 在云端,我们直接提供芯片、板卡和软件栈,直接服务于互联网和行业巨头、数据中心。在边缘,我们定义的边缘计算是边缘网关侧的计算,我们也提供了专门的芯片和小尺寸加速卡,赋能于边缘计算的各行各业。 今年6月,我们发布了第二代云端推理芯片,思元270,在稠密的神经网络处理上,相比前一代有4倍的性能提升。最近,我们也推出了面向边缘计算领域的思元220芯片和M.2加速卡。 思元220是一款专门用于深度学习的边缘加速芯片,采用TSMC 16nm工艺,它具有小尺寸、高算力、低功耗和丰富的I/O接口等特点。 (编辑:ASP站长网) |