弥合AI大规模落地的巨大缺口!阿里、腾讯、百度等联合推出互联网服务AI基准(6)
针对以上六个最耗时的内核,作者评估了这些内核的八种暂停,包括指令获取暂停(Inst_fetch)、执行依赖暂停(Exe_depend)、内存依赖暂停(Mem_dependent)、纹理暂停(Texture)、同步暂停(Sync)、常量内存依赖暂停(Const_mem_depend)、管线忙暂停(Pipi_busy)、内存限制暂停(Mem_throttle)。 图6:每个内核的暂停分解 图 6 显示了每个内核的八种暂停的分解。作者发现前两个 GPU 执行暂停是内存依赖暂停和执行依赖暂停。内存依赖关系暂停可能是由于高速缓存缺失,因此加载 / 存储资源不可用。优化策略包括优化数据对齐、数据局部性和数据访问模式。由于指令级并行度较低,可能会出现执行依赖暂停,因此利用 ILP 可以在一定程度上缓解部分执行依赖暂停。 作者还确定了表 7 中函数级的暂停,以便为函数调用提供潜在的优化指导。例如,“卷积”类中 maxwell_scudnn_128x32_stridedB_splitK_interior_nn 函数的内存依赖暂停百分比达到 61%,而“GEMM”类中 maxwell_sgemm_128x64_nn 函数的内存依赖暂停百分比为 18%,说明需要不同的优化策略才能实现最大的性能改进。 结 论这篇论文介绍了 17 家中国企业联合推出的第一个行业标准互联网服务人工智能基准套装。作者提出并实现了一个高度可扩展、可配置和灵活的人工智能基准框架,并从三个最重要的互联网服务领域:搜索引擎、社交网络和电子商务中提取出 16 个突出的人工智能问题领域。在 AIBench 框架的基础上,设计并实现了第一个端到端的互联网服务 AI 基准套装,并给出了一个底层的电子商务搜索模型。在 CPU 和 GPU 集群上,作者对端到端应用程序基准进行了初步评估。与 AI 相关的组件显著地改变了互联网服务的关键路径和工作负载特性,证明了端到端 AI 应用程序基准的正确性和必要性。
(编辑:ASP站长网) |