弥合AI大规模落地的巨大缺口!阿里、腾讯、百度等联合推出互联网服务AI基准(4)
为了构建端到端的临床诊断应用基准,AIBench 框架灵活地提供了与 AI 相关的离线模块和在线模块。在离线模块中,选择目标检测、分类和推荐的组件基准作为训练模型。在在线模块中,将这些模型作为服务进行加载以在线推理。 4、 实验设置4.1 节点配置 作者部署了一个 16 节点的 CPU 和 GPU 集群。对于 CPU 集群,所有节点都连接到一个 1GB 的以太网网络。每个节点配备两个 Xeon E5645 处理器和 32 GB 内存。每个处理器包含六个内核。每个节点的操作系统版本均为 Linux CentOS 6.9,Linux 内核版本为 3.11.10。软件版本分别是 JDK1.8.0、Python3.6.8 和 GCC 5.4。GPU 节点配备了四个 Nvidia Titan XP。每个 Titan XP 拥有 3840 个 Nvidia Cuda 内核和 12GB 内存。表 5 列出了每个节点的详细硬件配置。 表 5:硬件设置细节 4.2 基准部署 在线服务器设置: 在线服务器部署在 16 节点 CPU 集群上,包含 1 个查询生成器节点、1 个搜索计划器节点、2 个推荐器节点、9 个搜索器节点、1 个排序器节点和 2 个数据存储节点。表 6 列出了详细的模块设置信息和涉及的软件信息。 表 6:在线服务器设置 离线训练器设置: 离线训练器部署在 GPU 上。CUDA 和 Nvidia 驱动程序版本分别为 10.0 和 410.78,使用 1.1.0 版本 PyTorch 实现。 4.3 性能数据收集 作者使用 Network Time Protocol 在所有集群节点上实现时钟同步,并获得在线服务器的延迟和尾延迟度量。使用分析工具 Perf,通过硬件性能监视计数器(PMC)收集 CPU 微体系结构数据。对于 GPU 评测,作者使用 Nvidia 评测工具包 nvprof 来跟踪 GPU 的运行性能。 5、评估作者对端到端人工智能应用程序基准,包括在线服务器和离线分析器中包含的 10 个人工智能组件基准进行了测评。 5.1 在线服务器评估 作者评估了 16 节点 CPU 集群上的在线服务器性能。产品数据库包含 10 万个具有 32 个属性字段的产品。查询生成器用 30 秒的预热时间模拟 1000 个用户。用户在每个思考时间间隔内连续发送查询请求,遵循泊松分布。当 20000 个查询请求完成时,收集性能数据。 图 3:在线服务器延迟 延迟是衡量服务质量的重要指标。图 3 给出了在线服务器的延迟。如图 3(a)所示,当前基准实现的整个执行路径的总延迟的平均值、第 90 百分位和 99 百分位对应分别为 161.13 毫秒、392 毫秒和 956 毫秒。作者进一步深入分析了每个模块的延迟(图 3b),推荐器占据了最大的延迟:平均延迟 75.7 毫秒, 90 百分位延迟 209.4 毫秒,99 百分位延迟 557.7 毫秒。相比之下,搜索器和推荐求的延迟都在 4 毫秒之内。 此外,图 3(c)给出了推荐器在查询解析、用户数据库访问、类别预测和 TensorFlow 服务方面的延迟分解。作者发现数据库访问和 TensorFlow 服务延迟是影响服务性能的前两个因素。复杂的数据结构和频繁的垃圾收集对数据访问速度有很大的影响。而 TensorFlow 服务则需要使用推荐模型进行前向推理,从而产生较大的延迟。为了衡量 AI 组件对服务性能的影响,找出瓶颈,作者从以下几个方面进行了讨论。 (编辑:ASP站长网) |