弥合AI大规模落地的巨大缺口!阿里、腾讯、百度等联合推出互联网服务AI基准(2)
框架还提供了 离线训练 和 在线推理 模块,以构建端到端的应用程序基准。首先,离线训练模块从 AI 问题领域模块中选择一个或多个组件基准,通过指定所需的基准 ID、输入数据和执行参数(如批大小)。然后离线训练模块对模型进行训练,并将训练后的模型提供给在线推理模块。在线推理模块将训练好的模型加载到服务系统中,例如 TensorFlow 服务。通过与关键路径中的其他非 AI 相关模块协作,一个端到端的应用程序基准就构建完成了。 为了能够在大型集群上轻松部署,该框架还提供了 部署工具,其中包含两个分别使用 Ansible 和 Kubernetes 的自动部署模板。其中,Ansible 模板支持在物理机或虚拟机上的可扩展部署,而 Kubernetes 模板则用于在容器集群上部署。 2.2 突出 AI 问题领域 为了覆盖互联网服务中广泛的主要人工智能问题领域,作者深入分析了搜索引擎、社交网络和电子商务三大主要互联网服务的核心场景,如表 2 所示。一共确定了 16 个具有代表性的人工智能问题领域: 表 2:互联网服务中的突出 AI 问题领域 分类: 从输入数据中提取不同的主题类,这是一个有监督的学习问题,通过定义一组目标类别并训练模型进行识别。它是互联网服务或其它应用领域的典型任务,广泛应用于类别预测、垃圾邮件检测等多种场景中。 图像生成: 提供一个无监督的学习问题来模拟数据的分布并生成图像。此任务的典型场景包括图像分辨率增强,可用于生成高分辨率图像。 文本到文本翻译: 将文本从一种语言翻译到另一种语言,这是计算语言学最重要的领域,可以用来智能翻译搜索和对话。 图像到文本: 自动生成图像的描述。它可以用来生成图像标题和识别图像中的光学字符。 图像到图像: 将图像从一个表示转换为另一个表示。它可以用来合成不同年龄的人脸图像,模拟虚拟化妆。面部老化可以帮助搜索不同年龄阶段的面部图像。 语音识别: 将语音输入识别和翻译为文本。该任务主要应用于语音搜索和语音对话翻译。 人脸嵌入表示: 将人脸图像在内嵌空间中转化为一个向量。该任务的典型场景是人脸相似度分析和人脸识别。 三维人脸识别: 从不同角度从多幅图像中识别出三维人脸信息。主要研究三维图像,有利于实现人脸相似度和人脸认证场景。 目标检测: 检测图像中的对象。典型的场景是垂直搜索,如基于内容的图像检索和视频对象检测。 推荐: 提供建议。此任务广泛用于广告推荐、社区推荐或产品推荐。视频预测:通过预测先前帧的变换来预测未来的视频帧。典型的应用场景是视频压缩和视频编码,用于高效的视频存储和传输。 图像压缩: 压缩图像并减少冗余。从数据存储开销和数据传输效率的角度来看,这项任务对于互联网服务是非常重要的。 三维物体重建: 预测和重建三维物体。典型的应用场景有地图搜索、光场渲染和虚拟现实。 文本总结: 为文本生成摘要,对于搜索结果预览、标题生成和关键字发现非常重要。 空间变换: 执行空间变换。典型应用场景是空间不变性图像检索,这样即使图像被大幅拉伸,也可以检索图像。 学习排序: 学习搜索内容的属性,对搜索结果的得分进行排序,这是搜索服务的关键。 2.3 微基准和组件基准 针对上面总结的突出人工智能问题,作者给出了人工智能算法的具体实现。表 3 和表 4 列出了 AIBench 中的组件基准和微基准。总的来说,AIBench 包括 16 个用于 AI 问题的组件基准和 12 个从典型 AI 算法中提取计算单元的微基准。 表 3:AIBench 组件基准 表 4:AIBench 微基准 2.4 数据模型 为了满足不同应用的数据集的多样性,作者收集了 15 个具有代表性的数据集,包括 ImageNet、CIFAR、LSUN、WMT English-German、CityScapes、Librispeech、Microsoft Coco、LFW、VGFace2、Robot Pushing、MovieLens、ShapeNet、Gigaword、MNIST、Gowalla 以及来自行业合作伙伴的 3D 人脸识别数据集。 2.5 评价指标 AIBench 专注于准确性、性能和能源消耗等行业重点关注的指标。在线推理的度量包括查询响应延迟、尾部延迟和性能方面的吞吐量、推理精度和推理能耗。离线训练的度量包括每秒处理的样本、训练特定 epoch 的时间、训练达到目标精度的时间和训练达到目标精度的能量消耗。 3、设计和实现应用基准在 AIBench 框架的基础上,作者实现了第一个端到端的 AI 应用基准,对现实的电子商务搜索任务进行完整的用例建模。 3.1 设计和实现 (编辑:ASP站长网) |