从人工智能 (AI)发展应用看算法测试的测试策略(2)
除了上述算法模型评估指标,我们还常用ROC、PR曲线来衡量算法模型效果的好坏。 我们在算法微服务功能、性能测试中介绍到,使用了基于关键字驱动、数据驱动的测试思想,利用Python Request、Locust模块分别实现功能、性能自定义关键字开发。考虑到测试技术栈的统一以及可复用性,我们基于上述设计,实现了算法模型评估指标的自定义关键字开发,每次运行输出相同测试集下的不同版本模型评估指标的横向比较。 当然除了不同版本的比较模型评估指标的比较,如果条件允许,我们还需要进行一定的竞品比较,比较与市场上相同类似的算法效果的差异,取长补短。 算法指标结果分析 我们对算法模型指标评估之后,除了感知算法模型评估指标在不同版本的差异,还希望进一步的进行分析,已得到具体算法模型的优化的优化方向,这时候就需要结合数据的标注信息进行深度的分析,挖掘算法优劣是否哪些数据特征的影响,影响程度如何。比如通过数据特征组合或者控制部分特征一致等方式,看其他特征对算法效果的影响程度等等。 这时候我们一般通过开发一些脚本实现我们的分析过程,根据算法微服务接口的响应体以及数据准备阶段所标注的数据特征,进行分析脚本的开发。 另外指标结果的进一步分析,也要结合算法设计,比如人脸检索算法,每张图片的检索流程为“输入图片的人脸检测“ -> “输入图片的人脸特征提取“ -> “相似特征检索“,通过此查询流程不难看出人脸检索的整体精确率受上述三个环节的影响,因此基于指标结果的深度分析也需要从这三个层次入手。 算法测试报告 一般算法测试报告由以下几个要素组成:
由于算法微服务测试的复杂度相对普通服务接口较高,在报告注意简明扼要。
(编辑:ASP站长网) |