如何解决机器学习树集成模型的解释性问题(2)
这个数据集有这些特征:'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT'
output: 上图可以看出每个特征之间的相互作用(输出图是可以交互的)。 但是为了理解单个特性如何影响模型的输出,我们可以将该特性的SHAP值与数据集中所有示例的特性值进行比较。由于SHAP值代表了模型输出中的一个特性的变化,下面的图代表了预测的房价随着RM(一个区域中每栋房子的平均房间数)的变化而变化的情况。 单一RM值的垂直色散表示与其他特征的相互作用。要帮助揭示这些交互依赖关系,dependence_plot 自动选择 另一个特征来着色。比如使用RAD着色,突显了RM(每户平均房数)对RAD的值较高地区的房价影响较小。
output: 为了得到整体水平上每个特征的重要度情况,我们可以画出所有特征对于所有sample的SHAP值,然后根据SHAP值之和来降序排序,颜色代表特征重要度(红色代表高,蓝色代表低),每个点代表一个样本。
output: 我们也可以只是显示SHAP值的所有样本的均值,画出bar图。
output: References [1] A Unified Approach to Interpreting Model Predictions http://papers.nips.cc/paper/7... [2] Consistent Individualized Feature Attribution for Tree Ensembles https://arxiv.org/pdf/1802.03... [3] Interpretable Machine Learning https://christophm.github.io/... [4] shap 官方文档 https://github.com/slundberg/... 本文由博客一文多发平台 OpenWrite 发布!
(编辑:ASP站长网) |