用户都跑了，你却还分不清流失用户和流失率

发布时间：2017-08-31 15:03 所属栏目：30 来源：Pmcaff

导读：副标题#e# PMCAFF(www.pmcaff.com)：最大互联网产品社区，是百度，腾讯，阿里等产品经理的学习交流平台。定期出品深度产品观察，互联产品研究首

PMCAFF(www.pmcaff.com)：最大互联网产品社区，是百度，腾讯，阿里等产品经理的学习交流平台。定期出品深度产品观察，互联产品研究首选。

作者：项宇，网易发展部用户研究员

有一个比喻非常恰当：产品如同蓄水池，用户好比池中之水。池子中每时每刻都有新用户源源不断地加入，也有一部分用户选择离开。

如果用户流失超过新用户的补给，且速度越来越快、规模越来越大时，产品如若不警惕，蓄水池迟早会干涸。

这是用户流失研究的背景。产品阶段不同，重心也会从拉新转移到留存，对于一个成熟的产品和饱和的市场而言，获取一个新用户的成本可能是留住一个老用户的数倍，流失率的降低也意味着营收的增加，在这种条件下，流失研究的价值是显而易见的。

而研究流失用户所面临的主要问题，是如何衡量用户流失的规模，重中之重是梳理清楚“流失用户”和“流失率”的定义。或许你脑海中早已经罗列好了几点困惑：

为了给流失一个明确、又能符合产品特征的定义，并且相对准确地识别出可能流失的用户，我们引入二元逻辑回归作为定量流失研究的模型。

在模型中，我们将一段时间内用户的一系列行为特征数据(如在线天数、充值金额、积分等级、点击次数……)，代入二元逻辑回归方程中，就可以计算出相应的流失概率。

也可以用下图数据采集与流失预测的时间窗口来理解这一过程。选择产品中一部分老用户，观察和收集他们在一个月内的行为数据(深蓝色部分)，通过这些数据，我们可以预测其在未来一段时间内(红色部分)的流失与留存情况。

在预测周期 1 内出现但周期 2 未出现的，说明在周期 2 内流失了，如果两个周期内都没有出现，那么可能在观察期内就流失了，上述两种都属于流失;而周期 1 和周期 2 都有出现的用户，则是留存用户。

但是，在通过定量模型来研究流失的过程中，往往存在着几个常见的误区：

一、数据仅为工具，产品理解贯穿始终

如何界定流失用户，避免概念误区

在构建流失模型时，通常以月作为分析和数据提取的周期，比如在上图时间窗口中，以连续一个月没有使用算作流失。但这种简单粗暴的划分方法往往会带来三方面的问题。

1、流失周期受用户使用间隔决定，不同周期划分影响用户结构比例

如果以 1 个月作为流失周期，那么十月出现但十一月没有出现(蓝色圆点代表出现)的用户在十一月流失了，而实际上，他在十二月又出现了，是一个回访用户(见回访3)，并没有真实流失。

如果我们以 2 个月为周期，则“回访3”的用户在10~ 11 月， 12 月以后两个周期内都出现过，应该是一个留存用户。周期划分对用户流失界定有着直接影响。

2、如果简单以一个月为周期进行用户分类，回访用户过多(比如占总体15%)，无法忽视且难以处理

无论以何种周期划分，必然存在一定比例的回访用户，将回访用户作为缺失值、算作留存用户或者作为流失用户，均对模型准确率有较大影响。

3、流失周期划分会影响模型的准确率与平衡性

如下表，以总样本100w为例，分别以 4 周、 5 周、 6 周作为流失标准，划分出的流失和留存用户是不同的，对应的流失留存预测准确率也不同。

流失周期过短，流失预测的准确率低，因为定义为流失的用户中有大量实际留存的用户，只是其使用间隔长而已(比如以 1 周没登录就算流失，但实际上很多留存用户2~ 3 周才登录一次，也被划分成流失用户);同时周期过短，定义为留存的用户实际上后来也会流失。

因此，不合理的周期造成预测准确率低且不平衡，我们需要不断尝试周期划分，在保证整体准确率的情况下寻求流失与留存准确率最佳的平衡点，才能更为准确地同时预测流失及留存情况。

如果流失准确率有90%但留存只有50%，那么虽然我们预测流失的用户几乎都是真正会流失的，但可能只识别出了总体用户中一小部分流失用户，还有大量流失用户被划分在了留存用户中，导致留存准确率过低。

在这种情况下，选择恰当的定义方法显得至关重要。通过查阅资料，我们发现对流失比较经典的定义是“一段时间内未进行关键行为的用户”，关键点在于如何界定时间周期(流失周期)和关键行为(流失行为)。

（编辑：ASP站长网）