抖音分享好友头像顺序是按什么排的抖音分享显示的第一个人

你是否知道什么是用户增长实验？你又了解用户增长实验究竟是在做什么？它如何产生作用的呢？针对这些疑惑，笔者将以抖音为案例，聊聊用户增长实验在做什么。

摘要：

之前简单介绍过用户增长（UG）核心工作流：分析数据→形成假设→实验验证，大致描述了每一步在做些什么。现在用一个大家可能注意到过的案例，来尝试逆推和重现相关的工作场景，争取讲清楚UG实验在做什么。

案例简介：

在刷抖音时部分用户可能会留意到，完成2次播放后分享按钮变成了自己的好友头像，而部分用户依然是常规的分享图标。

对了，这就是一个简单的UG实验。实验涉及到的环节是类似的，我们不妨拿这个例子来做代表，主要讲：

为什么要做这个实验；实验的设计和下发；实验分析；实验价值提炼。

案例重点讲每一步应该做什么，具体数值是杜撰的且并不重要，如有雷同纯属巧合。

图1实验组和对照组的用户界面

1 为什么要做这个实验

这个案例我只是借用，下面的表述主要从旁观角度去做逆推和重现。

1.1 首先关注策略目标

抖音为什么要下发这个策略？不难看出，直接目的是提升用户点击分享按钮的比例（分享率）。用最常分享的「好友头像」替换「分享按钮」是否能提升分享率，需要实验来验证。

1.2 提升分享率的目的是什么

曾经了解过一些经验：

用户群的互动率（转评赞的用户占比）与其留存率很好的正相关

。

从产品逻辑上很好理解：用户有互动，就会收到反馈，持续互动会产生粘性。假想你的微信好友很少，没有收到信息，你还会经常打开吗？假设你每次发朋友圈，没人点赞评论，势必会大大削弱发圈的积极性。

所以，抖音这么做，更进一步的目标应该是提升用户留存，而留存和用户规模又高度相关，策略的

最终目标应该还是提升DAU、时长、收入这些规模数据

。

这些都是前期分析数据的关键产出，而「提升分享率能够提升DAU和时长」是一个假设，需要实验验证。

小结

这个实验虽小，但是它背后关联到最核心的增长目标。实验效果的评估，我们也需要关注到这些

「结果指标」

，而不仅仅是分享按钮的点击率、分享完成率、分享的回流率等等

「过程指标」

。

2 实验的设计和下发2.1 实验的设计

我们通常会使用随机对照实验，市面上大家基本上用AB实验来代指随机对照实验。通过对比实验组和对照组的指标差异，来验证下发不同策略的两组间，是否产生了显著差异。随机对照实验最核心的两个要点是

「随机分组」和「单一变量」

：随机分组，目的是保证实验组和对照组用户组成、特点一致，可以进行对比，确保差异来自策略差异而非用户群差异；单一变量，目的是方便将实验结果的差异准确地归因到某个策略差异上。

2.2 实验的下发

如何实现随机分组呢？

通常将用户ID（通常是在用户首次使用app时自动生成的一个字符串）经过一些随机算法（常用hash算法）的处理，理论上保证用户的特征与随机算法处理后的用户ID不存在依赖关系，最后依据处理后ID进行分组。即便如此，分组的充分随机，依然是一个行业难题，所以会通过实验前的空跑期或叫AA实验来确认不同组间在实验前是否无偏差。

这个案例只关心到随机分组，假设我们随机从大盘活跃用户中取了一部分人群，再随机分为实验组和对照组，就可以开始实验了。

表1实验组和对照组的流量分配

实际工作中，往往会碰到

流量少，而同时需要做的实验多，这就需要引入正交分层

。分层的目的在于形成一系列互不干扰的「平行宇宙」，便于在流量不足时，同时进行很多实验。但是，正交分层有适用条件，我们后面单独开一篇来讲正交分层有哪些要点和坑。

这个案例没这么复杂，只需要将实验组下发「分享按钮替换为朋友圈头像」的指令，而对照组下发「保持原状」的指令（注意：这对照组不是「不下发指令」，因为这样可能会涉及到SRM问题，同样，容我后面单独拿一篇来介绍）。实际工作中，还会碰到多个实验变量，如果需要评估每一个变量的影响，就需要确保存在「仅有一个变量差异」的两个实验组。

3 实验分析3.1 看哪些指标

回归到实验目的，我们直接关注分享率的提升，进一步关注用户留存率的提升，最后想看到对用户DAU、时长等是否有提升。那我们需要关注的指标就有：

表2实验组和对照组的观测指标，数值均为杜撰

3.2 实验结果可信吗

判断实验结果是否可信，涉及到一个「显著性」的概念，即实验组和对照组的指标差异是不是能满足统计显著性。统计显著性，意味着我们看到的提升，并不是因为随机波动造成，而是策略影响的。评估显著性，通常用表2中的P-value、统计功效等来说明，完善的实验平台，可以直接输出差异是否显著的结论。如果对显著性感兴趣，建议大家找一本统计学的书详细了解。

参照表2中的数据，基本上可以说明该策略能够显著提升分享率、次留、DAU和时长。

3.3 选多少样本量合适

直观的认识：样本量足够大时，即使很小的差异也可能是置信的；而样本量太小时，即使比较大的差异，也可能是不置信的。只要分组充分的随机，样本量大更可能得到置信的结果，但是受限于各方面的成本考量，我们往往需要评估选择多少样本量。

这里就涉及到一个