一次实验、两种错误、三个直觉
最近,我们在公司内部做了一些 Hacking Growth 方向的探索,我们团队俨然成了增长团队,从用户增长、转化的各个环节上尝试不同的策略,拉新、激活、留存、促活、商业化,整个核心流程是一个大漏斗,不同的阶段和渠道又可以拆分成不同的小漏斗,哪个环节损失大就优化哪个。但无论做何种尝试,都绕不开 A/B 测试。
对于一名工程师,我认为 A/B 测试有两个角度值得了解:
如何搭建一个 A/B 测试平台,支持流量分层、转发,让不同实验共享流量;
如何动手做一个 A/B 测试,并能合理地解读统计结论,指导后续生产实践;
对于前者,业界已经有许多最佳实践,比如之前引我入门的这篇论文 Overlapping Experiment Infrastructure,以及伴鱼的小伙伴们写的两篇实践总结 [1]、[2];本文想聊的是后者。
1. 一次实验
在互联网场景中,无论是拉新、激活、留存、促活还是商业化,所有的 A/B 测试都可以用一个公式来概括:
💡 方案 A 的转化率比方案 B 的更高吗?
为了后续的讨论能更具体一些,我们先看一个实际的测试场景:假设我们需要给某个用户群体拨打 AI 电话,之前一直在使用家琪的声音拨打电话,现在供应商新推出了小红的声音,我们想知道小红的声音是否有更好的表现。于是,在其它条件相同的情况下,我们分别用小红和家琪的声音给若干用户打了电话,这次的实验现象如下表所示:
实验现象 | 小红 | 家琪 |
---|---|---|
接通 | 3469 | 2798 |
意向 | 98 | 43 |
意向率 | 2.83% | 1.54% |
套用刚才的公式,这个 A/B 测试就是: