AB测试基础概念
1.试验层/试验/试验分组
在解释试验层和试验之间的关系前,我们先解释下互斥和正交的作用。
流量互斥
在单个试验层内,可以有多个试验同时进行,而其中1-N个试验之间是互斥的。互斥的设计是为了能够让多个试验并行且互不干扰,互斥试验之间的流量是互斥的,即单个试验层内所有的试验不会共享用户:如果一个用户命中了试验层1中的试验A,就不会命中该试验层中的其他试验。
试验设计的基本原则:
- 内容相同或相关、可能会彼此影响的试验,建议将试验加入到同一个试验层中(多个试验流量互斥)
举例:如果试验计划改变APP的按钮颜色、按钮形状、按钮布局,建议将多个试验添加至一个试验层内。
流量正交
在很多情况下,很多试验之间并无关联,比如APP按钮的颜色和APP推荐算法推送的产品服务等,两者之间无明显关系,如果放在一个试验层内,无法对一个用户同时进行这两类试验的效果验证。
- 为了能够不浪费流量同时进行流量的复用,我们采用一种特定的流量分配策略:流量正交,目的是确保每个试验组(A组和B组)之间的流量是相互独立且不重叠的,从而确保测试结果的准确性和有效性。
在流量正交的情况下,试验层1和试验层2、试验层3之间的影响被均匀打散,每个试验层都拥有100%的流量,即当一个用户命中试验层1的试验A时,也可能同时命中试验层2的试验C,也可能同时命中试验层3的试验E。
这样多个试验之间完全独立,如果试验C的指标上涨,和试验A、试验E没有任何关系,能够确保测试结果的纯粹性。
这样我们就可以基本理解AB试验的设计,从试验层的拆分——到试验层的试验的创建——到单个试验的试验组的拆分,我们最终落地试验策略在不同的试验分组。
2.试验分流
A/B试验中的分流(Traffic Splitting)是指将用户流量(如网站访问者、应用用户等)根据一定的规则或比例,随机或有目的地分配到多个试验组中。每个试验组展示不同的版本、特性或方案,从而用以对比它们的表现,评估哪一组表现更好。分流的目的是确保试验结果具有代表性和可统计的意义。 |
在海纳云的AB测试中,通过创建试验时的流量比例分配,将用户随机分配到不同的试验组,确保每个用户具体代表性。
分流的过程
- 流量生成:首先,用户访问网站或应用,系统需要决定该用户应该参与哪个试验组。
- 分配规则应用:根据预设的流量分配规则(比如50/50、70/30等),系统会将用户流量引导到相应的试验组。这个过程可能通过服务器端、CDN、应用内机制等实现。
- 展示试验内容:根据用户分配到的试验组,展示对应的版本内容。A组用户看到的是当前版本,B组用户看到的是试验版本。
- 数据收集与分析:在试验过程中,系统会收集每个试验组的用户行为数据,比如点击率、转化率等,最终用于对比和分析哪种版本表现更好。
如何确保分流的有效性?
随机化:确保用户被随机分配到各个试验组,避免人为干扰。
样本量:需要确保每个试验组的样本量足够大,才能进行有效的统计分析,确保试验结果的可靠性。
监控和防止偏差:需要实时监控试验过程,确保流量分配的均匀性,并避免任何技术或人为错误导致的偏差。
3.统计指标解读(置信区间/P-value/统计功效)
3.1 置信度和置信区间详解
置信度(也称置信水平/置信系数/统计显著性)
置信度表示试验结果的可信程度,通常是指试验组和对照组的差异不是随机产生的概率。比如,在A/B测试中,如果置信度为95%,就表示试验结果正确的概率为95%。如果置信度高,试验结果就被认为具有较高的可靠性。通常,95%的置信度意味着差异不会仅仅由随机抽样造成。
假设:你通过改变网站的按钮颜色,提高了购买率3%。但由于样本流量与总体流量可能有差异,这3%的提升可能只是偶然的。置信度帮助我们判断这个结果是不是真的有效。如果置信度达到95%,说明大概率提升并非偶然。
置信区间
置信区间是统计学中用来衡量结果波动范围的工具,主要通过某个指标或留存的试验版本均值变化值以及置信区间来判断,在当前指标或用户留存上,试验版本是否比对照版本表现得更好。通过置信区间判断试验组是否显著优于对照组:
- 如果置信区间都为正或都为负,说明试验结果显著。
- 如果置信区间一正一负,说明试验结果不显著。
假设:在95%的置信度下,假设试验版本的购买率提升在区间内是[2%, 4%],并且都为正数,这说明试验组显著优于对照组;而如果置信区间是[-1%, 3%],则可能结果并不显著,因为包括负数的情况。
3.2 P-value
P-value(P值)是统计学中的一个重要概念,用来衡量试验结果与原假设一致的概率。简而言之,P值告诉我们在原假设成立的情况下,观察到当前或更极端结果的概率。
在A/B试验中,我们通常有两个假设:
- 原假设(H0):新策略没有效果,试验组和对照组没有显著差异。
- 备择假设(H1):新策略有明显效果,试验组和对照组有显著差异。
P值表示在原假设成立的情况下,得到当前试验结果(或更极端结果)的概率。P值越小,说明我们观察到的差异越不可能是由于偶然性造成的,从而支持拒绝原假设,接受备择假设。
常见的判断标准:
P值 <1-置信度水平:通常认为试验结果“显著”,可以拒绝原假设,支持备择假设。
P值 ≥1-置信度水平:通常认为试验结果“不显著”,无法拒绝原假设。
举个例子:
假设你正在做一个A/B测试,测试改变按钮颜色是否能提升用户点击率。你设置了两个假设:
- 原假设(H0):改变按钮颜色没有效果,试验组和对照组点击率无差异。
- 备择假设(H1):改变按钮颜色有效,试验组的点击率高于对照组。
在试验结束后,在置信度水平为95%的前提下,你计算得到P值为0.03。这意味着,如果原假设为真(即按钮颜色改变并没有效果),观察到当前的点击率差异或更极端的差异的概率为3%。
根据常规的统计标准,P值小于0.05,所以你可以拒绝原假设,认为试验组的按钮颜色改变确实有显著效果,点击率提升是可靠的。
如果P值是0.08,那就大于0.05,你可能不能拒绝原假设,意味着你没有足够证据支持按钮颜色改变真的有效。
3.3 统计功效
统计功效(Statistical Power)是指在给定的显著性水平(α)下,正确拒绝原假设的概率,换句话说,就是试验能够发现真实效应(如果存在的话)的能力。
统计功效的值通常表示为1 - β,其中β是第二类错误(Type II error)的概率,第二类错误是指错误地接受原假设,即没有发现实际上存在的效应。
统计功效的三个主要因素:
- 样本量(Sample Size):样本量越大,统计功效越高。
- 效应大小(Effect Size):效应大小越大,统计功效越高。例如,治疗组和对照组之间的差异越显著,功效越高。
- 显著性水平(Significance Level, α):通常设定为0.05,表示5%的错误拒绝原假设的概率。显著性水平越高,统计功效越大。
举例来说:
假设你在进行一个A/B测试,测试一种新的广告策略是否能够提高点击率。
- 原假设(H0):新广告策略没有提高点击率。
- 备择假设(H1):新广告策略提高了点击率。
在进行试验前,你可以计算统计功效,预测试验是否有足够的能力来检测到广告策略可能带来的变化。
场景1:高统计功效
- 样本量:1000
- 效应大小:广告策略的点击率提升了20%
- 显著性水平:0.05
假设经过计算,你得到的统计功效是 0.90。这意味着,在原假设为假的情况下(即新广告策略确实提高了点击率),你有90%的概率能够拒绝原假设,得出广告策略有效的结论。
场景2:低统计功效
- 样本量:50
- 效应大小:广告策略的点击率提升了2%
- 显著性水平:0.05
在这种情况下,由于样本量小,效应大小也比较小,可能导致统计功效较低。假设你计算出功效为 0.40,这意味着即使新广告策略确实有效,你只有40%的概率能够拒绝原假设,得出广告策略有效的结论,60%的概率会错误地接受原假设,认为广告策略没有效果。
结论:
- 高统计功效(如0.90)表明试验有很大的机会发现实际存在的效果。
- 低统计功效(如0.40)则意味着试验可能无法可靠地检测到真实效应,可能导致错过重要的发现(第二类错误)。