产品分析师实验设计指南-第3/3部分

By 伊丽莎白Reitmayr

本文是本系列文章的第三篇,旨在为大游BG真人在大游BG真人的工作方式增加清晰度和透明度. 的 第一篇文章 涵盖在开始实验之前所需要的工作,而 第二篇文章 讨论了实验的设置.

At 大游BG真人在美国,大游BG真人做了很多实验,为用户改进产品. 大游BG真人为产品分析师设计的实验设计指南建立了从分析和统计角度建立这些实验的过程,以确保大游BG真人能够按照预期评估实验. 这些指南给出了一些提示, 但不完全涵盖产品管理, 用户研究和设计视角, i.e. 做什么实验. 在本系列的第三部分中,大游BG真人将重点讨论抽样.

大游BG真人感兴趣的是你对这些指导方针的看法. 请将任何意见反馈给伊丽莎白.reitmayr@researchgate.净.

抽样


抽样是实验设计的一个重要环节. 当大游BG真人使用样本来推断大游BG真人感兴趣的总体时, 重要的是要使用适当的抽样机制选择正确的目标群体,以避免偏差. 当大游BG真人在实验中有偏见时, 这意味着大游BG真人不能充分代表大游BG真人所研究的人群(阅读更多关于统计偏差的信息) 在这里). 从实验中得出有效的结论, 同样重要的是样本要足够大,以达到大游BG真人想要检测的效果(请参阅第1部分).

目标群体和抽样机制


目标群体应该能够代表大游BG真人想要进行推断的人群. 这意味着,如果大游BG真人在一个特性上运行一个测试,这个特性只能被满足特定条件的用户使用(例如,如果大游BG真人在某个特性上运行一个测试,这个特性只能被满足特定条件的用户使用).g. 有一个出版, 是大游BG真人的新成员), 实验组和对照组都应该只由满足这一条件的用户组成. 否则,大游BG真人将引入 选择性偏差 (e.g. 因为有出版物的用户往往比没有出版物的用户更活跃).

有时,大游BG真人希望只将实验暴露给特定的用户群体. 假设大游BG真人想让主要研究人员(大游BG真人实验室的领导)更容易将他们的实验室添加到大游BG真人. 在这种情况下, 所有研究之门的主要研究人员都代表大游BG真人的人口, 大游BG真人应该从首席调查员的人群中随机抽取这两个样本.

在极少数情况下,a 分层抽样 如果你有一个非常小的群体或者你的样本已经有了偏差,这可能会有帮助. 例如, 如果您想将一个新特性只暴露给一小群beta测试者, 你需要注意的是,这并不能代表所有用户,因为在beta测试群体中,粘性更强的用户往往更多. (他们更有可能自愿加入beta组.因此,), 你可以从beta组中抽取分层样本,以确保样本中的粘性水平分布与你的人群中的粘性水平分布一致. 点击这里了解更多信息 如何使用贝叶斯方法从选择偏差中恢复).

以下是检查抽样机制是否合适的几个问题:

  • 您的实验是否完全暴露于您想要解决的用户(i.e. 代表你感兴趣的人群)?

  • 在选择受众的方式上是否存在潜在的偏见? (e.g.,只有新用户/投入用户等.)

  • 每个用户只暴露于一种变体吗?


样本大小的计算


一项实验所需的样本量取决于以下几个因素:

  • 最小可探测效果:你期望从你所引入的改变中看到的最小效果. 这对应于量化的期望,如第1部分所解释的那样. 大游BG真人想要检测的影响越小,大游BG真人的样本就需要越大.

  • 统计可靠性(大游BG真人检测到的影响确实存在的可靠性)和统计功率(当有影响时检测到影响的能力): T在这里 is a trade-off relationship between reliability 和 power; generally: 的 higher the statistical reliability/power, 大游BG真人的样本越大. 在专家, 大游BG真人将alpha(可靠性)设置为5%,beta(功率)设置为20%:为了一致性,这些参数在所有实验中都是相同的.

  • 利益变量的方差大游BG真人感兴趣的变量的方差越高,大游BG真人的样本就需要越大.


样本大小总是需要预先计算,i.e. 在进行实验之前. 如果所需的样本量太大, 大游BG真人甚至可能不想进行实验,而是选择另一种研究方法. 大游BG真人使用一个 频率论的 评估测试的方法,并可为此目的使用第三方样本量计算器:


多次测试改变了样本量的要求


万一你的实验分析需要对分解或多重比较进行假设检验, 由于alpha膨胀,这将改变您的样本大小要求. (随着你测试的假设数量的增加,出现至少一个假阳性的概率呈指数增长.)这必须在你的样本大小计算中反映出来(你可以在你的分析中应用p值修正-关于这个在下一篇关于实验评估的博客中有更多的内容). 阅读更多 在这里.

运行时


一般运行时要求



  • 运行时间受样本大小要求的影响. (只有当达到要求的样本量时,实验才可以停止.)

  • 运行时间不应该太短,否则示例将偏向于更活跃的用户. (游戏邦注:因为他们更有可能登录游戏,因此也更有可能加入游戏体验,所以在游戏开始的头几天,这些玩家的比例往往会过高.)

  • 考虑可能影响用户行为的季节性效应:

  • web/mobile中的时间序列数据通常是非平稳的.e. 变量的参数,如转换或保留.g. 平均值,中位数,方差在一段时间内都不是常数)

  • 可能有季节性效应,工作日效应,病毒效应,SEO

  • 一个绝对不大游BG真人的经验法则是,大多数实验应该至少运行一周,以解释上述潜在的影响.


Multi-armed B和it (MAB)的运行时间要求


multi-armed b和it是一种算法,可以根据设定的目标自动选择得分最高的变种. 一旦一个预定义的时间段, 或者超过了预定义的样本大小阈值, 对于大游BG真人的大部分用户来说,MAB将实验默认为更成功的变体 在这里). 这有助于降低实验的“成本”,因为大游BG真人为大部分用户使用性能更好的变体. 设置正确的阈值, 大游BG真人需要定义最小样本容量或最小运行时间:

  • 提前计算获得所需样本大小所需的时间,并相应地设置最小勘探周期.

  • 在这种情况下,最短的观测次数可以很快达到, 将最短探测时间设置为至少1周(见前面段落).


边缘情况:“软”实验


会有一些边缘情况:

  • 大游BG真人有一个“中等风险”的假设,i.e. we ideally would want to test it experimentally; 和

  • 实验并不是分析给定问题的理想方法.g. 因为该特性的流量太小,大游BG真人需要等待几个月才能达到所需的样本大小


尽管交通流量小, 大游BG真人可能仍然想要获得对变更的定量理解,以限制引入变更的风险(确保“大游BG真人不会破坏东西”). 在本例中,大游BG真人建议运行一个“软实验”:大游BG真人让实验为e运行.g. 2周, 大游BG真人知道大游BG真人无法达到要求的样本大小来对其进行频率假设检验, 以便观察新变种的表现. 大游BG真人认为这是一种实用的解决方案,大游BG真人所面临的情况是,有一些关于风险问题的数据来做决定,这比没有任何数据有利.

在这里, 大游BG真人说的是艺术, 而不是实验大游BG真人——判断是必需的. 您应该与您的团队(PM, 设计, 和用户研究)来决定“软实验”是否是解决当前问题的最佳方案. 您还应该确保每个人都意识到只进行“一半”的实验的局限性。.

一旦你决定进行“软实验”,就不要进行 频率论的假说 测试来评估在这种情况下的实验结果. 尽管如此,大游BG真人还是将其设置为A/B测试,以查看与控制变量的对比.

基于中提出的类型 这篇博客,大游BG真人可以在高风险和低风险之间的灰色区域添加“软”实验:

图像的基础上 产品战略路线图的艺术

重叠或并行实验


不要在同一个组件上同时运行多个实验,除非你有一个全因子设计(请参阅第2部分).

观察和独立观察的单位


单位的观察


实验设计的另一个重要考虑是观测单位的定义. 理论上,观测单位可以是e.g. 用户/会话/用户登录日等. 例如, 如果你在比较哪种电子邮件变体更有可能让用户登录RG, 观察的单位是用户. 在这里,重要的是要考虑独立观测的统计要求.

独立观察

为了评价实验,观察结果是独立的是很重要的. 如果一个观测的出现没有提供关于另一个观测的出现的信息,那么两个观测是独立的. 大游BG真人用来评估实验的统计模型是建立在假设样本中的观察结果是独立的基础上的. 如果大游BG真人违反这个假设,大游BG真人从实验中得出的结论可能是有缺陷的.

这意味着在大多数情况下,实验应该基于用户,而不是基于会话(i.e. 要评估的数据集中的一行对应于一个用户,而不是一个用户会话). 如果大游BG真人的样本中每个用户有多个观察值, 用户的第二个观察结果不会独立于第一个观察结果.

这也意味着每个用户只能参加一次实验, 否则大游BG真人会遇到以下问题:

  • 大游BG真人对第一类错误率和第二类错误率施加的控制并没有发挥预期的作用:得到假阳性的概率高于预先定义的水平. 阅读更多 在这里在这里.)

  • 更多活跃用户的比例过高,因为他们可能多次加入实验. 这意味着结果偏向于更活跃的用户.


资源



分享