为什么贝叶斯 A/B 测试不需要设定 p 值？

贝叶斯 A/B 测试侧重于直接计算“A 组优于 B 组的概率”以及“提升度”，而不是根据 p 值来否定零假设。这种方式更符合直觉，直接告诉您两个版本在当前数据下的相对表现。

如果我的数据样本量很小，这个方法还准吗？

此方法利用 Beta 分布作为先验，即使在样本量较小时也能提供稳定的概率分布。如果数据极少，后验分布会更宽，反映出当前的统计不确定性，帮助您意识到证据是否尚不足以做出最终结论。

当您需要比较两个版本的转化率（如网页点击率或购买率）时，贝叶斯 A/B 测试是理想的选择。它不依赖传统的假设检验，而是直接计算 A 组优于 B 组的真实概率。通过输入成功次数与总样本量，您能获得明确的决策建议，直观判断是否应选择其中一个版本。

传统的统计方法往往会给出晦涩的统计量，而贝叶斯 A/B 测试直接输出决策结果。通过设置阈值，系统会明确告知您当前是“A 组胜出”、“B 组胜出”还是“结果尚不明确”。

此外，它还提供了“预期损失”指标。这意味着在您选择某个版本时，如果该判断错误，您所面临的潜在转化率损失是多少，这为业务决策提供了重要的风险评估参考。

Lattice 内部采用 Beta-Bernoulli 共轭算法，这意味着计算过程是确定性的数学解析，无需进行复杂的 MCMC 抽样模拟。这使得分析速度比传统模拟方法快百倍以上，并保证了在相同输入下的字节级可复现性。

提升度衡量的是 A 组相比 B 组的转化率变化幅度。除了计算平均提升度，我们还提供 95% 的最高密度区间 (HDI)。这个区间为您展示了提升度的可能范围，让您不仅知道“好多少”，还能明确这种改进的可靠程度。

该方法允许您根据背景知识自定义先验分布。默认情况下，系统采用无信息先验（Uniform Prior），这意味着在没有任何先验知识的情况下，完全由当前观测到的数据决定结果。如果您有历史数据或行业基准，也可以通过调整先验参数来整合这些信息。

1 · Intent → method

An LLM picks bayesian_ab_test from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

为什么贝叶斯 A/B 测试不需要设定 p 值？
贝叶斯 A/B 测试侧重于直接计算“A 组优于 B 组的概率”以及“提升度”，而不是根据 p 值来否定零假设。这种方式更符合直觉，直接告诉您两个版本在当前数据下的相对表现。
如果我的数据样本量很小，这个方法还准吗？
此方法利用 Beta 分布作为先验，即使在样本量较小时也能提供稳定的概率分布。如果数据极少，后验分布会更宽，反映出当前的统计不确定性，帮助您意识到证据是否尚不足以做出最终结论。

Schema for bayesian_ab_test not exported yet (run pnpm export:registry).