p值怎么算出来的（理解t检验的一个简单技巧和手动计算P值）

414次浏览发布时间：2022-10-12 14:18:19

t 检验是比较两组均值的统计检验。这是检查两组是否来自同一群体的最常用技术之一。行业中 t 检验最普遍的应用之一是 A/B 测试，例如比较两个版本的 UI，以确定哪个版本产生更多的点击次数或在页面上花费的时间。

但是理解 t 检验方程的有点棘手，尤其是考虑到 t 检验有许多不同目标的变体。

在本文中的第一部分，我将使用简单的信号-噪声方式来解释t检验方程。

如果您查看 t 检验的上述变体，您会注意到的是每个公式都是一个分数，而分子都是两种平均值之间的某种差异。例如，单样本 t 检验计算总体均值 (mu) 与样本均值 (x) 之间的差值。独立的双样本 t 检验计算两个样本的两个均值之间的差异 - X1 和 X2。我们可以将这种差异称为信号。

t 检验方程的分母代表噪声水平。为简化起见，我们可以将其视为样本（或样本与总体）之间的方差水平。较高的值将对应更多的方差，因此会产生更多的噪音。每个分母都包含样本的标准差 (s) 和 n 的某种组合。它们一起形成了标准误差，它代表了分子（信号）的预期分布情况。

总结上面两点，信噪比代表信号强度（均值差），当噪声增大，信号减小，比值减小。如果你曾经尝试在摇滚音乐会上与某人交谈，你就会明白我的意思。但是在完全安静的情况下，即使是几乎听不见的耳语也会非常清晰。

有了这个类比，很容易看出在哪些条件下我们可以期望t检验的显著结果。一般来说，信号越高，噪声越低——p值越低(t统计量的绝对值越高)。为了说明这一点，下面我生成了两对正态分布样本，它们具有固定的均值(12和14)，但样本容量和标准差不同。

我将信号保持在-2不变，然后对第2对的噪声设置得更高，因为它取决于样本大小和标准差:较小的样本大小和较高的传播产生更高的噪声，从而削弱了信号。因此，第一对的t统计量是显著的，但第二对不显著。

下面是这种关系的一个极端例子:

样本量大，标准差小，噪声几乎为零。因此，平均值之间的任何微小差异都可以被检测到。从图形上看，这两个样本似乎没有太多重叠。由此得到的t统计量具有高度的统计显著性，这意味着两个样本来自同一总体的概率可以忽略不计。

在已经知道t值的情况下，我们可以使用统计软件或在线计算器来找到相应的p值。如果p值小于某个alpha水平(通常的选择是.01、.05和.10)，那么我们可以拒绝原假设，并得出结论。也可以使用t分布表手工估计检验的p值。在这篇文章的第二部分，我们将解释如何做到这一点。

BOB想知道某一种植物的平均高度是否等于15英寸。为了验证这一点，他随机收集了20株植物的样本，发现样本均值是14英寸，样本标准差是3英寸。使用0.05 alpha水平进行t检验，以确定人口的真实平均身高是否为15英寸。

第 1 步：建立假设。

H0：μ = 15

H1：μ≠15

第 2 步：计算检验统计量。

t = (x-μ) / (s/√n) = (14–15) / (3/√20) = -1.49

步骤 3：找到检验统计量的 p 值。

要手动找到 p 值，我们需要使用具有 n-1 个自由度的 t 分布表。在我们的示例中，我们的样本大小为 n = 20，因此 n-1 = 19。

在下面的 t 分布表中，我们需要查看左侧对应于“19”的行，并尝试寻找我们的检验统计量 1.49 的绝对值。

请注意，表中没有显示 1.49，但它确实位于 1.328 和 1.729 这两个值之间。

接下来，我们可以查看表格顶部与这两个数字对应的两个 alpha 级别。我们看到它们是 0.1 和 0.5。

这意味着单边检验的 p 值介于 0.1 和 0.05 之间。我们称之为 0.075。由于我们的 t 检验是双边的，我们需要将此值乘以 2。因此，我们估计的 p 值为 0.075 * 2 = 0.15。

最后：得出结论

由于这个 p 值不小于我们选择的 alpha 水平 0.05，我们不能拒绝原假设。因此，我们没有足够的证据表明这种植物的真实平均高度不同于 15 英寸。

我们可以将我们的测试统计量 t 和我们的自由度插入在线 p 值计算器中，以查看我们估计的 p 值与真实 p 值的接近程度：

真实的 p 值为 0.15264，非常接近我们估计的 p 值 0.15。

在大多数情况下，可以使用 R 和 Excel 等统计软件或在线计算器来查找测试的确切 p 值，但是我们了解如何手动计算能够让我们对t检验有更好的理解。