牛津通识·统计学｜概率

牛津通识读本·统计学
Statistics: A Very Short Introduction

作者：David J. Hand ｜ 译者：H. J. Hsü

本书适合完全不了解统计学的小白获取一些初级认知。书中没有数理分析，但这些基础介绍对自学统计学也很有益处。查看详情

通识作品

牛津通识·统计学

本书目录

概率

Being a statistician means never having to say you are certain.
做一个统计学家意味着从来不说一定。_Anon

机遇的本质

第一章中有关统计学的定义之一是，它是处理不确定性的科学。很显然，世界充满着不确定性，这就是统计思想与方法无处不在的原因之一。未来是一片未知的土地，我们不确定会发生什么。有很多意想不到的事会发生：汽车突然抛锚、我们遇到事故、被闪电击中，免得让人以为意外之事都是糟糕的，你也可能会赢的彩票。更具体地说，我们不确定哪匹马会赢得比赛，或者死亡前想到的最后一个数字是什么。最后，我们也无法准确预测我们的寿命。

然而，尽管如此，人类最伟大的发现之一，就是有一些原则涵盖了机遇与不确定性。也许这听起来很矛盾，毕竟不确定之事本质上就是不确定的。那么，为何会有自然法则来支配这些事情呢？

一个答案是，虽然单个事件的走向是不确定且不可预测的，但它们聚集到一起时，就可以评头论足了。典型的例子就是抛硬币，虽然我不能说一枚硬币在单次抛掷中呈现正或反（我们假设硬币是「均质的」，而且抛掷时没采用任何技巧）。另一个例子，将出生的婴儿是男性还是女性。在受孕时，这是一个纯粹的偶然且不可预知的事件。但我们知道，男孩子最多刚过新生儿整体一半的比例。

自然的可观测性是控制不确定性法则的一个例子。它被称作大数定律（the law of large numbers），因为我们考虑的情况越多，比例就越接近特定值（在硬币和孩子性别上五五开）。该定律具有各种含义，并且它是我们驯服、控制和利用不确定性最为强大的统计工具之一。我们会在本章末尾，及全书中不断讨论它。

理解概率

为了使我们能毫无歧义地讨论不确定性及不可预测性的问题，统计学就需要像任何一门学科一样使用一种精确的语言：概率语言。如果这是你第一次解除概率语言，那么你应该心里有数，就像接触任何一门新语言一样，你需要一些努力来适应它。确实，考虑到这一点，你可能会发现本章有多个内容需要反复阅读：甚至你读完本书可能还会回过头来阅读本章。

概率术语在17世纪蓬勃发展。如布莱斯·帕斯卡、皮埃尔·德·费马、克里斯蒂安·惠更斯、雅各布·伯努利，以及后来的皮埃尔·西蒙·拉普拉斯、亚伯拉罕·德·莫夫雷、西蒙—丹尼斯·泊松、安托万·古诺、约翰·文恩等数学家奠定了它的基础。到20世纪初，关于概率科学的所有思想都已经到位，1933年俄罗斯数学家安德雷·柯尔莫哥洛夫（Andrei Kolmogorov）提出了一组公理，这些公理提供了完整的形式概率数学演算。从那时起，这个公理系统几乎被普遍采用。

柯尔莫哥洛夫的公理提供了操控概率的机制，但它们是一种数学构造。要用这种构造来解释现实世界，则需要说出数学机制中的符号在现实世界中代表着什么。也就是说，我们需要说出数学的「意义」。

概率计算将0～1之间的数字分配给不确定的事件，来表示它们将发生的概率。概率为1意味着事件是确定的（例如，如果有人在我写这本书时通过我家的窗户看到我坐在办公桌前的概率）。概率为0表示某项赛事是不可能的（例如，十分钟跑完一场马拉松的概率）。对于可能发生但既不确定也不不确定之事，我们用0和1之间的数字来表示其发生的「概率」。

看待这个数字的一种方式是，它表达了个体对事件将会发生的信念程度。现在，不同的人会将持有对同一事件是否会发生的、不同程度的信息，因此不同的人可能会有不同程度的信念，即对同一事件的概率估值不同。因此，这种概率被称为主观概率或个人概率：它取决于谁在评估概率。很显然，随着获取信息的变化，人们的概率估值也会变化。你可能一开始持有某种信念，例如硬币正反概率为1/2（基于过往投掷硬币的经验），但观察发现连续一百局都是只有正面没有反面时，你可能会质疑一开始的信念，并改变你的主观概率，认为这枚硬币一定会是正面。

目前已经开发出了基于下注策略估计个人主观概率的工具，但与任何测量程序一样，在如何准确估计概率方面存在着限制。

另一个关于事件之概率的观点是，它是在相同情况下重复无限次，某一事件发生占比。

上文中公平抛掷硬币就是一个例子。我们已经看到，随着硬币的投掷，正面向上的比例越来越接近某一特定值。这个值就是硬币在任何一次抛掷中都会出现的概率。由于频率或计数这一方法在概率定义中的作用，其被称为概率的频率解释。

就如同主观方法一样，它也存在一些现实中的限制，让我们无法确定准确的频率。两次抛掷硬币的情况不会完全相同。一些分子会在第一次抛掷时从硬币上磨损，气流会有变化，硬币在第一次抛掷后会稍微变暖。在任何情况下，我们都会终止自己的抛掷实验，所以我们并不能扔无限次。

这两种对概率的解释有着不同的性质。主观概率可以将概率分给每个单独的事件，有些事在相同条件下重复无限次或大量重复并没有意义。例如，很难确定对无限次同样的暗杀美国下一任总统的假设应持何种态度，人们往往众说纷纭。因此，将频率解释应用于此类事件看起来是相当困难的。另一方面，主观方法将概率从外部世界的客观属性（如质量或长度）转化为观察者与世界之间相互作用的属性。主观概率就像情人眼中的美一样。（Subjective probability is, like beauty, in the eye of the beholder.）有些人会认为这是一个弱点：这意味着不同的人可以从相同数据的相同分析中得出不同的结论。其他人则会认为这是一种优势：结论会被你的既有的成见所影响。

还有其他关于概率的解释。例如，「古典」方法假设所有事件均由同样可能性的基本事件的集合组成。例如，一个骰子的投掷可能会产生1、2、3、4、5或6，且骰子的对称性设计则表明这六个结果的可能性相同，因此每个结果都有1/6的概率（它们的和必须为1，因为结果肯定是1、2、3、4、5或6中的一个）。然后，举个例子，获得偶数的概率就是获得2、4或6的各个同样可能的事件概率之和，因此为1/2。然而，在现实中，很难确定这些「等可能」之事是什么。例如，如果我想知道我早上上班时间小于一个小时的可能性，那么就完全不清楚等可能发生的基本事件应该是什么。在这种情况下，没有类似于骰子那种显著的对称性。此外，还存在一个问题，即在要求基本事件「等可能」的定义中存在循环内容的问题。我们似乎在用概率来定义概率。

这里值得强调的是，这些对概率的不同解释都统一于概率公理下，适用相同的数学法则。只是不同的真实世界的映射，即数学对象含义的不同意义。我有时会说，微积分是一样的，但理论千差万别。（The calculus is the same, but the theory is different.）在统计应用中，正如我们在第五章中将要看到的那样，不同的解释有时会导致不同的结论。

概率的法则

我们业已提及了一个概率法则，即大数定律。这是一条将数学概率与现实世界中的经验观察所连接起来的定律。其他概率则隐含在概率公理中。另一些非常重要的法则则有单独的概念。

如果一个事件的发生不影响另一个事件发生的可能性，则称两个事件相互独立。用左手扔硬币的结果是正还是反，不影响用右手扔硬币的结果。这两次抛掷之间相互独立。如果我左手硬币正面朝上的概率是1/2，而我右手硬币正面朝上的概率是1/2，那么两者都是正面朝上的概率是1/2 × 1/2 = 1/4。显而易见，在我们预期的无限次双掷实验中，我们会得到一半的左手硬币显示正面，一半的右手硬币显示正面，因为第一次抛掷的结果不会影响第二次抛掷。总体而言，约有1/4的概率两次投掷都显示正面。类似的，约有1/4的概率显示左反、右正；约有1/4的概率显示左正、右反；并且约有1/4的概率都显示反面。

与之相反，在大街上滑倒的可能性与是否下雪之间显然不是无关的。这些事件之间相互联系。我们在第一章中看到了另一个依赖性的例子：同一家庭中有两名婴儿猝死的悲剧，即萨利·克拉克案例。当事件之间不独立时，我们不能简单地通过将它们各自发生的概率相乘来计算二者同时发生的概率。准确地说，这是萨利·克拉克案的核心。要看到这点，让我们来分析相互依赖事件间的最极端情形：一个事件的结果完全受制于另一个事件的结果。例如，掷一次硬币会有两个事件「硬币正面朝上」和「硬币反面朝下」。每个事件都有1/2的概率：硬币显示正面的概率为1/2，显示反面的概率也是1/2。但这二者之间显然不是独立的。事实上，它们完全依赖于彼此。毕竟，如果第一个事件为真（正面朝上），则第二个事件也必须为真（反面朝下）。因为它们之间互相依赖，所以它们同时发生的概率只是第一件事的概率，即1/2。如果我们将两个一半的概率相乘，则不是正确的结果。

通常，两个事件之间的依赖性意味着一个事件发生的概率取决于另一个事件是否会发生。

统计学家将两个事件都发生的概率称为二者的联合概率（joint probability）。例如，我们可以说下雪时我滑倒的联合概率。两个事件的联合概率与其中一个事件在另一个事件已发生之情况下发生的概率密切相关。这被称作条件概率（conditional probability）：在我们已知一个事件发生时，另一个事件发生的概率。因此，既然已经下雪了，那么可以进一步讨论我滑倒的条件概率。

事件A和B都发生的（联合）概率只是A发生的概率乘以给定A发生的B发生的（条件）概率。下雪且我滑倒的（联合）概率是下雪的概率乘以我滑倒的（条件）概率。

为了阐明这点，我们假设扔一次骰子和两个事件。事件A显示的是数字可以被2整除，事件B显示的是数字可以被3整除。事件A和B的联合概率是我得到一个既可以被2整除又可以被3整除之数字的概率。该概率为1/6，因为数字1、2、3、4、5和6中只有一个可以被2和3整除。现在，在所有能被2整除的数字中（即2、4或6），只有一个能被3整除，因此事件A发生的条件下事件B发生的概率是1/3。最后，事件A发生的概率是1/2（1、2、3、4、5和6中有一半能被2整除）。因此，我们发现事件A（1/2）乘以事件A发生的条件下事件B发生的概率（1/3）等于1/6。这与同时获得能被2和3整除的数字的联合概率相同；即事件A和事件B同时发生的联合概率。

实际上，我们在第一章中遇到了条件概率的形式，即检察官谬误。这提醒我们，给定事件B发生后事件A发生的概率与给定事件A发生后事件B发生的概率不同。例如，公司高管会驾驶汽车的概率与会驾驶汽车的人是公司高管的概率不同。这使得我们得出另一个非常重要的概率法则：贝叶斯定理（Bayes’s theorem，或贝叶斯规则）。贝叶斯定理允许我们将这两个条件概率联系起来，即A给定B的条件概率和B给定A的条件概率。

我们刚才看到，事件A和事件B同时发生的概率等于A发生的概率乘以在A发生的情况下B发生的条件概率。但是这也可以反过来写：事件A和事件B同时发生的概率也等于B发生的概率乘以在B发生的情况下A发生的条件概率。贝叶斯定理表达的就是这个意思（虽然通常用不同的方式表达），即这只是写下事件A和事件B的联合概率的两种不同方式。也就是说，A发生的概率乘以在A发生的情况下B发生的概率等于B发生的概率乘以在B发生的情况下A发生的概率。两者都等于事件A和事件B同时发生的联合概率。在我们“开车的公司高管”的例子中，贝叶斯定理等价于说，「你会开车且你是公司高管的概率」乘以「你会开车的概率」等于「你是公司高管且你会开车的概率」乘以「你会成为公司高管的概率」。两者都等于你成为公司高管且会开车的联合概率。

另一个概率定律表明，如果两个事件中的任意一个可以发生，但不能同时发生，那么其中一个或另一个事件发生的概率是每个事件单独发生的概率之和。抛硬币的结果显然不能同时是正反，那么出现正面或反面的概率是出现正面的概率和出现反面的概率之和。如果没有出老千，那么二者单独的概率都是1/2，二者之和为1。这是有道理的：1对应着确定性，而投掷结果是反面或正面这一点是确定的（我假设硬币不会竖起来！）。回到我们扔骰子的例子：得到偶数的概率是得到2、4或6这些结果的概率之和，因为它们不能同时出现（在掷一次骰子中也没有其他获得偶数的方法）。

随机变量及其分布

在第2章中，我们看到了如何使用简单的描述统计方法从某一变量的数值汇总中提取信息，即将这些值压缩成一个分布，以便容易理解。现在，任何现实中的数据集都是有限的——它只能包含有限数量的数值。这个有限集可能是我们正在考虑的某种类型所有对象的值（例如，某年所有联盟足球运动员的分数），或者它可能只是某些对象的值，即一个样本。在谈及抽样调查时，我们看到过这方面的例子。

样本是完整的「总体」值的子集。在某些情况下，完整的「总体」是不可获取的，可能过于庞大或无限的，所以我们别无选择，只能用样本工作。例如，在测量光速的实验中，每次我进行测量时，都希望测量值之间存有差异，因为测量过程本质上是不确定的。而且，原则上，我可以不断地进行测量；也即测量的潜在总体是无限的。但这是不可能的，所以我必须满足于有限的测量样本。每个测量值都可能源自我可能获得的值之总体。在其他情况下，完整的总体是有限的。例如，在对某个城镇男性肥胖症进行研究时，总体是有限的，虽然原则上我可以称量城镇中的每个男性，但在实践中我可能不想这样做，而是采用样本抽取的方式。再次强调，样本中的每个值都是从可能值的总体中抽取的。

在这两个例子中，我在具体测量之前所知道的是，它将从可能值之集合中获取一些值。每个值都会以一定的概率出现，但我所知的也就这么多，也不太可能知道具体概率是多少。我肯定无法准确预测下一次测量的光速值或下一个被我测量的人的体重是多少。同样，在掷骰子时，我知道结果可能是1、2、3、4、5或6，我知道这些结果是等可能出现的（我的骰子是一个完美的立方体），但除此之外，我无法预测哪个数字会出现。与速度和体重测量一样，结果是随机的。因此，这种变量被称为随机变量（random variables）。

我们已经接触到了分位数的概念。例如，在百分位数的情况下，分布的第20个百分位数是这样一个值，即20%的数据值小于它，第8个百分位数是这样一个值，即8%的数据值小于它，以此类推。一般地，第k个百分位数比样本中k%的值小。我们可以想象类似的百分位数不仅适用于我们观察到的样本，还适用于我们可能观察之值的总体。如果我们知道完整值总体的第20个百分位数，那么我们就知道从总体中随机抽取一个值小于该百分位数的概率为20%。一般地，如果我们知道总体值的所有百分位数，我们就可能知道在最低的10%、25%、16%、98%或其他任何我们想选的百分比中抽取特定值的概率。因此，从某种意义上说，我们将了解我们可抽取的可能值的分布。我们不知道下一个抽取的值是什么，但我们会知道它有多大概率是总体中最小的1%、最小的2%，以此类推。

分布的所有分位数集有一个名称，叫做累积概率分布（the cumulative probability distribution）。这是一种「概率分布」，它会告诉我们选择一个低于我们所选择之值的概率。它是「累积的」，因为显然，抽取某个小于x值的概率随着x的增大而增大。在男性体重的例子中，如果我知道选择一个体重小于70千克男性的概率是1/2，那么我就知道选择一个体重小于80千克男性的概率大于1/2，因为我还可以选择体重小于70千克的男性和体重在70千克到80千克之间的男性。在极限情况下，抽取值小于或等于总体中最大值的概率为1；这是一个确定事件。

该想法如图2所示。在该图中，随机变量的值（如体重）为水平轴，小于该值的概率为纵轴。曲线的意义是：对于任何给定之随机变量的值，随机选择的值会小于该给定值的概率。

{width=“5.114583333333333in” height=“3.375in”}

图2：累积概率分布

随机变量的累积概率告诉我们随机选择的值将小于某一特定值的概率。另一种看待事物的方式是看随机选择的值位于任何两个特定值之间的概率。这种概率可以简易地表示为概率密度曲线下两个值之间的面积。例如，图3显示了这样一条概率密度曲线，在a点和b点之间曲线下的（阴影）区域意味着随机选择之值落在a和b之间的概率。例如，在上文中男性体重的分布中使用这样的曲线，我们可以找到随机选择的男性体重值落在70千克和80千克之间的概率，或者任何一对值，或高于低于我们想要的任何值。通常，随机选择的值更有可能出现在概率最密集的区域；即概率密度曲线最高的区域。

{width=“5.072916666666667in” height=“3.53125in”}

图3：概率密度函数

请注意，图3中曲线下的总面积必须为1，对应确定事件之概率：随机选择的值必须是某些值。

随机变量的分布曲线有各种形状（Distribution curves for random variables have various shapes.）。随机选择的女性体重落在70千克和80千克之间的概率通常不同于随机选择的男性体重落在这两个值之间的概率。我们可能会猜测女性体重分布曲线在较轻的值处分布更多，而男性的则不同。

某些分布图形非常重要。这有各种各样的原因。一方面，自然现象会产生特定的形状或与它们非常接近的形状；另一方面，分布是概率法则的结果。

也许所有分布中最简单的是伯努利分布（the Bernoulli distribution）。它只有两个值，概率p和1-p。由于它只能取两个值，因此可以确定一个或另一个值会出现，而这两个结果的概率之和必为1。在许多情况下这种分布是非常有用的：毕竟只有两个结果的情况非常常见——抛硬币的结果是正还是反，出生结果是男还是女。在这两个例子中，p值为1/2或接近1/2。但是，许多其他情况下只有两种可能的结果：是/否、好/坏、违约与否、中断与否、停止/继续等。

二项分布（the binomial distribution）是伯努利分布的拓展。如果我们掷一枚硬币三次，那么可能会获得一个、两个或三个正面。如果我们在打电话时有三个接线员，独立地回应来电，那么在任一时刻都可能有零个、一个、两个或三个接线员在忙碌。二项分布告诉我们获取0、1、2或3这些数字中任意一个的概率。当然，它更普遍地适用，而不仅是三个事件。我们也可以抛掷100次硬币，那么二项分布也会告诉我们同时获得0、1、2、...、100枚正面的概率。

电子邮件会随机送达至我的邮箱。平均而言，在一个工作日的早晨，大约每小时会有五封电子邮件到达，但每小时到达的邮件数量可能会大幅偏离这个值：有时会有十封，有时一封都没有。泊松分布（the Poisson distribution）可用于描述每小时到达的电子邮件数量的概率分布。它可以告诉我们（如果电子邮件独立到达并且它们到达的总速率是恒定的）没有电子邮件到达、有一封到达、有两封到达等的概率。这与二项分布不同，因为至少原则上，在任何一小时内到达的数量没有上限。对于100次硬币投掷，我们不可能观察到100次以上的正面，但我可能（在非常糟糕的情况下！）在一个小时内收到100多封电子邮件。

迄今为止，我描述的所有概率分布都是离散随机变量的分布。也就是说，随机变量只能取某些值（在伯努利分布的情况下是两个值，在二项式分布的情况下是投掷硬币/操作员的数量，泊松分布的情况下是0、1、2、3...等整数）。也存在连续型的随机变量，可以在某个范围内取任何值。例如，身高（在测量仪器的精度范围内）可以取某个范围内的任何值，并不限于4英尺、5英尺或6英尺等特定值。

如果一个随机变量只能在某个有限区间内取值（如0、1之间），并且它取该区间内任何值的概率相同，那么它就是服从均匀分布（uniform distribution）的。举例而言，如果邮递员总是在上午10点至11点之间到达，但以完全不可预测的方式到达（例如他在10: 05到10: 10之间到达的概率与在任何其他五分钟时间段内到达的概率相同），则他到达时间在此区间内的分布就是均匀分布。

一些随机变量可以取任一正数，例如，某些现象的持续时间。以花瓶的寿命为例。花瓶不会老化，因此，如果一只特别喜欢的花瓶已经被保存80年了，它在下一年被打破的概率与它只被保存10年的概率相同（其他所有条件相等的情况下）。可以对比思考一下80岁的人和10岁的人在下一年死亡的概率。对于花瓶来说，如果它在时间t之前没有被打破，那么在下一时刻被打破的概率是相同的，无论t的值是多少（同样，其他所有条件相等）。花瓶的寿命就是服从指数分布（the exponential distribution）的。但实际上，指数分布有着广泛的应用，而不仅局限于花瓶的寿命！

也许最著名的连续分布是正态分布或高斯分布（the normal or Gaussian distribution）。它通常被称为钟型曲线，如图4所示：

{width=“5.104166666666667in” height=“4.25in”}

图4：正态分布曲线

这意味着中间的值比两端的值更有可能出现。正态分布为许多自然事件发生概率的分布提供了良好的近似形式。例如，随机抽取一些成年男性的身高分布大致就是符合正态分布的。

当涉及大样本时，正态分布也经常作为样本统计量（如第二章中描述的描述性统计）分布形式的良好模型。例如，假如我们反复从某个分布中随机抽取一些样本，并且计算各个样本的平均值。由于每个样本都不同，我们对每个均值的期望也不同。也就是说，我们会得到一个均值的分布。如果样本足够大，那么这个均值分布大体上也符合正态分布。

在第二章中，我强调统计学不仅是一系列互相独立的工具，而是一种互相联系的语言（Statistics was not simply a collection of isolated tools, but was a connected language.）。类似的观点也适用于概率分布。虽然我在上文中逐项介绍了这些分布，但事实是，伯努利分布可以看作是二项分布的特例（当只有两种可能的结果时它就是二项分布）。同样地，虽然本书不打算在这一点上做数学推导，但泊松分布是二项分布的一种极端情况，泊松分布和指数分布则形成了一对自然配对，随着事件数的增加，二项分布越来越类似于正态分布等。它们实际上都是整合在一起的数学分支。

我以上描述的分布是通过说它们具有不同的形状来介绍的。实际上，可以很简单地介绍一下这些形状。我们看到，伯努利分布是由p值所特征化的。这告诉我们得到特定结果的概率。不同的p值对应不同的伯努利分布。我们可以将硬币投掷结果建模程成一个概率p=1/2的伯努利分布，并将单次旅行中出现车祸的概率建模为一个概率p值很小的伯努利分布（我希望如此！）。在这种情况下，p被称为参数。

其他分布也是由参数来特征化的，起到告诉我们我们正在谈论哪个分布族中的成员的作用。为了理解这点，让我们后撤一步，回顾一下大数定律。它说，如果我们反复独立观察一个事件，该事件具有发生结果A的概率p和发生结果B的概率1-p，那么我们应该期望A结果出现的比例随着我们的观察次数而越来越接近p。这个属性有很重要的推广。尤其假设我们观察到的结果事件不只有两种可能，而是可以从一个值域中分布中取任一值；例如，可能是区间 [0, 1]中的任何值。假设我们不断地从这样的分布中取n组测量值，那么大数定律也会告诉我们，随着n的增大，我们应该期望n个测量值的平均值会逐步接近某个固定值。事实上，我们可以想象n无限制地增加，在这种情况下讨论从分布中抽取的无限制样本的平均值甚至分布本身的平均值都是有意义的。例如，使用这个想法，我们不仅可以讨论「从指数分布中抽取的样本」的平均值，还可以谈论指数分布本身的平均值。正如不同的伯努利分布有不同的参数p一样，不同的指数分布有不同的均值。因此，均值是指数分布的一个参数。

在之前的例子中，我们看到指数分布是玻璃花瓶「寿命」的一个合理模型（在某些情况下）。现在我们可以想象有两个这样的花瓶种群：一个是由非常厚的玻璃制成的坚固花瓶组成，另一个是由薄如纸皮的玻璃制成的精致花瓶组成。显然，平均而言，前一种群的玻璃比后一种群的玻璃能存活的更久。因而这两类花瓶有不同的参数。

我们可以用类似的方式来定义其他分布的参数：我们想象一下从分布中抽取无限量的样本，并总结计算统计量。例如，我们可以从正态分布的成员中抽取无限量的样本，并计算平均值。然而，这里情况稍微复杂一点，因为这个分布族的成员不是由单一参数决定的。它们需要两个参数。事实上，正态分布的平均值和标准差就足以帮助我们确定要讨论哪个分布族的成员。

大数定律已经被进一步完善。想象从某个分布中抽取许多大小为n的值集，并为每个集合计算其平均值。然后，计算出的平均值本身是一个样本，来自这个分布：样本大小为n的平均值的可能值的分布。中心极限定理（the Central Limit Theorem）告诉我们，这些平均值的分布本身近似正态分布，并且随着n值的增大，近似程度越来越好。事实上，更重要的是，它还告诉我们，这个平均数分布的均值与总体的均值相同，而平均数分布的方差只是总体分布方差的1/n倍。这在统计学中非常有用，因为它意味着我们可以通过采取足够大的样本（采样n足够大），来精确地估计总体均值，中心极限定理也告诉我们需要采取多大的样本才能获得高概率的准确性（译者注：即对均值的估计非常接近于真实均值的概率很高）。一般来说，我们可以通过采取更大的样本，来获得更好的估计结果，这是一个非常强大的原则。在第三章中我们看到了这个想法在实践中的另一应用，即抽样调查。

这里还有另一个例子。在天文学中，远处的物体很微弱，观测往往受到信号随机波动的影响。然而，如果我们对同一个物体进行多次拍摄并叠加，这就好像我们对同一件事情进行了多次测量，每个测量都来自同一分布但引入了额外的随机变量。上述概率法则就意味着随机下被平均掉了，留下了基础信号——天文物体的清晰视图。