牛津通识读本·统计学
Statistics: A Very Short Introduction
作者:David J. Hand | 译者:H. J. Hsü
本书适合完全不了解统计学的小白获取一些初级认知。书中没有数理分析,但这些基础介绍对自学统计学也很有益处。 查看详情
通识作品
牛津通识·统计学



估计和推断
Statistics is applied philosophy of science.
统计学是科学哲学的应用。_A. P. Dawid

在第一章中,我们论及了统计学在汇总数据和从数据中做出推断的两个作用。我们在第二章中也讨论了一些简单的数据汇总工具。在本章中,我们会使用第四章中所介绍的「概率」概念,来研究估计与推断。也就是说,我们研究如何确定那些实际上无法观测到的量值,并描述它们。这里有一些例子。

例1:为了确定光速,我们需要使用一些测量方法。现在,没有一个测量方法是完美的,如果我们重复测量,可能会得到略有不同的值。重复测量100次可能会给我们100个略有不用的值。因此,我们的目标是用这些样本值来估计排除测量误差后的真实光速。

例2:在一个简单的随机临床试验中,我们可以给患者样本A一味新药,给患者样本B一味传统药物。根据观察这两个患者组的影响结果,我们期望能对新药的相对效力做出一些描述或推断。换句话说,我们希望能够估计,如果我们向每个患者开具这两种药物,可能会期望看到的两种药物效果差异有多大。理想状况下,我们还希望得到一些迹象,表明我们在估计的大小上有多精确。

例3:在研究伦敦的失业问题时,不可能访谈所有人,所以要对一些人进行抽样访谈,目的是利用这个抽样的回答对整个伦敦的失业状况做一些概述性的陈述。也就是说,使用样本数据,我们想估计整个伦敦的失业率。

例4:从更宏观的角度说,在第4章中,我介绍了分布的「参数」概念。我们看到了伯努利分布的例子,其中随机变量可以取值0或1,其中p是值取1的概率的参数。我们还看到了正态分布的例子,它有两个参数,即均值和标准差。我们的目标可能是要估计这样一个参数的值。例如,人类学家可能正在研究特定人群的身高。她可能会假设身高是服从正态分布的,但要恰当形容该分布,她还需要知道该分布的均值和标准差。她会使用该组中一个样本的身高数集来估计整个人口的均值和标准差。

点估计

一位朋友要和我打个赌。他会不断抛掷硬币,每当硬币出现正面时,他会给我10英镑,但是每当硬币出现反面时,我都要给他5英镑。

乍一看,这项赌注对我来说很不错。毕竟,众所周知,抛掷硬币出现正面或反面的可能性是一致的(正面概率等于1/2),所以我赢得10英镑的可能性和输掉5英镑的可能性一样。平均下来,我将成为赢家。

然后我开始怀疑,他为什么要设立一个明显偏向我的赌注呢?我开始怀疑,可能硬币被他篡改了,所以它显示正面的概率会小于1/2。毕竟,如果它显示正面的可能性真的微乎其微,所以很少出现正面的话,这场赌注对我而言是个糟糕的赌注。为解决这个问题,我想要估计一下投掷的概率结果。我的朋友非常乐于助人,但他不了解统计学,他抛出了六次硬币,所以我可以看到每次的结果。因此,我的目标是使用这些数据来估计硬币在未来投掷时可能出现的各种结果的概率。

假设硬币被出千了,它在任何一次投掷中为正面的概率只有1/3。由于硬币的投掷是独立的(一次投掷的结果不影响其他投掷的结果),我们知道两次投掷结果为正面的概率是单次投掷为正面的概率之积:1/3 × 1/3 = 1/9。类似地,由于反面的概率为1 − 1/3 = 2/3,因此正面与反面的概率将是1/3和2/3的乘积,即2/9。一般来说,假设每次掷硬币结果为正面的概率为1/3,我们可以计算出任何正反面组合次序的概率。特别是与我们实际在六次投掷中观察到的结果相同的序列。例如,如果六次投掷显示「正反正反反反」,则偶然获得相同序列的概率将会是1/3 × 2/3 × 1/3 × 2/3 = 16/729,约为0.022。

以同样的方式,我们可以计算出,如果每次投掷结果为正面的概率有其它值的话,「正反正反反反」这一序列出现的概率。例如,如果正面的概率为1/2(同样反面的概率也为1/2),则获得这一序列的概率为1/2 × 1/2 = 1/64,近似为0.016。如果正面的概率为1/10,则获得这种序列的概率约为0.007,等。

现在,我们的目标是估计硬币在未来任一次投掷中结果为正面的概率。也就是说,我们想选择某个单一值,1/3、1/2、1/10或其他值,作为这个概率的估计值。通过前述计算,我们发现,如果出现正面的真实概率为1/3,那么六次投掷获得观察结果的概率是0.022;而如果正面的真实概率为1/2,那么结果为0.016,概率更低;如果正面的真实概率为1/10,结果才0.007。这意味着,如果真实概率为1/3(而不是1/2或1/10),我们才更有可能观察到这六次抛掷结果。因此,选择1/3作为我们对结果为正之概率的唯一估计值似乎是明智的。这是最有可能产生我们实际获得数据的值。

这个例子阐明了最大似然估计法(Maximum Likelihood Estimation,简称MLE):我们选择最有可能产生观测数据的参数值。在这个例子中,我只计算了正面朝上的三个概率值(1/3、1/2、1/10)的概率,但原则上我们可以计算所有可能的值。用以计算「硬币出现正面」的每种可选观测数据的概率的函数称为似然函数。该函数在统计推断中起着核心作用。

可以通过相同的原理来获得正态分布或其他任一分布之参数的估计值。对于参数估计值的不同可能选择,我们只需要计算实际获得之数据集的概率。然后,最大似然估计值是产生最大概率的参数值。请注意,这个过程只产生一个值,即在最大似然意义上的最佳估计值。因为它是单一值,因此又被称为点估计。

这种估计方法的另一种替代方法是将似然函数视为观察到的数据(我们六次掷硬币的结果序列)与我们理论预测之间一致性的度量(其中「理论」在这里表示为预测结果为正面的概率,如1/3或1/2)。选择这一理论(获得正面的概率)以最大化共识,或等效地减少差异,显然是明智的。以这种方式思考它可以使我们概括: 我们可以考虑其他差异度量。例如,在许多情况下,良好的差异量度是所提出的参数值与个别样本值之间的平方差之和。选择参数以最小化度量意味着在最小的平方差之和的意义上获得「最佳」估计。事实上,这是一种很常见的估计方法。由于显而易见的原因,它被称为最小二乘估计(least squares estimation)。

有时,在分析数据之前,我们可能会对我们期望的参数值有所了解。这些想法可能来自先前经验或前期实验。例如,根据之前我们扔硬币的经验,可能会认为代表硬币显示正面之概率的参数p接近1/2,并且不可能差1/2太多。也就是说,我们有一个先验分布,关于未知参数采用不同值的信念。这个分布代表了关于参数值的主观信念——就像第四章所讨论的概率之主观解释一样。在这种情况下,不是隔离分析数据以得出参数值的估计值,而是将数据与我们先验信念相结合以得出我们对参数可能值的信念之后验分布是有意义的。也就是说,我们从描述对参数可能值之信念的分布开始,然后根据我们在数据中观察到的情况进行调整。例如,我们对硬币出现正面之概率的先验分布可能高度集中在1/2这个值附近:我们认为它很可能接近1/2。但是,如果抛100次硬币中100次只有3次显示正面,我们可能需要调整对分布的预期,此时较小的概率值则更有可能,而1/2附近的值就不太可能了。【likely values-可能值】

实际上,正是第四章中所描述的贝叶斯定理使得我们能将先验信念与观察到的数据相结合,从而给出后验信念。因此,此种估计方法称为贝叶斯方法。回想一下,贝叶斯定理涉及两个条件概率:给定事件B发生的概率,以及给定事件A发生的概率。在现在这个情况下,我们使用该定理将给定我们观察到的数据的参数具有某种值的概率与给定参数的特定值时观察到此类数据的概率相关联。现在,其中的第二个,即在给定参数的特定值的情况下观察此类数据的概率,只是似然函数。因此,贝叶斯定理使用数据的可能性来调整我们的先前信念,以产生我们的后验信念。

请注意,此方法与上述其他方法(通常称为频率法或经典法)之间存在细微但重要的差异。在那里,我们假设未知参数有一些固定但未知的值。然而,对于贝叶斯方法,我们假设未知参数在一组可能值上有多种分布,要先用先验分布确定,然后,当数据集中的信息更新时,再由后验分布确立。研究人员承认参数可能具有不同的值,并使用概率分布来表达他们对每个值的信念。

先验分布的概率并非不存在争议。至少,具有不同背景经验的不同人可能会有不同的先验分布期望。这些先验值与具体数据相结合,将会产生不同的后验分布,以及不同的可能结论。因此,任何对客观性的修饰都不复存在了。而且还有一个实际的困难。虽然正态分布的均值和伯努利分布的参数p具有清晰且直接的解释,但分布中的参数并不总是有直接的解释(It is not always the case that the parameters of distributions have straightforward interpretations)。有时很难找到合理的先验分布来反映我们的先验知识。

在我们介绍贝叶斯方法时,得到了后验分布的概念,这个分布总结了研究人员在看到数据后认为参数取某个值的信念。如果我们愿意,可以通过使用分布的一些汇总统计量将整个分布简化为点估计。例如,我们可以使其均值或模型。

哪个估计最好?

我们如何判断点估计方法是否有效,以及哪个估计量是最好的?例如,虽然我可能选择从该分布中挑选样本的平均值来估计分布的平均值,但另一种方法是在计算平均值之前删掉样本的最大值和最小值。一般来说,最大值和最小值在样本间具有最大的变异性,因此删去反而可能会得到更可靠、偏离性更小的估计结果。

对于频率估计法,它假设有一些固定且未知的被估计之参数的真实值,理想上,我们想知道这两种方法中的哪一种会产生更接近真实值的估计。 不幸的是,由于真实值是未知的(重点是如何估计出它!),我们永远也不会知道它。另一方面,我们希望知道的是,如果我们重复进行样本测量与估计值计算的练习, 有多大概率接近真实的值。毕竟,由于估计值是基于样本而来,因此如果抽取不同的样本,估计值可能也会不同。这意味着估计值本身是一个随机变量,因样本而异。作为一个随机变量,它有一个分布。(As a random variable, it has a distribution.)如果我们知道这个分布与真实的值是紧密相连的,那可能会认为估计方法是一个好方法。换句话说,如果我们知道某种方法产生的估计值非常接近参数的真实值,就可能会认为这个方法不错。尽管这个方法并没有告诉我们有关个案的情况,但我们有理由相信它。毕竟,如果你知道有人在1000次预测中有999次都是正确的,那么你肯定倾向于在个案中信任他们。你和火车司机、飞行眼以及餐厅都在一起做这些事情:你知道司机和飞行员很少撞车,餐馆很少供应坏掉的食物,所以你乐于认为,一切都没啥问题。

基于这一原则,已经开发了几种不同的方法来评估替代的评率估计法。偏见法就是其中之一。它告诉我们,[参数的真实值]{.underline}与[估计值之分布的均值]{.underline}间差异有多大。尤其是,如果该差为零(即如果[估计值之分布的均值]{.underline}等于[参数的真实值]{.underline}),则估计是无偏的。

例如,当一枚硬币被抛掷多次时,得到正面的比例是对硬币出现正面的概率的无偏估计:在重复实验中,该比例之分布的均值等于硬币出现正面的真实概率。举例来说,假设我们不知道硬币出现正面的真实概率是0.55。我们抛掷一枚硬币十次,并通过正面的比例来估计这个概率。我们的十次抛掷可能得到六次正面;这是一个比例为0.6。或者三次正面;比例为0.3。或者五次正面;比例为0.5。等等。平均而言(在想象中重复进行十次抛掷),比例将会是0.55,因为正面的比例是硬币出现正面之概率的无偏估计。

通常,具有较大偏差的估计量不会像无偏估计量那样受到青睐。平均而言,在重复实验的过程中,具有较大偏差的估计量将得到与真实值非常不同的值。

均方误差(mean squared error)是另一个衡量估计量有多好的指标。对于任何特定的估计值,如果我们知道真实的参数值,我们可以计算估计值与真实值之间的平方差(即「平方误差」)。平方的用处之一是它使所有的值都变成正数。现在,由于估计值本身是一个随机变量,会因样本而异,因此平方误差也是一个随机变量。作为一个随机变量,它有一个分布。均方误差就是这个分布的平均值。小的均方误差意味着平均而言,估计值与真实值之间的平方差很小。已知具有较大均方误差的估计量不会像具有较小均方误差的那样受到青睐:人们不会相信它的值代表着事实。

区间估计

当我们在第二章中考虑一些基础的描述统计时,我们可以看到,它能通过平均值或其他一些单独的汇总很好地总结了样本值,但其中也有许多不足之处。特别是,它未能显示样本值在该平均值附近的分布范围。我们通过进一步引入描述统计数据来解决这个问题,例如范围和标准差,这表明样本值的分散程度。

同样的原则也适用于估计。刚刚我们研究了点估计,即在某种意义上是单个最佳估计值的估计。另一种方法是给出一个值的范围,一个区间,我们可以相信真正的值被囊括在该区间中。让我们回到「朋友的10英镑/5英镑」的赌博。此前,我们可以计算硬币抛掷结果为真的概率值的最佳估计。现在,我们可以寻找一个值的范围,相信真正的值被囊括在其中。例如,我们也许非常相信真实概率在1/4和2/5之间。这就是区间估计的一个示例。

现在,由于真值是未知的,我们不能确定任何特定的区间是否真正包含了它。但是想象一下,反复进行相同的练习,使用不同的随机样本(就像我们在上面定义偏差时所想象的那样)。对于每个样本,我们可以计算一个区间估计。然后,如果这些区间是以正确的方式构建的,就有可能说,某个百分比的区间(例如95%或99%或我们选择的任何其他百分比)将包含未知的真实值。

回到朋友的硬币,我们无法确定任何特定的区间,计算出来的任何特定数据样本,是否会包含硬币出现正面的真实概率。但我们可以说,95%(或者我们选择的任何百分比)的这样的区间将包含真实概率。由于95%的这样的区间将包含真实值,我们可以相当有信心地认为,我们根据实际获得的样本(例如HTHTTT)计算出来的那个区间将包含真实值。因此,这样的区间被称为置信区间。

谈到贝叶斯方法,我们看到贝叶斯分析的结果是数值的整个后验分布。这个分布告诉我们对参数的信念强度有着任何特定的值。我们可以就此作出结论。例如,如果分布的标准差很小,这意味着我们非常相信参数值会在一个很小的区间内。但有时候,将事情总结为一种相当类似于上面的置信区间的方式,并给出一个由最大值和最小值定义的区间,是比较方便的。例如,我们可以找到一个区间,其中包含了后验概率分布下方95%的面积。由于这些分布具有信念程度的解释,这样的区间可以被解释为给出了真实值位于其中的概率。为了将它们与频率主义者的置信区间分开来,我们将之称为可信区间。

检验

统计学家使用假设检验(hypothesis testing)和显著性检验(significance testing)这两个短语来描述这一过程,即探索模型中的参数是取特定值还是位于特定范围内。简而言之,这可能意味着只检测一个参数。例如,我们可能知道50%的特定疾病患者在标准的治疗下康复,并且我们可能推测拟议的新药治疗可以治愈80%的此类患者。我们有兴趣检验的单一参数是新疗法的治愈率,我们想知道它是否是80% 而非50%。

然而,现实是人类彼此并不相同。他们在年龄、性别、健康程度、疾病的严重性、体重和其他方面不尽相同。这意味着,即便是给相似的人相同剂量的药物,反应也不尽相同:有些人会被治愈,有些则不会。实际上,同一患者完全有可能在不同时间和不同情况下产生不同的反应。对这一情况的合理模型是患者有概率p被药物所治愈。在我们的例子中,标准治疗下p = 0.5,并且猜想在新治疗下p = 0.8。

在这点上,原则是我们为了确定新药的功效,应该在所有可能的情况下,将新药提供给每个患者,看看治愈的比例。这显然并不现实,我们只能将药物给予样本中的每个患者。然后我们可以计算样本中治愈的比例。不幸的是,我们只是在研究一个样本,而非整体人类。仅仅因为样本中有80%的人被治愈(或60%、90%或任一数值),并不足以说明这个比例同样适用于整个人类。如果我们挑选不同的样本,很可能会得到不同的结果。

然而,从总体上看,只有50%的患者被治愈的人群中抽取的样本通常会比从总体中有80%患者被治愈的人群中抽取的样本具有更低的治愈比例。

因此,我们可以选择一个阈值,例如,如果我们观察到样本中被治愈的比例小于t,则支持50% 假设;如果我们观察到样本中被治愈的比例大于t,则支持80% 假设。就后者来说,我们说样本统计量位于拒绝区域或临界区域,因为标准治疗的治愈率50%已被「拒绝」。

在这样做时,我们有可能犯两种错误。我们可能会认为新药会治愈人群中80% 的患者,但实际上它只能治愈50% 的患者。或者,我们可能会认为新药会治愈人群中50% 的患者,但实际上它可以治愈80% 的患者。所谓的内曼—皮尔逊假设检验方法(Neyman-Pearson hypothesis testing)就处理这件事,让我们知道这两种错误的概率,并且足够小,让我们相信结论。

这是它的工作原理。我们先做一个可行的假设:即新药只能治愈50%的患者。这一可行的假设被称为零假设(null hypothesis)。所谓的替代假设是新药可以治愈80%的患者。使用基本的概率计算可以得出,如果50%的假设(即零假设)为真,那么样本的比例将显示出,偶然的治愈率大于任一t。通常情况下,t 被选择得足够小,以便如果零假设为真,样本治愈比例超过 t 的概率只有 5% 或 1%。

在这种情况下,当零假设为真(即,如果只有50%的总人口将被治愈),而我们实际获得的样本治愈比例大于 t,导致我们支持80% 的治愈率,这意味着我们犯了上文提及的第一种错误(通常称为第一类错误)。符号阿尔法通常用来表示第一类错误的概率。在这个例子中,我们选择的 t 意味着我们已经将阿尔法固定在 0.05、0.01,或任何所选值。

在这种情况下,如果我们观察到样本治愈比例大于 t,则有两种可能性:一种是零假设为真(真实比率为 50%),并且发生了一个低概率事件(样本比率高于 t,以概率 阿尔法 发生),另一种是零假设不正确。这是尼曼-皮尔逊假设检验方法的实质。通过选择 t,使得 阿尔法 足够小(通常认为 0.05 和 0.01 足够小),我们可以合理地推断零假设不成立,因为如果成立,将会发生一个不太可能发生的事件。

另一种错误(当然是第二类错误)发生在备择假设(alternative hypothesis)为真(例如例子中的 80%)但观察到的样本治愈比例小于 t 的情况下。由于我们选择 t 来控制第一类错误的概率,就不能再选择 t 来控制第二类错误的概率。然而,我们可以通过取足够大的样本使第二类错误的概率降低到任意小的值。这同样是大数定律的结果。增加样本量会减少样本估计的变异范围,从而降低了当真实总体值为更高的 80% 时,样本估计将低于 t 的概率。特别地,通过足够大的样本,我们可以将第二类错误的概率降低到我们认为合适的任意值。符号b 通常用来表示第二类错误的概率。术语「功效」用于表示 1 − b,即当备择假设为真时选择备择假设的概率。

上述假设检验类似于法院的判决,在法庭上,最初假定被告是无辜的(零假设),并且可能出现两种错误:无辜者被判有罪(第一类错误)或有罪的人被判无罪(第二类错误)。

请注意,尼曼-皮尔逊假设检验涉及两个假设:零假设和备择假设。在显著性检验中,只考虑了零假设。其目的是在某个检验统计量的值(例如上面例子中的样本治愈比例)与零假设下的预期值足够不同时「拒绝」零假设,或者在值不太极端时「不拒绝」零假设。没有明确提到备择假设。术语「p值」用于描述如果零假设为真,我们观察到的检验统计量的值与实际观察到的值一样极端或更极端的概率。

假设检验和显著性检验的概念已经在各种各样的问题中得到了发展。通常会开发特定的检验,通常以其中一个最初开发者的名字命名(例如瓦尔德检验,曼-惠特尼检验),或者以涉及的检验统计量的分布命名(例如 t 检验,卡方检验)。

原则上,贝叶斯假设检验更为直接。在贝叶斯公式中,我们有每个假设为真的后验概率,因此我们可以使用这些概率来选择假设。实际上,事情有时会变得更加复杂。

决策理论

我非正式地将「检验」描述为查看模型的参数是否采用特定值或落在特定范围内。这很好地描述了科学背景下的大部分内容:目的是发现事物的本质。但在其他情况下,例如商业或医学,目标通常不仅仅是发现参数的值,而是根据这些信息采取行动。我们观察一个病人,做一些观察和测试,并使用得到的数据,采取最佳的行动方案。「最好」可能意味着很多不同的事情,但是,抽象地说,我们希望最大化收益、利润或「效用」,或者同等地,最小化成本或损失。如果我们能够定义一个合适的效用函数,描述当未知真相取其每个可能值时采取每个行动的增益,那么我们就可以比较不同的决策规则,即在行动之间选择的不同方式。例如,无论真相如何,我们可以选择最大化可能会产生的最小收益的决策规则。或者,如果我们在贝叶斯框架内工作,并且在未知的事实状态下具有概率的后验分布,我们可以计算每个决策规则的增益平均值,并选择具有最大平均值的规则。

这有个例子。一家公司可能想知道发邮件还是打电话能更有效地鼓励客户购买其新产品。现在,如果设想两个举措对所有类型的客户都是最有效的则是不现实的。有些人会回应邮件,有些人则更喜欢电话,而我们不知道哪些人喜欢哪个。但是公司可能拥有每个客户的数据:他们第一次注册时提供的信息,过往的采购数据,等。使用这些数据,我们可以制定决策规则,比如「如果客户小于25岁,并且以前会定期购买,那么采取行动『电话』;否则采取行动『邮件』。」可以制定许多这样的潜在决策规则。对于每一项行动,无论是电话还是信件,如果我们采取了该行动并且客户是对该行动做出(或没有)良好反应的类型,我们就可以估计收益,甚至可以用金钱来衡量。然后我们可以选择使最小增益最大的决策规则。或者我们可以对每种类型的客户分布进行平均,得出每个决策规则的平均收益,然后选择导致平均收益最大的规则。

所以我们现在在哪儿?

多年来,统计推断这个话题一直有着相当大的争议,有时甚至非常激烈。尽管不同的推理方法有时会导致不同的结论,但经验表明,了解自身方法的统计学家在恰当使用其方法后往往会得出相似结论。这都是统计艺术的一部分,它表明了统计分析不仅是机械的数学练习。它需要理解数据及其背后的含义,以及充分掌握底层的推断理论。

不同的统计推断学派对不同的原则有不同的重视程度。这些原则的例子包括似然原则(如果两个不同的模型具有相同的似然函数,那么它们应该得出相同的结论)、重复抽样原则(统计程序应该根据它们的「平均」表现来评估,如果它们被应用于许多重复的样本)和充分性原则(涉及汇总数据,以便保留足以估计参数的信息)。这些原则似乎都完全合理,但有时会互相冲突。

多年来,古典频率法是最广为人知的推理方法,但贝叶斯方法近年来越来越受欢迎。这是强大的计算机和巧妙计算方法的发展以及其支持者热情推广这些方法的直接结果。科学是在社会中而存在的,过去几十年来,关于不同的推断思路的兴衰,及其背后的人情世故则是另一个引人入胜的故事。

最后一点:正如我希望在本章中所清楚表明的那样,推断有多个维度。尤其是,我们可能对寻找不同类型问题的答案感兴趣。这些问题包括:数据告诉我们什么?我应该相信什么?我应该做什么?等。不同的推理方法适用于不同类型的问题。