牛津通识读本·统计学
Statistics: A Very Short Introduction
作者:David J. Hand | 译者:H. J. Hsü
本书适合完全不了解统计学的小白获取一些初级认知。书中没有数理分析,但这些基础介绍对自学统计学也很有益处。 查看详情
通识作品
牛津通识·统计学



统计模型与方法
The best thing about being a statistician is that you get to play in everyone‘s backyard.
作为一个统计学家,最好的地方在于,您可以在每个人的后院里玩耍。_John W.Tukey

统计模型:将模块放在一起

我在本书的多个地方使用了「统计模型」这个短语,但并没有详细解释。统计模型是对所研究之事物或系统的简要展示或描述。一个非常简单的模型可能只涉及现实的某个层面。实际上,第四章讨论单变量分布时提及了这方面的例子。更普遍地,统计模型确实可以非常复杂,可能涉及以高度复杂的方式统合数千个相关的变量。例如,试图指导国家银行决策的经济学家会使用这种大模型。

针对模型的一个基本观点是好奇它们是否正确代表了潜在的现实:它们是否「真实」?事实上,当我们询问所提出的参数值是否是真实值时,就已经采取了本书前文所采用的观点。然而,更老练的观点承认,无论是统计模型还是其他模型,均不可能考虑到现实世界中所有的可能影响与关系。正是这种观点使得著名统计学家乔治·博克斯(George Box)断言「所有的模型都是错的,但有些很有用」。我们建构模型是有原因的:帮助我们理解、预测、决策等。虽然我们认识到,我们的模型代表了对世界之复杂性的必要简化,但如果我们选择得当,它们就能帮助我们实现目标。否则,我们就无法实现理解、给出错误预测、做出不当决定。那么,我们的目标是构建符合我们目的的模型。

统计模型可以便捷地分为两类:机械模型和经验模型。机械模型基于一些事物如何相关的坚实理论基础。例如,物理学理论可能会告诉我们下落物体的速度如何随着下落时间的增加而增加。或另一种理论可以告诉我们,药物如何扩散到自身。在这两种情况下,模型都是基于事物实际运转的理论。事实上,模型是基于描述这些理论的数学方程,而且,我们收集的评估模型的数据则是理论中所使用的变量值,例如速度和时间(在物体下落的例子中)以及浓度和时间(在药物扩散的例子中)。因此,机械模型是描述理论的直接的数学方法。

相比之下,经验模型只是试图便捷地总结所观测数据的重要维度。我们可能缺乏一个理论来描述下落物体的速度会随时间的推移而增加,但我们能观察到时间和速度之间的关系,并在此基础上推测二者之间的递增关系。如果这种提议的关系没有潜在的理论基础,那么该模型将是一个经验模型。

机械模型广泛应用于物理学和工程学等学科,而社会科学和行为科学则更倾向经验模型。话虽如此,虽然有着不小的重叠:模型的性质取决于正在建模的内容以及对它的理解程度。经济学是一门特殊的社会科学,包含着充分的理论以解释经济因素如何互相关联。公平点说,在探索现象的初期,经验模型更为常见,因为要在大量观察中寻找规律和模式。在后期,当理解不断加深时,机械模型就更为重要。无论如何,正如重力模型所揭示的,随着对现象理解的加深,可以将特定的模型构建为经验模型,然后再转化为机械模型。

有时区分统计模型的各类可能用途很重要。其中一个区别是探索和检验。在探索时,我们关注关系或模式。在检验时,我们关注数据是否支持所做出的解释。因此有些例子,在探索性研究中,我们可能会寻找密切相关的变量,也许一个变量会随着另一个变量的升高而升高,或可能一组变量对不同对象取非常相似的值,等。另一方面,在检验性研究中,我们可能会用数据来估计所提出的统计模型的参数,并通过统计检验来查看估计值是否足够接近我们的理论预测。近年来,随着数据集的扩大,探索性的统计方法越发重要。对于科学应用(例如粒子物理学和天文学)和商业应用(例如包含超市购物、电话或互联网流量数据的详细信息的数据库)都是如此。

统计建模的另一个重要区别是描述和预测。在描述一个数据集时,目的是以便捷的方式总结它。例如,如果数据集由一百万人的十个变量(身高、体重、上班时间等)组成,那么为了便于理解,我们要将其缩减到可管理的大小。例如,我们可以根据每个变量的均值和标准差以及对它们之间相关度的度量来总结。然后就有希望了解正在发生的事情,因为我们已经以便捷的方式描述了数据的一般属性。话虽如此,正如第二章中所言的,这种描述性总结亦有风险。更具定义,它们简化了整个数据集的复杂性,因此我们必须警惕这类描述性统计遗漏了一些重要内容的可能性。例如,也许我们的模型未能考虑到一个群体中有两个不同遗传种群的事实,因此需要更复杂的模型来表达。

在预测模型中,我们的目标是使用一些变量来预测其他变量的值。例如,我们可能有一组数据,显示样本人群的童年饮食细节和其成年后的身高。利用这点,我们可以建构一个成人身高与儿童饮食相关的模型,然后使用该模型来预测遵循特定饮食的儿童的未来身高。请注意此类模型的一个基本面向:我们需要样本中的自变量和它的值。下文将论及,这是预测模型和描述模型之间非常重要的区别。

再次强调,这种区别并非总是清晰的。我们可能只是关心描述儿童饮食与成年身高之间的关系,而不打算使用该模型来预测它们。

另一种重要的预测模型是预报。在这里,我们使用过去的数据构建模型,该模型可用作预报尚未进行观察之数据的基础。例如,我们可能会查看过去五年电视机销售的月度模式,并推断销售趋势和季节性变化,以预报接下来十二个月内可能的销售情况。

统计模型还有其他的用处。第五章简要讨论了它在决策中的作用。我们还在第五章中了解了如何估计分布参数。实现的方式分成两步,先定义观察数据和理论分布之间的差异度指标,再选择能最小化差异度指标的估计参数值。一种常见的差异度指标是从可能性中得出的。可能性即是指,如果参数值不同时,出现类似观测数据的可能性的概率值。目前分布仅是简单的模型形式,当拟合更加复杂的模型(如下所示的模型)时,适用完全相同的原则。但随着模型的复杂化,会出现一个奇特的现象。

我举一个简单的例子来说明。假设我们想要构建一个模型来预测毕业生的初始工资,该模型基于描述其受教育程度、大学学习科目、考试成绩以及年龄、性别、居住地等因素的数据。假设我们对 100 名应届毕业生进行抽样并收集他们的数据。一般来说,如果我们的预测基于很少的变量(例如仅年龄),那么结果不会很准确。年龄本身并不包含足够的信息,无法让我们非常准确地说出某人毕业后的工资是多少。为了提高预测的准确性,需要添加更多变量(如,使用年龄、学习科目和考试成绩来预测毕业生薪资)。然而,问题的关键在于,如果添加太多自变量,那么总体预测的准确性就会降低。尽管我们利用了更多的毕业生信息,但模型效果却不那么好。

这看起来很反常,添加更多的信息为何会导致更差的预测?

答案很微妙,也有不同称呼,包括图形过拟合(graphic overfitting)。为了理解它,让我们退一步看看我们实际的目标是什么。我们的目标不是成功地预测样本中的100名毕业生:我们已知道他们的初始工资。我们是为了更好地预测其他毕业生的初始工资。也就是说,我们的目标是从所拥有的样本中泛化。现在,通过增加更多的自变量,也就是增加更多的信息,这使我们能更加准确地预测样本中已有人员的工资。但样本毕竟是样本,并不能代表整个毕业生群体的薪资。随着我们不断增加自变量,模型开始适配样本特有的数据内容,而非一般的人群。

这种现象适用于所有的统计建模:模型可能过于复杂,因此它们可能十分适配观测数据,但无法很好地推广到同一分布中的其他对象。这意味着有必要制定合适的策略来选择模型:太简单,我们可能会错过潜在预测效果;太复杂,我们可能会过拟合。这一原则是奥卡姆剃刀(Occam’s razor)的基础原理,其规定「模型的复杂度不应超过必要的程度」(出自 14 世纪的方济会修道士奥卡姆·威廉)。

过拟合的问题在现代统计学中更为重要。在计算机出现之前,拟合具有大量参数的复杂模型并不普遍,过拟合的风险较小。

统计方法:行动中的统计学

本节目的是概述一些重要的统计方法,讨论它们之间的关联性,以及说明它们所能解决的问题。

首先会注意到,我们经常对变量间的关系感兴趣。心脏病发作的风险会随着体重的增加而增加吗?全球变暖是人类活动的结果吗?如果失业率上升,通货膨胀会下降吗?提高汽车的安全功能会增加其销量吗?等。如果两个变量在一个增加时另一个也增加的话,则称这些变量是正相关的。如果一个变量增加,另一个变量下降的话,则称它们为负相关。人类的身高和体重呈正相关:较高的人往往较重。请注意,这种关系并不精确:有高且瘦的人和矮且胖的人。但总体而言,身高与体重增加有关。从这个例子中还能看出,两个变量相关并不意味着一个变量会导致另个变量变化。让某人吃蛋糕来增加体重不太可能导致身高增加,而把他们放在架子上拉伸也不太可能增加体重。事实上,多年来,许多误解都是因为混淆了相关性与因果性。对5 至 16 岁儿童样本的分析可能显示阅读能力和算术能力之间存在显著的正相关关系。但这二者之间不太可能互为因果,而年龄则可能是共同的原因:年龄较大的孩子往往阅读和算术能力都更好。

单个数字(相关系数)可用于表示相关性的强度。衡量这种强度的方法有很多,正如我们看到定义「平均」和「分散」的方法有很多一样。但一般来说,相关系数被标准化为 -1 和 +1 之间,其中 0 表示没有关系,+1 表示完全正相关,-1 表示完全负相关。两个变量 x 和 y 之间的「完全」相关意味着,如果你知道x,那么就知道y。

相关性是一种对称关系:如果身高与体重相关,那么体重也与身高相关。而且,无论怎么处理,这种相关性的强度都是相同的。但有时我们对变量间的不对称关系感兴趣。例如,我们可能想知道,平均而言,十厘米的身高差会对体重产生多少影响。这类问题可以通过回归分析的统计技术来回答。回归模型会告诉我们,变量y对于变量x的敏感度。在上例中,「体重与身高间的回归模型」会展示出每个身高对应的每个平均体重。如图 5 所示,其中体重为纵轴,身高为横轴。每个点代表着样本中每个人的「体重-身高」对。从该图中易得,我们没有所有的可能身高的观测值。例如,不存在身高恰好为6英尺的数据点。但要想知道身高为6对应的体重的话,可以假设身高和平均体重之间存在关系。即构建一个模型,为每个身高值提供平均的体重值。一个非常简单的关系就是线性关系;下图是一个示例。对任何给定的身高,我们都可以通过这条线查询对应的体重。例如,它为我们提供了身高 6 英尺的人的平均体重。

{width=“5.270833333333333in” height=“3.40625in”}

图5:用线去匹配数据

关于这种路径,有以下几点可说。

首先,它给出的是每个身高的平均体重。这是合理的:在现实中,即使是身高相同的人体重也可以不同。

其次,我们要找出某种方法来确定所讨论的究竟是哪条线。图中画了一道线,但它是怎么画出的呢?实际上,这条线由两个参数所固定,即它们和纵轴的截距以及斜率,因此需要某种方法来选择或估计这两个参数。我们在第5章中研究了参数估计,为了得出参数值,需要选择能最小化模型和观测数据间差异的值。对于数据中任一「体重—身高」,一个度量差异的方式是观察的实际体重和预测体重之间的平方差(同样,平方是为了值为正)。基于此,整体差异的度量方法就是观测数据与预测数据之间的平方差之和。然后,我们选择那些最小化平方差之和的值来给出截距和斜率的估计值。这种最佳预测的方式称之为最小二乘回归线(least squares regression line)。

第三点是,假设关系是直线可能看起来很武断,且没什么道理。为什么选择直线,而不是曲线?这里不作过多展开,确实可以引入不同程度的曲率,以便显示更复杂的线性关系。例如,体重可能在身高较低时比身高较高时增加得更快。除了截距和斜率之外,还需要额外的参数来让模型更复杂。

身高/体重回归示例仅从一个变量(身高)来预测平均体重。我们还可以引入其他潜在的变量,从而产生更准确的预测。例如,男性与女性的体型不同,因此,对于给定的身高,一些体重差异很可能是性别导致的。因此,也可以将性别作为变量,还可以继续引入其他我们认为和体重相关的变量。如果我们只观察特定数量的人群,就不应该走得太远,否则模型将再次过拟合。因此,可能不用纳入所想到的全部变量,而只是挑选其中的一部分。

一般来说,还有其他原因来解释为什么只挑选一部分的变量。例如,测量额外的变量可能需要额外的时间或金钱,因此我们希望挑选合适的参数。因为各种各样的原因,统计学家已经开发出挑选变量的良好子集的方法(良好意味着它们能产生最佳预测)。

回归模型将结果或因变量与一个/多个自变量关联在一起。这个问题很常见,并已经有了多种统计模型来处理类似的情况,这些情况与简单的回归情况存在差异。例如,在幸存分析中,因变量的值仅在某些情况下是已知的,而在其它情况下,则超过了某些值。如果因变量是一段时间的话,那么这种情况最容易出现(但肯定不限于此)。比如,我们可能想知道患者活了多久(这是这个方法的名称)或机械的零件需要多久才更换。以前者为例,现在数据集可能显示其中一名患者活了 5 个月,另一名患者仅活了 2 个月,另外三名患者则活了 11 个月,依此类推。然而,出于各种原因,我们不能等到最后一名患者死亡(可能是几年之后),所以停止了观察。我们只知道一些患者活过了观测期间,这样的数据被称为「截尾数据」(censored data)。为了说明它们引入的复杂性,让我们以平均存活期间计算为对照。在计算平均值时,只需要将观察时间相加并除以人数即可。但对于那些被截尾的数据,我们无法知道其确切值,因此无法纳入计算。但如果忽视它们,意味着我们忽视了那些最大值,因此估计值将比真实值更低。相反,如果我们纳入这些数据,并仍采取观测记录法的话,结果将取决于停止观测的时间。这同样不合适,因此需要更复杂的方法来处理截尾数据。

在方差分析中,还有一类,即因变量与一个/多个自变量相关。这种方法广泛应用于农业、工业检测、制造业和心理学等领域。在方差分析中,自变量是分类变量,即每个变量只有几个值。例如,在制造某种化学品时,可能是温度、压力和持续时间,并且每种变量都有三种类型:低、中、高。在第3章中,讨论实验设计时,就出现了这类情况。方差分析通常用于实验分析。虽然其与回归分析并不相同,但我们可以将其视为一种回归模型。两者都是线性模型的特例。

线性模型本身有多种拓展模式。其中一种非常重要的拓展就是广义线性模型。在回归和方差分析中,研究目的都是预测每个自变量对因变量之平均值的影响。广义线性模型对此作出了拓展,允许将分布的其他参数作为预测的对象。

当结果本身是分类的时候,就会出现结果/预测结构的另一种变体。例如,可能要处理一份医疗诊断清单,而自变量可能是症状(存在/不存在)和医疗测试结果的组合。这类方法一般称为监督分类法。此类模型最重要的特征是,当结果是二元变量时,只有两种可能值,如生病/健康、好风险/坏风险、可接受/不可接受、口语「是」/口语「否」(在语音识别中)、指纹授权/未授权(在生物识别系统中)、欺诈交易/合法交易等。在这些情况下,我们的目标都是建立一个模型,使我们能够利用自变量中的信息来预测新案例的最有可能的归属类别。

针对这种情况开发了大量的统计工具。其中最早的是线性判断分析,诞生于20 世纪 30 年代,但其基本形式或扩展版本至今仍广为流传。另一种在医学和管理学领域非常流行的方法是逻辑分类回归(logistic discriminant analysis)。这是逻辑回归的一种变体,也是一种广义的线性模型,显示了变量间的密切联系。事实上,逻辑回归可以看作是最基本的神经网络。而之所以被命名为神经网络,是因为它们最初被认定为是大脑工作的基本模型。然而,现在该领域的工作主要集中在它们作为预测系统的统计性,而非它们是否真的模拟了大脑的运作。

其他监督分类模型包括分类树(tree classifiers)和最近邻方法(nearest neighbour method)。随机树将变量划分为不同类型,并根据新的点所在范围的组合对新点进行分类。例如,数据分析可能表明,年龄超过 50 岁、生活方式久坐且体重指数大于 25 的人容易患有心脏病。这个模型可以表示为树结构,并因此得名。在最近邻方法中,我们在数据集中找到与要分类的新对象最相似(或「最接近」)的少数对象,其中相似性是根据预测变量定义的。然后,新对象被简单地分配给与这些相似对象中最相同的那一类。

监督分类之所以被称为「监督」分类,是因为需要有人(「监督者」)提供数据样本的分类标签。我们可以据此构建分类规则,并将其应用至新的对象。然而,在其他的分类问题中,并不存在现成的分类标签,我们的目标往往是将对象划分为自然的类别,或方便的类别。可以说,目的就是定义类别。例如,在医学领域,可能有一个病人样本,我们有每个病人的症状和检测结果的详细数据,并且我们怀疑,样本中有几种不同类型的病人。那么,目的就是要看这些病人是否根据症状或检查结果分成了不同群体。探索这种分类的统计工具被称为聚类分析(cluster analysis)。这种方法有助于确定单相抑郁症和双相抑郁症之间的区别,并广泛应用于其他领域,例如客户价值管理和市场营销,这些领域都致力于对客户画像进行分类。

在聚类分析中,没有「结果」或「相应」变量。相反,目的只是以便捷的方式描述数据。其他统计工具目的也一样,尽管它们描述的形式完全不同。例如,图模型(graphical model)是对几个(也可能是大量)变量之间关系的简化描述,它的预设是,许多变量间的关系是由其他变量作为中介而引起的。上文提及了一个例子:儿童的阅读能力和算术能力之间的正相关性是因为这些变量与年龄之间的关联结果。

可以通过假设某些关系是由未测量的潜在变量所引起的来拓展这一模型。这些潜在变量与某些观察到的变量相关,从而导致它们之间存在显著关系。例如,可能会观察到某些公司的股票市场价格一起上涨或下跌。解释这点的一种方法是推测存在一些尚未观测到的变量(例如经济的某些方面),它与这些公司的股票价格相关,从而导致它们之间的相关性:当未观测到的变量增加时,所有的价格也都会增加。这些想法是因子分析模型(factor analysis models)的基础:潜在变量通常被称为潜在因素。它们也是隐马尔可夫模型的基础,其中一系列观察数值是以系统的隐藏状态来解释的。例如,一些疾病患者的身体状态会出现波动,有时会复发,有时会康复。这种进展可以根据潜在状态的改变来建模。

如果分类方法的名称是基于其所解决的问题而来,那么其他方法则是根据所处理的数据性质来命名的。例如,时间序列分析(time series analysis)方法适用于时间序列:在一系列时间重复观察同一或多个变量。这种数据结构无处不在,如经济学(通货膨胀、GDP 和失业率的测量)、工程、医学(重症监护室)和等领域。在分析时间序列时,我们可能的目标包括了解时间序列、将其分解为关键组成部分(例如趋势、季节性)、检测系统行为变化、检测异常值(例如地震预测)、预测可能的未来数值,或出于其他考虑。现在已经开发了多种方法来分析此类数据。

统计图

有一种特别的统计工具尤为重要,值得重点阐述。就是图形的使用。人类的眼睛已经在进化中得到了深刻的磨练,能够感知图片信号中的结构和模型。统计学家通过使用大量不同类型的图形来呈现数据来利用此功能。当数据显示良好时,数据中的变量或构造之间的关系会更加明显。这既有助于分析数据,帮助理解正在发生的事情(回想一下图1中棒球工资的分布),也有助于将结果传递给其他人。图6至图8是一些阐释的例子。

{width=“4.770833333333333in” height=“4.760416666666667in”}

图6:「散点图矩阵」,显示 1988 年奥运会男子十项全能比赛中 100 米和 400 米短跑的时间(以秒为单位),以及铅球和铁饼的距离(以米为单位)。每个方块显示四个变量中两个变量之间的关系。显而易见,两个投掷项目的得分具有强相关性

{width=“4.979166666666667in” height=“2.53125in”}

图7:显示每天从ATM机提取的金额的时间序列图。该图清楚地表明,有每周和每月的周期,并且随着时间的推移呈逐渐增加的趋势。在接近期末时,异常低值也很明显

{width=“4.9375in” height=“3.7708333333333335in”}

图8:不同物种浮游植物细胞的光散射值分布。事实上,这里显示了三个物种,但其中两个物种的值分布非常相似,因此它们结合在一起形成一个高峰

总结

本章对一些重要的统计工具进行了快速回顾,但还有很多内容没提及到。不同的模型适用于不同类型的问题和数据,并且存在无数的问题和数据结构。重要的是认识到模型不是孤立的,而不同模型以多种方式关联在一起。它们可能是其他模型的泛化或特例,也可能适用于不同类型的数据,但都嵌在丰富的关系网络中。