牛津通识·统计学|简单说一下统计学
Statistics: A Very Short Introduction
数据是天然的证据。
Data are nature’s evidence.
导论
在本章中,我旨在介绍一些基本的概念和工具,它们构成了统计学的基础,从而让统计学变得十分有用。
在第一章中,我点明了围绕现代统计学的诸多误解与迷思。教科书经常(可能是无意中)传递了另一个误解,当其在给其他学科的专家介绍统计方法时。这个误解就是统计是一个工具箱,统计者或用户的角色就是选择一种匹配问题的工具,并应用它。
这种观点的问题在于,它给人一种印象,即统计只是一系列互不关联的操控数字之方法集合。它无法传递这样一种事实,即统计是一个相互关联的整体,建立在深刻的哲学原理之上,因此数据分析工具是相互联系的:有些可以拓展到其他领域,有些则可能因为数据类型的不同而不兼容,即使结构上看起来差不多。我怀疑这种孤立方法之拼凑的印象可能是新手觉得统计学相当乏味且难以学习的另一个原因(除了对数学的恐惧)。学习一堆互不联系且显然不同的方法,比从基本原理推导这些相互联系的方法要困难的多。它就像单纯背诵随机搜集的单词集和通过语境学习单词之间的区别。在本章乃至整本书中,我一直在努力传达统计思想之间的联系,来表明该学科是一个相互联系的整体。
再来聊聊数据
不管怎么说,不管用什么定义,统计学都始于数据。(Whatever else it does, and whatever the details of the definition we adopt, statistics begins with data.)数据描述了我们的“研究宇宙”。我用“宇宙”一词是为了表明,它可能涉及我们的物理世界,或是信用卡交易世界、遗传学的微阵列实验、学校的教学及考试表现、国家间的贸易、人们接触不同广告的行为、亚原子粒子等。可供研究的世界没有尽头,因此由数据代表的世界也没有尽头。
当然,不必奢望有限的数据集可以告诉我们现实世界中无限的复杂性,就像没有口头描述可以传达周遭世界的一切信息一样,哪怕它是出于著名作家之手。这意味着,我们必须意识到手头数据中所存在的缺陷与差距。即收集数据时,我们需要特别小心,确保它们涵盖了我们感兴趣的方向,或者足以支撑我们希望得出的结论。还有一种更积极的方式来看待这点:在仅收集一组有限的描述性数据时,我们不得不忽视无关的内容。例如,在研究不同汽车的安全性时,我们可能不会记录座椅的颜色。
广义上说,将数据分成两个维度是很方便的。一边涉及我们所欲研究的对象,另一边涉及我们所欲研究对象的特征。例如,我们的研究对象可能是学校里的孩子,特征可能是他们的考试成绩。也可能对象是孩子的时候,我们在研究他们的饮食和身体发育情况,此时,特征可能是他们的身高和体重。或者我们的研究对象是物理材料,而感兴趣的特征是它们的导电性和磁性。在统计学中,通常会选择特征变量,每个对象都一个变量值(孩子在拼写测试中的分数是测试变量的值、材料通过电流量的大小是电导率的变量值等)。在其他数据分析的学科中,有时会使用替代词(如特点、特征或属性),但我在后续讨论中会习惯使用「变量」(variable)一词。
在任何一项研究中,我们可能会有各种感兴趣的研究对象。我们可能不仅想要了解和描述小学生,还想了解学校本身,也许还想了解教师、教学风格和不同类型的学校管理结构,这些都可能在一个研究中涉及。此外,我们通常不会只对研究对象的某个特征感兴趣,而是想要了解特征之间的关系,甚至可能对不同类型与不同层级的对象之间的关系感兴趣。可以看到,鉴于我们所研究主题的复杂性,事情确实非常复杂,正如我们可能所预期的那样。
许多人不认同这一观念,即数字可以传递现实世界的美感。他们觉得以某种方式将事物转化为数字会剥夺其魅力。事实上,他们大错特错。数字有可能让我们更清楚且更深刻的感受那种美感与魅力,并更充分地欣赏他。诚然,可以通过数字形式化的表达来消除歧义:如果我说房间里有四个人,你能完全理解我的意思。但相反的,如果我说某人很有魅力,你可能并不能完全确定我的意思。你甚至可能不同意我关于某人很有魅力的观点,但你不太可能不同意我说房间里有四个人的观点(当然数错了是另一回事)。无论国籍、宗教、性别、年龄或是其他人类特征,数字都可以被普遍地理解。消除歧义,并消除误解的风险,这只有在试图理解某件事的本质时,才是有益的。
对数字的阐释缺乏歧义与数字只有一个属性密切相关:它们的价值或大小。与算命先生的套路相反,数字不是幸运或不幸的——就像数字没有颜色、味道或香气一样。它们没有任何性质,但它们固有着数值性。(诚然,有些人会经历通感,会将特定颜色或感觉与特定数字联系起来。但对不同的人,感觉也不同,因此这不能被视为数字本身的属性。)
与文字相比,数字化数据使我们与所研究之现象有更加直接且现实的联系,因为数字化数据通常是由测量仪器产生的,与现象的联系比文字更直接。数字直接源自所研究的事物,但单词是由人脑来表达的。当然,如果我们的数据收集程序是由文字介导的(如数据是通过问卷调查收集的),情况则更为复杂,但这一原则仍然有效。虽然测量仪器未必完美,但数据是将这些仪器应用于所研究现象之结果的恰当表示。我有时会通过本章开头的引文来总结这点:数据是测量仪器镜头下的天然证据。
最重要的是,数字对社会进步有着实际影响。过去的几个世纪中,正是文明世界的设备,操控着数字描述的现实表征,引发了令人敬畏的物质进步。
尽管数字只有一个属性,即它们的数值,但我们可以用不同的方式使用该属性。例如,在决定班级学生的功绩顺序时,我们可能会根据他们考试成绩来排名。也就是说,我们可能只关心一个分数是否高于另一个分数,而不必关心具体的数值差异。当我们只以这种方式关注数值时,是在「序数的」维度上使用数据。在另一方面,当一个农民测量他的玉米产量时,他并非简单地想了解他今年的产量是否超过了去年,他还想知道他收获了多少:玉米的实际产量。毕竟,它将以此为基础在市场上销售。在这一情况下,农民其实是在把自己玉米的产量与一个标准量,如一吨,这样他就可以说出自己玉米的产量了。其中隐含的,是农民将玉米的产量与一吨玉米重量进行比算。因此,当我们以这种方式使用数值时,是在「比率的」维度上使用数据。请注意,在这种情况下,我们可以选择更改基本的测量单位:我们可以计算磅或千克,而不仅是吨。只要我们说出了我们使用了什么单位,那么其他人都很容易转换成他们常用的单位。
在另一种情况下,我们可能想知道有多少患者对药物会产生副作用。如果副作用太大,我们可能希望将药物撤出市场,因为风险很高。在这种情况下,我们只是对离散的、明确定义的单位(患者)进行计数。通过更改单位来重新缩放没有意义(没必要考虑「一半患者」的数字!),此时是在「绝对的」维度上使用数据。
简单的概括统计
虽然简单的数字构成了数据的要素,但为了使它们有用,需要查看它们之间的关系,并以某种方式将它们组合在一起。这就是统计学的来源。后续章节中会讨论数字间比较与组合的复杂方法。此处我们来看一些最直接的方法:本章中,我们不关注不同变量间的关系,而只是看可以从同一变量之测量值的关系中提取的信息与见解。例如,我们可能记录了大学某地申请者的年龄、星团中恒星的光度、城镇家庭的每月支出、将牛群送到市场时牛群的重量等。在每种情况下,都要记录样本集中「对象」的各个记录值。
集合中的值放在一起时,就形成了数值的「分布」(distribution)。概括统计是分析分布特征的方法:数值是否非常相似、是否有一些异常大或小的值、「典型」值是什么样的,等等。
平均值
一个数字集的最基本描述之一是平均值,它是集合中代表值的一种度量。当数字集很大时,对于需要汇总和统计这些数字的场合,平均值的作用非常明显。例如,在一个包含100万人年龄的城市人口数据表中,了解平均年龄对于政府和商业活动来说都非常有用。如果平均年龄是16岁而不是60岁,需要的公共服务显然不同,也会出现不同的销售机会。我们可以通过查看每个具体的数字来概览表格中数字的大小,即年龄大小,但这非常困难。即便每个数字只花一秒钟去浏览,也需要花费270多个小时才能完成这项工作。因此,使用计算机来协助计算平均值是非常有帮助的。
我们需要先澄清我们所使用的「平均」一词的含义,因为它可以有不同的解释。通常来说,「平均」这个词是指算术平均值(arithmetic mean),也被称为平均数。如果我们不明确表示想要使用哪种类型的平均值,那么可能会默认是在使用算术平均值。
在我展示如何计算算术平均值之前,假设有另一张100万个数字的表格。只是,在第二个表中,假设所有的数字彼此相同。也就是说,假设它们都具有相同的值。现在,我们将这两张表格中的所有数字相加,以便确定它们的总数(使用电脑只需要一秒钟)。如果这两个总数相同,那么这一百万个完全相同的数字就会捕捉到第一张表格中的某种本质,也就是说,这一百万个副本加起来与第一张表格的总数相同。这个数字,也就是一百万个副本的总和,被称为算术平均值。
实际上,算数平均值最容易的计算方式就是将第一个表中一百个数字相加后再除以一百万来计算。通常,一组数字的算术平均值是通过将所有数字相加并除以有数字个数来找到的。这里有另一个例子:在一项测试中,一个班级中五个学生的分数分别为78、63、53、91和55(百分制)。总数为78 + 63 + 53 + 91 + 55 = 340。然后,很简单,将340除以5就可以得出算术平均值,即68。如果每个学生的分数都是68的话,我们也会得出相同的结论。
算术平均值有许多吸引人的性质。它总是位于一组数字中的最大值与最小值之间。此外,它是集合中数字的平衡,从某种意义上说,算术平均值与大于它的那些值之间的差之和正好等于算术平均值与小于它的那些值之间的差之和。从这个意义上说,这是一个「中心」值。那些机械主义者可能会想象一组1kg的重物,这些重物沿着一块(失重的)木板放置在不同的位置。每个位置与木板的末端的距离代入集合中的数字。那么平均值所代表的位置,就是可通过在这个位置放一个枢轴来完全平衡整个木板。
平均值是一个统计量,它将我们集合中的所有值汇聚到单一的值上。这意味着它也丢失了一些信息:我们不应该期望通过单一的数来表示一百万个(或者五个,或者任何个)不同的数字而不牺牲什么。下文会详述这一点。但是,由于它是上述数字的中心值,因此它可以是一种有用的概述。我们可以比较不同学校的平均班级规模、不同学生的平均考试分数、不同人的上班时间、不同年份的平均日温等。
算术平均值是一个重要的统计量,是对一组数字的概括。另一个重要的概括是中位数(median)。平均值是一个中枢值,是数字集的中心均衡点,即它和集合中其他数字之差的和。中位数以另一种方式平衡:这个值意味着,数据集中一半数字比它大,另一半数字比它小,就如上文所言之五个学生的分数,从小到大依次为53、55、63、78和91。中间的分数是63,它就是中位数。
显然,如果数据集中有相等的值(例如,数据集由99个0和1个1组成),则情形更为复杂,但这可以克服。无论如何,中位数在某种意义上还是代表值,尽管其不同于平均值。也因为这种差异,我们一般预测它不同于平均值。显然,中位数比平均值更容易计算。我们甚至不需要将任何值相加就可以达到它,更不用说除以集合中的数字个数了。我们所要做的就是对数字进行排序,然后找到中间的值。但实际上,这种计算优势在电脑时代无关紧要:在实际的统计分析中,计算机接管了乏味的算术技巧。
这两个对统计数据的概括值,都具有代表性,在具体的情况下,我们该选择哪个?它们的定义方式不同、组合数值的方式不同,因此很可能会产生不同的值,从而导致基于它们的结论也不同。对这个问题的详细回答超过了本书所欲涵盖的细致程度,但简短的回应是,选择将取决于人们希望回答之问题的具体细节(case-by-case)。
这有一个例子。假设一家小公司拥有五名员工,每个员工位于不同的级别,他们的收入分别为10000美元、10001美元、10002美元、10003美元和99999美元。他们薪水的平均值为28001美元,中位数为10002美元。假设公司又打算招聘5名新员工,每个级别一个。雇主可能会争辩说,在这种情况下,「平均」意味着她必须向新来者支付28001美元的工资,因此这是她在广告中所言的平均工资。但是,对于那些工资高于或低于10,002美元的员工,可能觉得这样并不公平。他们可能会觉得把这个数字放在广告里更诚实。有时需要仔细考虑才能决定哪种措施是合适的。(如果你觉得这个论点是我炮制的,下图显示1994年大罢工之前美国棒球运动员的工资分布。算术平均值为120万美元,但中位数仅为50万美元。)
1994年美国棒球运动员的薪水。横轴显示以百万美元为单位的薪水,纵轴显示每个薪水范围内的人数。
这个例子还说明了极端值对平均值和中位数的相对影响。在上面的薪酬示例中,平均值几乎是中位数的三倍。但假设最大的价值是10004美元,而不是99999美元。那么中位数将是10002美元(一半以上的值和一半以下的值),但平均值将缩小到10002美元。只有一个值的大小会对平均值产生戏剧性的影响,但不会影响中位数。平均值对极端数字的敏感性是有时优先选择平均值的原因之一。
均值和中位数不是仅有的两个代表性概括值。另一个重要的概括指是众数(mode),即在样本中出现最频繁的值。假设我统计特定人群中每个家庭有几个孩子。我可能会发现一些家庭有一个孩子,一些有两个,一些有三个,以此类推。但我可能会发现,很多家庭都有两个孩子,比其他都多。此时,家庭中孩子数量的众数就是两个。
离散值
平均值(例如算术平均值和中位数)是对数字集合的单一数字概括。它们很有用,因为能说明数据集中心值的大小。但是,正如我们在上文所见,单一的数值可能会产生误导。尤其是,单一值可能会大幅偏离数字集中的值。为了说明这一点,假设我们有一百万零一个数字,取值为0、1、2、3、4……1000000。这一组数字的平均值与中位数都是500000。但很明显,这对集合来说不是最具「代表性」的值。在极端情况下,集合中的一个值比平均值(和中位数)大50万,而一个值比平均值(和中位数)小50万。
当我们仅依靠平均值来概括一组数据时,所缺失的是一些表明数据在平均值附近分布有多广泛的迹象。有些数据值是否比平均值大得多?有些是否小得多?还是这些数据都紧紧围绕在平均值附近?以及数据集中的值彼此间有什么不同?对于离散度的测量能解决这些问题,而且与平均值一样,离散度也有很多度量方式。
最简单的离散测量方式是全距(range),即数据集中最大值和最小值之间的差。在上文一百万零一个数字集中,全距是1000000 − 0 = 1000000。在五个员工的例子中,全距是99999 − 10000 = 89999。这两个全距的例子都表明其与平均值有很大的偏差。例如,如果员工的薪水分别为27999,28000,28001,28002,28003,那么平均值也是28001,但偏差范围仅为 4。这就是一幅完全不同的情境,它告诉我们拥有这些新工资的员工之间的收入几乎相同。而前面大范围的例子(89999)则告诉我们存在重大差异。
全距非常好用,并且作为离散度的测量有很多诱人的特征,尤其是其的简洁与可解释性。然而,我们可能会觉得这并不理想。毕竟,它忽略了大多数数据,仅仅基于最大值与最小值。为了说明这一点,我们可以考虑两个数据集,每个数据集由一千个数字组成。一个数据集由一个0、一个1000和998个500组成。另一个数据集由500个0和500个1000组成。这两个数据集的全距都是1000(顺便一说,二者的均值都是500),但它们的特性显然非常不同。仅关注最大值与最小值的全距并不能发现第一个数据集主要集中在均值附近的事实。
这个短处可以通过一个考虑所有值的离散指标来解决。
一种常见的方法是取(算术)平均值和数据集中的每个数字之间的差值,并平方,然后找到这些平方差值的平均值。(平方是为了让差异值为正,否则计算时,正负差异会互相抵消。)如果平方差的结果平均值很小,它告诉我们,平均而言,数字与其平均值相差不大。也就是说,它们不是广泛分散的。这种均方差度量称为数据的方差(variance,在某些学科中,简称为均方偏差)。用五个学生的例子来说明,他们的考试成绩分别是78、63、53、91和55,他们的平均成绩是68。第一个得分和平均值之间的平方差为 (78 − 68) 2 = 100,以此类推。差值平方的总和为 100 + 25 + 225 + 529 + 169 = 1048,因此,差值平方和的均值为1048 ÷ 5 = 209.6,即方差值。
方差涉及平方这一事实让情况更复杂了一点。这意味着方差本身是以「平方单位」来衡量的。如果我们用吨玉米来衡量农场的生产率,则值的方差以「吨平方」为单位来衡量。而这个单位没什么意义。因此,再给方差开平方的做法很常见。这样能将单位改为初始单位,并产生称为「标准差」(standard deviation)的离散值。在上面的例子中,学生考试成绩的标准差是209.6的平方根,也就是14.5。
标准差克服了我们用全距识别离散度的问题:它利用了所有数据。如果大部分数据点非常紧密地聚集在一起,只有几个偏离点,这就意味着标准差很小。相较之下,如果数据点之间差异过大,即使它们有着相同的最大值与最小值,标准差也会大得多。
偏度(Skewness)
离散度的测量告诉我们数字之间有多少偏差,但是没有告诉我们偏离的方向。特别是,其没告诉我们较大的偏差是偏向数据集中较大的值还是较小的值。回想一下之前五个员工的例子,其中四名员工的年薪约为10000美元一年,另一名则是他们的十倍。离散度的测量(例如标准差)会告诉我们数值相差很大,但不会告诉我们其中一个值比其他值大得多。实际上,这五个值——90000、89999、89998、89997和 1——的标准差与之前五个值完全相同。不同的是,反常值(1元) 现在非常小,而不是非常大。为了检测这种差异,我们需要另一种统计值来概括,该统计值可以计算出来,并能衡量价值分布的不对称性。数据集中分布的一种不对称性叫做偏度,我们以最初的员工工资为例(一个异常大的值为 99999)是右偏的,因为值的分布有一个很长的「尾巴」,延伸到单个最大值99999。这样的分布有许多小的值,但较少有大的值。相反,上面给出的值分布(其中1为异常值)是偏斜的,因为大部分值都聚在一起,并且有一个长尾向下,延伸到单个很小的值。
右偏分布非常常见。财富分配就是典例,大部分人都是穷鬼,只有少数人拥有数十亿美金。上图中棒球运动员的工资分布就严重偏斜。
分位数(quantile)
平均值、离散值和偏度值提供了整体的概括性统计,将分布的数据浓缩为几个便捷的数值。但我们可能只对分布中的一部分感兴趣。例如,我们可能只关心数据集中最大或最小的5%的值。我们已经考虑了中位数,即数据集中间的值,50%的值较大而另50%的值较小。这个想法可以进一步推广。例如,一组数字的上四位分数是使25% (即四分之一)的值较大的值,而下四分位数是使得25% 数据值较小的值。
这进一步产生了十分位数(将数据集划分为十分之一,从最低的十分之一到最高的十分之一)和百分位数(将数据划分为一百份)因此,某人可能被描述为得分高于第95个百分位数,这意味着他处于分数集的前5%。通常,诸如四分位数、十分位数、百分位数等,都被统称为分位数。