牛津通识读本·统计学
Statistics: A Very Short Introduction
作者:David J. Hand | 译者:H. J. Hsü
本书适合完全不了解统计学的小白获取一些初级认知。书中没有数理分析,但这些基础介绍对自学统计学也很有益处。 查看详情
通识作品
牛津通识·统计学



无处不在的统计学
那些说「谎言,他妈的谎言和『统计学也他妈的是谎言』」的人,我总是用弗雷德里克·莫斯特勒的话回怼——「用统计学说谎很容易,但不用统计学说谎更容易」
To those who say 「there are lies, damned lies, and statistics」, I often quote Frederick Mosteller, who said that 「it is easy to lie with statistics, but easier to lie without them」.

现代统计学

我想这个论断会让许多读者吓一跳:统计学才是最令人兴奋的学科。我写这本书就是为了告诉你,并说明这个论断是正确的。我希望祛除一些对统计学本质的无知,并告诉你它在当代是什么样子的,以及说明它所拥有的无限可能和无处不在的身影。

尤其在这个导读章节中,我有两点要说。第一,是肯定该学科过去几十年的革命发展。我想介绍一下统计学是如何从一门了无生趣的维多利亚时代的学科转化为一门高度复杂精密的现代技术的。过去,它是对数字序列的手工操作,但现代技术则涉及最先进的软件工具。我想说明,今时今日的统计学家是如何用这些工具来探测数据,以寻找其中的结构与模式,以及如何用这种技术来剥离掉神秘和模糊概念而揭示底层的真相。就像望远镜、显微镜、X射线、雷达和医学扫描能使我们看到肉眼看不见的东西一样,现代统计学使我们能够看穿我们周围世界的迷雾和困惑,抓住潜藏的现实。

所以这是我想在这一章中传达的第一件事:现代学科的巨大力量和令人战栗之处,它来自哪里,它能做什么。我希望传达的第二点是统计学的普遍性,现代生活的方方面面都受到了它的影响。现代医学建立在统计学的基础上:例如,随机对照试验被描述为「最简单、最有效、最具革命性的研究工具之」。理解瘟疫传播的过程可以减少它们对人口的影响。有效的政府依赖于对描述经济和社会的数据进行仔细的统计分析:也许这就是为什么所有的政府官员都应该参加强制性的统计课程。农民、食品技术专家和超市都会下意识地使用统计数据来决定种植什么、如何加工以及如何包装和分销。水文学家通过分析气象统计数据来决定建造多高的防火堤。建构计算机系的工程师可以使用可靠的统计数据来确保它们不会时不时的崩溃。空中交通管制系统建立在复杂的统计模型上,实时工作。尽管你可能没有意识到,但统计思想和统计工具确实隐藏在现代生活的各个维度中。

一些定义

一个关于统计学的不错定义是,它是从数据(data)中提取意义的技术。然而,任何定义都不是完美的。需要注意的是,这个定义没有提到机遇(chance)和概率(probability),但它们是很多统计应用的支柱。因此,另一个可行的定义大概是,统计学是处理不确定性(uncertainty)的技术(technology)。然而,其他定义,或者说更精确的定义,可能会更加强调统计所扮演的角色。因此,我们可以说,统计学是「预测未来」或「对未知事物作出推断」或「从数据中挖掘合适规律」的重要学科。总的来说,这些定义囊括了学科的本质,尽管不同的应用可能会提供不同的表现形式。例如,决策、预测、实时监测、人口普查和基因序列分析都是统计学的应用,但它们需要的方法和工具则各不相同。关于这些定义,需要注意的是,我特地选取了「技术」(technology)这个词,而不是「科学」(science)。技术是科学及其发现的应用,这就是统计学所呈现的:应用我们对如何从数据中提取信息的理解和对不确定的理解。然而,统计学有时候会被视为一门科学。事实上,最权威的统计杂志之一就叫做Statistical Science(《统计科学》)。

到目前为止,在本书中,尤其是前面的段落中,我在谈论作为学科的统计学。但是,「statistics」这个词还有另一层意思:它是「统计」(statistic)的复数形式。统计是指一个数字上的事实或总结。例如,对某些人口数据的总结:可能是人口数量、出生率或犯罪率。所以某种意义上说,本书是个体的数字上的那些事实。但从一个非常真实的角度来说,它远不止于此。它还涉及如何从这些数字事实中收集、处理、分析和推断事物。它包括着技术本身。这意味着,想从本书中找到数字表格(如「体育统计」)的读者会失望。但是,希望了解企业如何决策、天文学家如何发现新的恒星、医学研究人员如何识别特定的涉病基因、银行如何决定是否提供信用卡、保险公司如何决定保费成本、如何建构垃圾邮件过滤器来组织淫秽广告进入你的电子邮件箱等问题的读者将会有所收获。

以上解释了为什么「统计学」既可以是单数名词也可以是复数名词:有一个学科是统计学,但也有许多数字是统计学。

「统计学」这个词的讨论到此为止。我的第一个定义也使用了「数据」这个词。「数据」一词是拉丁语「datum」的复数,意为「给予的东西」,源自「dare」,意思是「给予」。因此,人们可能会认为它该被视为一个复数词:「这些数据很差」和「这些数据表明」,而不是「这个数据很差」和「这个数据表明」。但是,英语语言会随着时间的推移而变化。如今,「数据」被视为一个单数,例如,「水is湿的」而不是「水are湿的」。我个人倾向于在任何特定的情况下采用那些听起来好听的表达。通常,在我听来,这意味着坚持复数用法,但偶尔也会空耳。

数据通常是数字:测量、计数或其他量化处理的结果。我们可以认为这样的数据是对我们所研究的各类事物的简化表达。如果我们在研究学生,尤其是他们的学术能力和对不同职业的适应性,我们可能会选择参考他们在各类测试与考核中获得的成绩。这些分数暗示着他们的能力与喜好。诚然,这种描述并不完美,考得差很有可能只是因为考试期间闹肚子了。一个缺失值并不意味着他们能力不够,而很可能是因为他们没能参加考试。下文我会介绍更多关于数据质量的信息。这非常重要,因为「差的数据源导向差的结果」原则(该原则贯穿我们的一生,而不仅仅体现在统计学中)。统计学家可以从数字中提取惊人的意义,但他们不能创造奇迹。

当然,许多情况下似乎不会直接产生数字数据。许多原始数据会以图片、文字或电子讯号与声音讯号之类的形式出现。因此,农作物或雨林覆盖率的卫星图像、对药物副作用的口头描述以及说话时的声音似乎都不是数字。但是,进一步思考就会发现,当这些东西被测量和记录时,它们会被转换成数字表示,或可以自转化为数字表示。例如,卫星图片和其他照片被数百万个称为像素的小元素表示,每个小元素都根据组成它的不同颜色的(数值)强度来描述。文本可以被转化为单词计数或单词与短语之间相似性的度量;这是网络搜索引擎(如Google)使用的模式。口语由构成语音各个部分的波形的强度表示。尽管并非所有数据都是数字的,但大多数数据在某个阶段都可以被转换为数字形式。大多数统计数据都是在处理数字数据(numerical data)。

谎言、他妈的谎言和澄清事实

本章开头引用了「谎言,他妈的谎言和『统计学也他妈的是谎言』」,这句话有人说源自马克·吐温,也有人说源自本杰明·迪斯雷利,或者其他人。还有一些人也说过类似的话,比如:「就像梦一样,统计是一种希望的形式」(让·鲍德里亚:《冷记忆》,第4章);「对统计学的崇拜尤为不幸,使平庸的骗子的工作变得更加容易」(汤姆·伯南:《错误信息的词典》,第246页);「统计学是带有数字的『哄骗』」(奥黛丽·哈贝拉和理查德·鲁尼恩:《常见的统计》,第3页);「法律诉讼就像统计数据。如果你会操纵它们,你可以证明任何东西 」(亚瑟·海利:《机场》,第375页)等。

显然,人们对统计数据多有质疑,可能还有对统计方法的质疑。承然,统计学家多是小心谨慎的角色,甚至是坏消息的传播者。在研究场域中工作的统计学家,例如在医学院或社会中工作的统计学家,可能不得不向其他研究者解释为什么数据不足以回答相关问题,或者简单点说,答案不是他们想听到的。从研究者的视角看,这可能是不幸的,但是指责统计信使有点不公平。

许多时候,质疑是因为有些人在选择性的使用统计数据。如果有不止一种方法来总结一份数据,都稍有侧重,那么不同的人可以选择不同的总结方式。典例就是犯罪统计。在英国,也许最重要的犯罪统计数据来自英国犯罪调查项目(the British Crime Survey)。其通过询问被抽样调查的人在过去一年中,他们是哪些犯罪的受害者来估计犯罪水平。相比之下,记录的犯罪统计数据集包括警方记录在案的所有犯罪行为。据其定义,这不包括某些轻罪。当然,更重要的是,它不包括那些一开始就没有向警方报告的罪行。有了这种差异,难怪两组统计数据之间的数字可能会有所不同,甚至在某种程度上,根据一组数字,某类犯罪似乎在随着时间的推移而减少,但根据另一组数字却在增加。

犯罪统计数据也说明了质疑统计数据的另一个潜在原因。当某个特定的计量值被用作系统性能的指标时,人们可能会选择针对该计量值进行操作,牺牲系统其他部分来提高其价值。然后,所选择的计量值不会成比例地增加,且作为系统性能的计量变得无用。例如,警察可以通过集中所有资源来降低入店行窃的案件量,而代价是允许其他类型的犯罪上升。结果,入店行窃率作为犯罪率的指标变得毫无用处。这种现象被称为「古德哈特定律」,以英格兰银行前首席顾问查尔斯·古德哈特 (Charles Goodhart)的名字命名。

所有这些的重点在于,问题不在于统计数据本身,而在于对这些统计数据的使用,以及对统计数据如何产生及其真正含义的误读。也许对不了解的事物持怀疑态度是很自然的。那么解决办法就是消除不理解的情形。

另一个质疑的原因是从根本上产生的,这是科学进步的本质后果。因而,我们可能某天在报纸上看到一项科学研究,它似乎表示某种食物对我们有害,但第二天它又是有益的。这自然会造成混乱,科学家不值得信任,因为他们可能不知道答案。这些科学调查不可避免地大量使用统计分析,所以一些质疑就被转到了统计身上。但是,科学进步的本质就是新发现改变了我们的旧理解。过去,我们认为饮食中的脂肪对我们有害,但进一步的研究表明,可能存在不同种类的脂肪,一些是有益的,另一些是有害的。这幅图景比我们最初想的要复杂得多,所以最初的研究导致了矛盾和明显矛盾的结论也就不足为奇了。

质疑的第四个原因是对基本统计学入门上的错误认识。作为练习,读者可以尝试下列陈述的可疑之处(答案在本书背面的尾注之中)。

1)我们在一份报告中读到,对疾病的早期诊断会让人活得更久,因此筛查计划是有益的;
2)我们被告知,对于符合条件的客户,规定的价格已经降低了25% 折扣,但是我们没有资格,因此我们必须支付比规定价格多的25%;
3)根据过去100年的增长进行的简单推断,我们听说下个世纪的预期寿命将达到150岁;
4)我们被告知,「从1950年后的每一年,被枪杀的美国儿童人数都增加了一倍」;

有时,误解不是由基础的,或者说至少是由相对深刻的统计概念引起的。如果经过一个多世纪的发展,统计中没有一些反直觉的思路,那将是令人惊讶的。其中之一就是检察官的谬论(Prosecutor’s Fallacy)。它描述了如果你有一些证据(例如,被告在犯罪现场的手套)且某事是真的可能性(例如,被告是有罪的),与如果你假设被告是有罪的且找到证明证据的可能性之间的混淆。这是一个常见的误解,不仅在法庭上发生,我们将在后续更仔细的研究它。【译者注:具体来说比如小明上个月买了一张乐透彩票,很幸运地中了头彩。结果他被检察官约谈,理由是被怀疑收买内部员工。检察官的论据是,大乐透头彩的中奖机率只有约一千四百万分之一,所以小明只有一千四百万分之一的机率是无辜的。】

如果对统计数据有质疑,显然责任不在于统计数据或它们的计算方式,而在于这些统计数据的使用。指责整个学科,或进行分析的统计学家是不公平的。相反,责任在于那些不理解数字在说什么,或者故意滥用结果的人。我们不会因为谋杀而责怪枪支:我们会指责开枪的人。

数据

我们已然看到,数据是建立统计学科的原料,也是个人统计数据本身的原材料,这些数据通常是数字。然而,事实上,数据不仅仅是数字。数字要有用,即能进行一些有意义的统计分析时,就必须与某些含义相关联。例如,我们需要知道测量值,即我们在计数时计的到底是什么。为了在进行统计分析时产生有效且准确的结果,我们还需要了解这些数字是如何被获取的。我们问的每个人都填了问卷的答案,还是一部分人?如果只有一些人回答,他们是否具有代表性?还是样本被以某种方式扭曲了?例如,我们的样本是否不合比例地排除了年轻人?同样,我们需要知道患者是否退出了临床实验,以及数据是否是最新的。我们需要知道测量仪器是否可靠,或者它是否对真实值超过阈值时有所标识。我们可以假设护士记录的脉搏率是准确的,还是只是一个粗略的值?类似的问题还有很多,我们要警惕任何可能影响我们结论的因素。否则,上述的这些怀疑是完全合法的。

看待数据的一种方法是把它当做证据。没有数据,我们关于周边世界的想法与理论只不过是猜测而已。数据提供了将我们思维和理论与现实联系的基础,并使我们能够验证并测试这些理解。然后使用统计方法将数据与我们的思想和理论进行比较,以了解匹配的效果如何。如果匹配效果不理想,这就使得我们重新思考自己的想法,以便使之更好地匹配实际观察的结果。但也许我应该在这里插入一个警告,即糟糕的匹配也可能是数据质量的问题。我们必须警惕这种可能性:我们的理论可能是合理的,但我们的测量仪器可能不够好。但是,总之,观察到的数据与我们理论所预测的数据之间的良好匹配,可以使我们确信我们处在正确的轨道上。它向我们保证,我们的想法确实反映了正在发生的事情的真相。

这其中隐含的是,为了有意义,我们的思想与理论必须产生预测,我们可以将其与我们的数据进行比较。如果他们没告诉我们应该观察什么,或预测足够笼统以至于任何数据都符合我们的理论,那么这些理论就没多大用处:任何理论都可以。精神分析和占星术因此而受到批评。

数据还使得我们能够在复杂世界中摸索自己的道路——就采取最佳的行动而做出决定。我们进行测量,计算总数,并使用统计方法从这些数据中提取信息,用以描述世界的运行模式,思考我们应该做什么使之按照我们的意愿行事。这些原则由飞机自动驾驶系统、汽车卫星导航系统、经济指标(如通胀率和GDP)、重症监护病房的患者监测以及复杂社会政策的评估来说明。

鉴于数据的作用是将我们对周围世界的观察与我们对世界的看法和理解联系起来。因此,描述数据以及从中提取意义的技术并不遥远,它是现代文明的基石。这就是为什么我在《信息生成》(Information Generation)一书采用「数据如何统治我们的世界」的副标题。(参见推荐阅读)

更广义的统计学

尽管可以把统计学上溯到我们所喜欢的任一时点,但统计学科本身真的只有几个世纪的历史。英国皇家统计协会(the Royal Statistical Society)于1834年成立,美国统计学会(the American Statistical Association)于1839年成立。世界上首个统计系于1911年在伦敦大学开设。早期统计学有几条支柱,最终合并成了现代学科。标准之一是对概率的理解,这可以上溯到17世纪中叶,这实际上源自赌博问题。另一个是测量很少没有错误,因此需要一些分析来从中提取合理的结论。早些年,这在天文学中尤为重要。另一个问题是政府逐步使用统计数据来管理自己的国家。事实上,也是这种用法引出了「统计」一词:关于「国家」的数据。(State-Statistics)。现在,每个发达国家都有自己的国家统计局。

随着时间的发展,统计学学科经历了几个阶段:首先,在19世纪结束前,其特点都是对数据表达力的探索;随后,在20世纪前半叶,该学科逐渐数学化,以至于许多人将其当做数学的一个分支(它难道不是处理数字的么?)事实上,大学里的统计学家基本都在数学系。20世纪后半叶,随着计算机的出现,这使得处理数据从单调乏味变得激动人心。计算机抹去了对从业者必须掌握特殊计算技巧的要求——他们不用再花费无休止的时间进行数字操作。这类似于从步行到开车的变化:以前需要几天的旅程现在几分钟就可以完成;本来太长而无法考虑的旅程现在变得轻而易举了。

20世纪的后半叶也看到了其他数据分析流派的出现,它们并非源自古典统计学,而是来自计算机科学这样的领域,包括机器学习、模式识别和数据挖掘。随着其他学科的发展,不同流派和统计学之间的关系有时会变得紧张起来。然而,事实是,不同流派的不同观点都有助于数据分析。考虑到这一点,我在本书中采用了「统计」的广义定义,即著名统计学家约翰·钱伯斯(John Chambers)对「更广义的统计」(Greater statistics)的定义。他说:「更广义的统计学概念很简单,即与从数据中学习(learning from data)相关的一切,包括从最初的规划或收集到最后的演示或报告。」试图定义不同数据分析学科之间的界限既无意义又徒劳无功。

所以,现代统计学不是计算,而是调查。一些人甚至将统计数据当作科学的方法。虽然如上文所言,我们可以在大学数学系中找到许多统计学家,但在医学院、社会科学院(包括经济系)和许多其他领域(从工程到心理学)中也能找到他们。大学之外,许多人在政府和工业部门工作,包括制药部门、市场营销、电信、银行和其他领域等。许多经理都依靠统计技能来辅助解读他们部门、公司、生产、人事等数据。这些人不是操控数学符号和公式,而是采用统计工具和方法从证据和数据中获得信息。在此过程中,他们要考虑各种非数学问题,如数据质量、数据收集、发现问题、发现更宏观的目标(如理解、预测、决策等)、考虑决策的不确定性程度等许多其他问题。

我希望上文已然说明,统计数据无处不在,因为它适用于各行各业。这与统计学本身的发展相互影响——因为统计方法适用于新领域,这些领域的特殊问题导致了新的统计方法与统计工具的开发。然后,一旦新方法与新工具被开发出来,就会进一步扩散到其他领域,如此往复。

一些例子:

e.g. 1 垃圾邮件过滤

「垃圾邮件」是一个术语,用于描述自动发送给许多收件人(通常是数百万收件人)的未经许可的批量电子邮件。这些邮件里往往是令人反感的广告信息,它们可能是骗子的幌子。其中内容包括债务合并提议、致富计划、万能灵药、股市建议和可疑的性诱惑之类的东西。他们的基本原则是,如果你给足够多的人发邮件,就可能有人对你的提议感兴趣或采纳。除非这些邮件来自某些组织所特别要求的信息,否则大多数邮件都不会有人感兴趣,也没有人想浪费时间阅读和删除它们。这就体现了垃圾邮件过滤器的作用。这些计算机程序会自动扫描传入的电子邮件并确定哪些是垃圾邮件。我们可以设置过滤器以便程序能自动删除垃圾邮件,并将其发送到某个文件夹以便日后检查,或采用其他适当的操作。对垃圾邮件的数目有各类估计,但在撰写本文时,一个估计值是每天发送的垃圾邮件超过900亿条——由于这个数字在逐月快速上升,截止您阅读本文时可能会大大增加。 有各种拦截垃圾邮件的技术。一些非常简单的方法是检查消息中的关键词。例如,如果消息里有「viagra」则可能会被拦截。但垃圾邮件检测的一个特征就是,它是一场军备竞赛。一旦幕后黑手意识到他们的消息被特定方法加以阻止,就会寻求解决策略。例如,他们可能会故意将「viagra」拼写为 「v1agra」或「v-iagra」,以便在收件人能够识别的同时,绕过机器的审查。 更复杂的垃圾邮件检测工具则利用统计模型分析垃圾邮件中的单词内容。例如,他们可能对垃圾邮件中出现的特定单词或单词组合的概率进行估计。那么,一个包含很多高风险词汇的消息就十分可疑。更为复杂的工具则是利用一个单词在一个序列中跟随另一个单词的概率来建立模型,从而检测可疑短语与词群。还有其他的方法,如使用图像的统计模型来检测电子邮件图片中的肤色等内容。

e.g. 2 莎莉·克拉克案(the Sally Clark case)

1999年,年轻的英国律师莎莉·克拉克因谋杀她的两个小儿子而被审判定罪,并被判处无期徒刑。她的第一个孩子于1996年去世,仅11周大;第二个孩子于1998年去世,仅8周大。该判决成为误读和滥用统计数据的代名词,当时的儿科医生罗伊·梅多爵士(Roy Meadow)担任检方的专家证人。其声称两名儿童同时猝死的概率为1/73, 000, 000。他通过简单地将两人死亡机遇相乘得到这个数值。这样做很可能因为他对基本统计数据的无知。他完全忽略了这样一个事实,即一个家庭中这类死亡之间很可能存在着更高的关联性[而不是相互独立的]。 对过去数据的研究表明,在像克拉克这样的家庭中,随机选择的婴儿猝死的概率约为1/8, 500。如果一个人假设这类死亡的发生不会影响另一个死亡的可能,那么两个均为猝死的概率确实是1/8, 500乘1/8, 500,也就是说,其为1/73, 000, 000。但是这里的假设过于理想,对过往数据更为细致的统计结果表明,事实上,第二个孩子猝死的概率会随着第一个孩子猝死的概率而增加。计算结果表明,其实,在英国这样的国家中,每年会存在几起这样的多人死亡。婴儿死亡研究基金会的网站说:「尽管婴儿猝死在同一个家庭中发生两次是非常罕见的,但偶尔会发生遗传性疾病,例如代谢缺陷,这可能会导致多个婴儿意外死亡。」 在萨利·克拉克案中,有更多证据表明她是无辜的。最终发现,她的第二个儿子患有已知细菌的感染,容易导致婴儿猝死。克拉克女士随后在2003年的上诉中获释。不幸的是,她于2007年3月去世,享年42岁。海伦·乔伊斯(Helen Joyce)的一篇出色文章以及书末的推荐阅读中列出的网站上提供了有关这种可怕的误解和滥用统计数据的更多详细信息。

e.g. 3 星团

随着我们深入探索宇宙能力的提升,我们发现,天文物体倾向于以分层的方式聚集在一起,这样恒星就形成了集群,恒星集群本身会聚集成更高级别的集群,并会依次聚集。特别是,我们自己的星系就是一个星团,是约三十来个星系的本聚群的组成部分,而这些又是本超星系团的组成部分。在最大的尺度上,宇宙看起来很像泡沫,由位于巨大空旷区域边缘的超星团构成的丝状物质形成了这些泡沫的结构。但这一切是怎么被发现的呢?即使我们使用强大的望远镜从地球上看出去,我们也只能看到满是繁星的天空。答案是梳理出这种聚类结构,并真正首次发现它,需要统计技术。一类技术包括计算每颗恒星与其最近的几颗恒星之间的距离,具有比偶然预期更多的恒星位于局部密集区域——即本地星系团。 当然,还存在更多考虑。星尘云会遮蔽远方物体的视野,而这些星辰云在太空中不是均匀分布的。同样,只有在离地球足够近的情况下,才会看到暗物质。从地球上看到的一个细小的星系条形结构可能是一个超密集的星团,等等。这些需要应用复杂的统计校正,以便我们可以从物体的表面分布中辨别出潜在的真相。 了解宇宙的结构有助于了解它是如何形成的,以及它未来的发展。

e.g. 4 制造化学品

前文已经说过,尽管统计学家可以做出些惊人之举,但并不能创造奇迹。尤其是,其结论的质量受到统计数据质量的约束。鉴于此,一些重要的统计子学科与如何收集数据有关就毫不为奇了。这些将在第3章中讨论。这些分支学科之一是实验设计。实验设计技术用于可以控制或操纵正在研究的某些「变量」的情况。实验设计这个工具能使我们从给定的资源中提取最大的信息。例如,在生产特定的化学聚合物时,我们可以将化学反应的温度、压力和时间设为所需的任何值。这三个变量的不同值将导致最终产品的变化。问题是,这些值集的最佳值是什么? 原则上,这些问题很容易回答。我们只需要制作不同批次的聚合物,并取不同的变量值。这使我们能够估计「响应面」,显示每组三个变量值的聚合物质量,然后我们可以选择最大化质量的特定三元组。 但是,如果生产过程是这样的,每一批都需要几天才能生产出来,那该怎么办呢?为了找出最佳方案,制造许多这样的批次可能并不现实。例如,生产100批,每个批次需要3天,这就需要大半年的时间了。 幸运的是,巧妙设计的实验让我们能够从少得多的精心选择的数值集中提取相同的信息。有时,一小部分批次就能产生足够的信息,让我们确定最佳的一组值,前提是这些批次选择得当。幸运的是,巧妙设计的实验使我们从筛选的少量数据集中获取相同的信息。有时,只要选择合适,少量批次就可以为我们提供足够的信息来确定最佳值集。

e.g. 5 客户满意度

为了有效地运营零售商,使之成为一个专业公司,且随着时间的推移而增长,需要我们仔细考虑客户以及他们手里的产品或服务。如果不这样做,就意味着他们会去找能提供这些东西的竞争对手。这里的底线是,收入下降意味着失败。我们可以通过搜集客户用脚投票之前的满意度来避免相关情况。我们可以调查客户满意度并询问他们是否对产品或服务感到满意,以及会用何种方式加以改进。 乍一看,要获得能反映整个客户群的可靠结论,就必须对所有客户进行问卷调查。但这显然是一项昂贵且耗时的工作。然而,幸运的是,有些统计方法可以从客户样本群中获得很准确的结果。事实上,结果有时甚至比调查所有客户更加精准。不用说,这类实践要很小心。必须警惕基于扭曲样本的结论:如果只采访那些花费了大笔资金的用户,得出的结果对描述客户群的行为毫无意义。再次强调,我们已经开发了很多统计方法,能使我们避免此类错误,并得出有效的结论。

e.g. 6 检测信用卡欺诈

并非所用的信用卡交易都是合法的。交易欺诈使得银行和银行的客户都付出了代价,因此,检测和预防欺诈都相当重要。本书的许多读者都有银行致电检查自己有没有进行过某项交易的经验。这些电话就是统计模型所做的预测,它们描述了合法客户的行为。如果行为与这些模型预测的不同,那就表明有可疑的事情值得调查。 实践中有各种各样的模型。有些只是基于行为模式本身的性质:如在相隔很远的位置同时使用一张卡。其他模型则更为精细,基于人们的交易习惯,例如他们日常交易的花费、网点与产品等。 当然,这些预测模型不可能是完美的。信用卡交易模式往往很多元,人们会突然购买某些从未购买过商品。此外,只有一小部分交易是欺诈性的,大约只有千分之一。这使得检测尤为困难。 检测和反欺诈是一场持续的斗争:当一条欺诈途径被制止时,欺诈者往往不会转行去合法的行业,而是转向其他欺诈方法,因此需要不断开发新的统计模型。

e.g. 7 通货膨胀率

我们对这套说辞都很熟悉,即东西随着时间的流逝而越发昂贵。但我们如何将今天的生活成本与昨天的相比呢?为此,我们要比较两个日期的同一物品的价格。不幸的是,实际情况远为复杂:不同的商店对同一商品定价不同、不同的人购买不同的商品、同一个人会改变他们的消费模式、新产品出现、旧产品消失等。在确定如今的生活是否更昂贵时,我们如何考虑此类变化? 统计学家和经济学家建构了零售物价指数(the Retail Price Index)和消费物价指数(the Consumer Price Index)等指标来衡量生活成本。这些概念基于人们消费的(数百种)商品的概念「篮子」,通过调查来发现其中各商品的价格。复杂的统计模型适用于不同项目的价格组合,以生产一个可以随时间对比的总数字。这些指标除了作为通货膨胀率的标准外,还用于调整税收起征点,以及与之挂钩的工资、养老金等。

总结

对于未经受过系统培训的人来说,这可能不易理解,但统计学和统计方法是科学发现、商业运营、政府、社会政策、制造业、医学和人类其他事业的核心。进而,随着世界的发展,其作用越发重要。例如,新药品的研发一直有法规要求统计人员的参与,在银行业也存在类似的事情,即新国际协议要求设立统计风险模型。显然,鉴于其关键的作用,任何受过教育的公民都应了解基本的统计学原则是很重要的。

现代统计学使用复杂的软件工具来检测数据,让我们进行如同20世纪早期探险家的探险之旅一样,对新兴且令人激动的领域的探索。这种认知对于欣赏现代学科尤为重要,即真正的统计数据是对未知事物的探索,而非繁琐的算术操作。

推荐阅读

  • A. R. Jadad and M. W. Enkin, Randomised Controlled Trials: Questions, Answers and Musings, 2nd edn. (Malden, Massachusetts: Blackwell Publishing, 2007).
  • Joel Best, Damned Lies and Statistics: Untangling Numbers from the Media, Politicians, and Activists (Berkeley: University of California Press, 2001).
  • John Chambers, Greater or lesser statistics: a choice for future research, Statistics and Computing, 3 (1993): 18–24.
  • Helen Joyce, Beyond reasonable doubt, Plus Magazine (2002).
  • http://www.plus.maths.org/issue21/features/clark/index.html Accessed 31 Jan. 2024.