三亿四千两百万分之一的概率数字在六年间先后被提交给三个法庭，每次都被接受——法庭应该如何构建才能评估高度技术性的统计证词，而当前的对抗性专家证人模式是否系统性地有利于能够提出听起来最有把握的专家的一方？

Share your theory in the discussion section below.

路西亚自愿承担艰难班次和寻求危重患者的特点——反映专业奉献精神的行为——在她被捕后被重新解读为险恶动机的证据：法医调查中是否存在一个结构性问题，同样的事实根据已经形成的调查假设，既可以支持有罪也可以支持无辜？

Share your theory in the discussion section below.

反对路西亚出庭作证的专家、制作有缺陷的概率计算的统计学家，以及在不充分基础上建立案件的检察官，在她被无罪释放后均未面临任何职业后果——这种免于问责的状态告诉我们推动错误定罪的机构性激励机制是什么，这些激励机制又应如何改变？

Share your theory in the discussion section below.

三亿四千两百万分之一：将路西亚·德贝尔克送入牢狱的统计谎言

定罪她的那个数字

2003年，荷兰一家法庭认定路西亚·德贝尔克犯有谋杀海牙朱莉安娜儿童医院四名患者及一起谋杀未遂罪。定罪在很大程度上建立在一个单一数字之上：三亿四千两百万分之一。

这是法庭指定统计学家计算出的概率——一名护士纯属巧合地出现在如此多「可疑」事件中的概率。这个数字具有极大的分量。它听起来科学。它听起来精确。它暗示着近乎确定的罪行。在法庭上，由专家证人提出，并被缺乏概率推理专业训练的法官接受，它具有证据的表象。

这个数字在几乎所有重要的意义上都是错误的。它是用一种含有根本性逻辑错误的方法计算出来的，这种错误被称为检察官谬误。它依赖于一份在路西亚已被认定为嫌疑人之后才被归类为「可疑」的事件列表——这个分类过程被它本应支持的那种怀疑所污染。统计学家回答的问题——这名护士出现在如此多事件中的概率是多少？——并不是法庭需要回答的问题——这名护士造成这些事件的概率是多少？这种区别不是技术性的。这是证据与循环论证之间的区别。

但2003年，在海牙的一家法庭上，这个数字成立了。路西亚·德贝尔克进了监狱。

这位护士

路西亚·德贝尔克1961年生于海牙。她走上护理这条路并不顺畅。她的早年生活十分艰难——经历了财务困境、中断的教育和在多个国家的工作。她有一个女儿。她背负着一份来自青年时期的保密犯罪记录，与暴力或医学毫无关联。

她比大多数人更晚进入护理行业，在1990年代取得资质。2000年代初，她在朱莉安娜儿童医院担任儿科护士，此前也曾在海牙红十字医院和莱恩堡医院工作。根据同事和主管的描述，她认真负责、全身心投入。她以主动寻找困难班次、选择照料病情最危重的患者、不回避护理工作中最艰苦部分而著称。

这一特点——自愿承担最困难的病例、寻求与最脆弱患者的近距离接触——起初并未被理解为一名专注护士的心态。一旦怀疑形成，它就被重新解读为阴险的行为。护理学文献将其称为「英雄护士」综合征，归因于一个假设的医疗工作者亚群，他们伤害患者是为了在抢救时能够在场。到调查人员审查路西亚工作模式时，她的敬业精神已经成了对她不利的证据。

调查开始

导致路西亚被捕的那条链条始于一次单独的死亡。

2001年9月4日，一名叫安珀的婴儿——四个月大，患有严重的先天性心脏病——在朱莉安娜儿童医院去世。这起死亡当时并未被立即列为可疑。但在随后的几周里，一名叫威尔·克鲁恩的病房文员开始审查病房记录，发现了一个统计规律：她注意到路西亚·德贝尔克曾出现在异常大量的抢救和死亡事件中。

克鲁恩不是统计学家。她没有接受过概率或班次数据模式分析方面的正规培训。但她进行了统计，并将统计结果报告给了医院管理层。随后进行了初步内部调查。管理层向警方发出警报。警方找来了专家。

这位专家是法律与统计学教授亨克·埃尔弗斯。埃尔弗斯计算了路西亚出现在她三家医院中被认定为可疑事件的那个数量的概率。这个计算结果根据所审查的计算版本不同，被引述为三亿四千两百万分之一到九十亿分之一之间的不同数字。这种差异本身就应该引起警觉。但这个数字却被当作既定的科学结论对待。

路西亚·德贝尔克于2001年12月被捕。

审判与定罪

第一次审判在海牙地区法院进行。检察机关将统计证据与关于具体死亡和事件的医学证词结合起来，组成了一套案件。一些案件中提交了毒理学证据——声称某些患者在正常治疗记录之外接受了某些物质。医学专家证明，基于他们认为表明外部干预的临床指标，具体的死亡属于可疑死亡。

统计论证贯穿一切。如果纯粹的偶然无法解释路西亚在如此多可疑事件中的出现，那么她的出现就不是巧合。如果不是巧合，她就是原因。推理在没有对推断性跳跃进行有意义检验的情况下，从相关性转向了因果性。

辩护律师对统计方法提出了质疑，但在法庭上有效反驳专家统计证词历来极为困难。辩方的挑战在技术上是有能力的，但在程序上是不够的——没有受过专业训练来评估相互竞争的统计论证的法官，默认了检察方的专家。

2003年3月24日，地区法院认定路西亚·德贝尔克犯有四项谋杀罪和一项谋杀未遂罪，判处终身监禁。

她提出上诉。2004年6月，海牙上诉法院维持了有罪判决——并对其进行了扩展。上诉法院认定她在三家医院犯有七项谋杀罪和三项谋杀未遂罪。终身监禁获得确认。

2004年，荷兰最高法院以与她青少年时期犯罪记录可采性相关的技术性理由将案件发回重审。2006年，阿姆斯特丹上诉法院——在复查案件时——再次确认了六项谋杀罪和一项谋杀未遂罪的有罪判决。

路西亚·德贝尔克已被三家法院三次定罪。统计基础在每个层面都被审查和接受。她身陷囹圄。在案件开始崩塌之前，她将共在狱中度过六年。

注意到问题的统计学家们

对该案统计基础的首次严肃公开挑战不是来自法院，而是来自学术界。

2007年，荷兰统计学家皮特·格罗内博姆发表了对埃尔弗斯方法论的详细分析。格罗内博姆发现了多处错误——不仅是检察官谬误，还有基础事件分类中的错误、预期频率计算中的错误，以及他所描述的对如何在司法鉴定背景下构建概率计算的根本性误解。

检察官谬误在路西亚案中的运作方式如下：埃尔弗斯计算了如果事件随机分布，一名护士出现在这么多事件中的概率。他发现这个概率非常低。法庭将此解读为路西亚的出现是无辜的概率非常低。但这混淆了两个不同的问题。在许多事件中无辜出现的概率与无辜的概率并不相同。一名从事最困难班次、专注于最危重患者、有着照料大量高严重度患者的长期职业经历的护士，在不良事件中的出现率自然会高于在常规病房工作的护士。统计模型在计算任何有意义的概率之前，必须考虑护士的具体工作模式。埃尔弗斯的模型没有做到这一点。

格罗内博姆随后得到其他荷兰统计学家的支持。统计学家理查德·吉尔——他将成为最执着和最公开可见的案件复查倡导者——发表了分析，证明当计算正确进行时——考虑到路西亚的实际班次分布和儿科重症监护中不良事件的基础发生率——她出现的所谓天文数字般的不可能性变得完全平淡无奇。

并行问题是事件的分类。被认定为「可疑」的事件列表是在路西亚成为嫌疑人之后，由知道她是嫌疑人的人，以专门识别与她在场相关联事件为目标来审查记录后汇编的。这不是独立证据。这是循环推理：事件部分是因为路西亚在场而被分类为可疑，然后她在可疑事件中的出现被用来论证她的罪行。

统计论证经过适当审查后什么都证明不了。

医学证据的崩塌

当统计学家开始拆解概率计算时，法医病理学家和医学专家开始重新审查死亡本身。

路西亚·德贝尔克案始终依赖第二根支柱：声称特定死亡显示出非自然原因的临床指标。检察官曾辩称某些患者死于地高辛中毒——即他们在正常治疗记录之外被给予了毒性水平的心脏药物地高辛。其他死亡被归因于吗啡过量或治疗记录之外的其他药物干预。

2007年至2010年间，独立医学专家组重新审查了这些主张。调查结果在方法论上极具破坏性。

地高辛中毒的主张首先得到审查。原始毒理学分析在组织样本中发现了升高的地高辛水平。重新检查发现了多个问题：一些原始样本已降解或存储不当；儿科患者死后地高辛水平因与外部给药无关的自然生理因素而大幅波动，这是已知事实；用于将水平分类为「有毒」的参考范围不一致且记录不完整。

更重要的是，当独立儿科医生和法医病理学家在不知道哪些死亡据称可疑的情况下审查死亡的基础临床记录时，出现了一个惊人的规律：绝大多数死亡都有完全合理的自然解释。这些都是危重患者——患有严重心脏疾病的婴儿和儿童、早产新生儿、患有复杂合并症的老年患者。在儿科重症监护中，死亡并不罕见。它出现在一名与最危重患者一起工作的护士的记录中，本身并不能证明任何问题。

2007年秋，荷兰检察长委员会——荷兰公共检察机关的监督机构——委托对该案进行新调查。以其主席命名的波斯特胡穆斯第二委员会，被赋权审查定罪。委员会的发现直接导致了案件的重新开启。

无罪释放

2008年10月，荷兰最高法院暂停路西亚的羁押，待复查结果。她已在狱中度过了六年。她被释放。

复查过程彻底而有条不紊。独立医学专家重新审查了原始起诉书中指控的每一起死亡和事件。一个由独立统计学家组成的小组审查了统计证据。复查过程并不草率——历时两年。

2010年4月14日，海牙上诉法院宣判路西亚·德贝尔克所有指控无罪。每一项定罪——七项谋杀罪、三项谋杀未遂罪——均被推翻。法庭认定没有可信的医学证据证明任何患者被谋杀。归咎于路西亚的那些死亡，法庭结论认为，是危重患者群体中的自然死亡。统计证据毫无价值。毒理学证据不可靠。

路西亚·德贝尔克自始至终都是无辜的。

她从荷兰国家获得了赔偿。评论人士认为，相对于六年的错误监禁、护理职业的毁灭以及十年的公众污名，赔偿是远远不够的。

她在终于得到清白时已五十九岁。

让她失败的体制

路西亚·德贝尔克案的失败，并非因为某一个行事不端的专家或某一个无能的法官。它之所以失败，是因为每一个接触到它的机构都表现得低于应有的标准。

将案件移交警方的医院管理层，是在没有独立统计审查的情况下，仅凭一名病房文员非正式统计的基础上这样做的。收到移交的警方迅速着手围绕统计证据建立案件，未能对其进行充分检验。检察机关在没有委托独立方法论审计的情况下接受了统计论证的证明价值。三个层次的三个法庭在没有能力评估其有效性的工具的情况下接受了专家证词。支持检察机关医学主张的法医病理学家在一个已经充满怀疑的环境中这样做——他们的结论不是在与有罪推定相隔绝的情况下形成的。

荷兰医学和法律机构——尽管在整个诉讼过程中都存在有所怀疑的合格统计学家和临床医生——直到定罪数年后，才提出案件所需的协调挑战。

此案此后已成为研究刑事法庭滥用统计证据的里程碑式研究案例。理查德·吉尔教授和皮特·格罗内博姆教授对此发表了大量著述。它在欧洲乃至全球各地的法学院和统计系被作为检察官谬误以及法庭无法独立评估的专家证词危险性的最终例证加以讲授。

荷兰政府委托对类似案件进行了全面审查。审查发现了其他可能建立在类似统计或医学证据错误之上的定罪——并非所有这些定罪都得到了重新审视。

后续与悬而未决的问题

路西亚·德贝尔克被无罪释放。她的赔偿已经支付。官方记录是清晰的：她是无辜的，死亡属于自然死亡，统计数据是无效的。

但案件遗留了一些在公开记录中没有完全解决的残余问题。

反对她出庭作证的医学专家未受到任何处分。统计学家亨克·埃尔弗斯因导致她被定罪的计算而未面临任何职业后果。其非正式统计引发这一系列事件的病房文员未被追究法律责任。在一个他们本应更严格检验的统计基础上建立案件的检察官未受到任何制裁。

路西亚在狱中度过的六年——据她本人陈述，那段时间对她的健康以及她与女儿的关系都造成了毁灭性影响——是无法挽回的。对婴儿实施大规模谋杀的三项定罪所带来的公众污名，无论无罪判决多么明确，都无法被完全消除。

也许最令人不安的问题是：究竟还有多少其他路西亚·德贝尔克曾经存在——也许仍然存在——于那些统计证词被不加审查地接受的法庭中，检察官谬误被披上科学语言的外衣，而复杂的概率论证与陪审团或司法小组评估它的能力之间的鸿沟被用来服务于定罪目的的法庭中。

答案——正如法医统计学家自2010年以来反复记录的那样——是：不止一个。

证据评分卡

证据强度

2/10

统计证据在方法论上是无效的，在独立审查中被摧毁；毒理学证据建立在降解样本和有缺陷的参考范围之上；医学证据在没有关于哪些死亡处于怀疑之下的污染性知识的情况下进行审查时崩塌。就实际可用的证据而言，根本不存在案件。

证人可信度

3/10

发起调查的病房文员没有统计培训，在已经形成的假设下汇编了事件列表。医学专家证人在推定有罪的环境中工作，这污染了他们的评估。在没有污染性背景的情况下审查相同证据的独立专家得出了相反的结论。

调查质量

2/10

调查接受了有缺陷的统计分析而未委托独立方法论审查；以循环理由将事件归类为可疑；允许法医医学检查在缺乏有效结论所需的基础临床背景的情况下进行；并产生了三项连续定罪，这些定罪建立在经过适当独立审查后完全崩塌的证据之上。

可破获性

10/10

案件已完全解决——路西亚·德贝尔克于2010年被所有指控无罪释放，死亡被确认具有自然原因。事后来看，「可解决性」是完全解决的得分：每一项被指控的罪行都得到了重新考虑，并被认定不是罪行。没有什么需要解决的，因为没有发生任何谋杀。

The Black Binder分析

错误的架构

路西亚·德贝尔克案首先不是一个关于统计的故事。它是一个关于整个机构生态系统——医院管理层、警察、检察机关和三个相继的法庭——在无需任何个人行为者有意不诚实的情况下，如何能够产生并维持一种深刻不公正的故事。

理解这是如何发生的，需要在追问各层错误如何叠加之前，分别理解每一层的失败。

**分类问题**

案件始于一份事件列表。威尔·克鲁恩的非正式审查产生了一份路西亚出现过的抢救和死亡案例列表。这份列表不是对事实的中立汇编。它是由一个已经形成假设认为路西亚对伤害负责的人汇编的——列表是在这种背景下通过审查记录建立的。确认偏误在任何统计分析开始之前，就已在数据收集层面发生了作用。

一旦列表存在并移交给警察，一个微妙但决定性的认识论错误便嵌入了案件：列表上的事件被称为「可疑」事件。但它们并不独立地可疑。它们因与路西亚相关联而变得可疑。将一个事件分类为可疑，不是对事件临床特征的事前评估；它是路西亚在场的结果。这种循环性污染了每一个后续步骤。

**检察官谬误详解**

亨克·埃尔弗斯的计算问道：如果事件是随机分布的，一名护士纯属巧合地出现在这么多事件中的概率是多少？答案——大约三亿四千两百万分之一——确实很低。但计算回答的问题不是与罪行相关的问题。

相关问题是：鉴于一名护士出现在这么多事件中，她造成这些事件的概率与她的出现可用其工作模式、病例组合及其他非因果性因素解释的概率相比，各是多少？

这些不是同一个问题。埃尔弗斯回答的第一个问题，在假设事件随机分布于护士之间的情况下，告诉你关于巧合稀有性的某些事情。第二个问题——相关的那个——需要了解特定科室不良事件的基础发生率、班次分布、分配给路西亚的患者严重程度，以及在相似条件下处理相似病例组合的其他护士的比较发生率。

这些都没有做到。儿科重症监护室不良事件的基础频率没有得到充分确立。路西亚的具体班次历史没有被用于计算不良事件的预期个人发生率。与其他护士的比较没有控制病例复杂性。结果是一个概率计算，作为对错误问题的回答在数学上是有效的——却被在法庭上当作回答了正确问题来使用。

**医学证据的动态**

医学证词在一个被污染的认识论环境中运作。当法医病理学家和毒理学家被要求审查死亡案例时，路西亚已经是嫌疑人了。涉嫌死亡案例已经被确认。专家们没有被问到「这些死亡案例有什么临床上不寻常的地方吗？」他们被问到「是否有证据表明这些我们认为可疑的死亡是由外部干预造成的？」

这种框架产生了一种特殊的动机推理，它不是不诚实，但也不是独立性。一名以要评估的假设来审查案件的专家——而不是在没有假设的情况下审查证据——会倾向于在模糊数据中找到对假设的支持。在一些案例中发现的升高地高辛水平确实不寻常，但其意义完全取决于背景：该患者群体的正常范围是什么，样本如何储存，死后水平变化存在哪些自然解释？在推定谋杀案的背景下，模糊的实验室结果变成了谋杀的证据。在中立临床审查的背景下，同样的结果变成了需要进一步调查的众多可能发现之一。

当独立专家在不知道哪些死亡据称可疑的情况下审查死亡案例时——这是从一开始就应该使用的、方法论上干净的方法——所谓谋杀的临床标志物大多消失了。

**机构性级联**

一旦医院将案件移交给警察，每个后续机构都在假设其前任已做了充分工作的前提下运作。警方假设医院的移交建立在临床判断的基础上。检察官假设警方适当地评估了统计证据。法院假设检察机关收集了符合证据标准的证据。没有任何机构回到案件的基本原则——原始列表的有效性、统计方法论的可靠性——因为每一个机构都假设之前的机构已经做到了这一点。

这种级联现象并非荷兰或本案所独有。这是刑事司法系统的结构性特征，这些系统通过多个机构顺序处理案件，每个机构都继承前一机构的证据框架。在调查阶段引入的错误向前推进。它们通常不会向后退。

**专家证词的鸿沟**

在最深层，案件揭示了统计和医学专家证词的复杂性与非专业法庭评估这些证词的能力之间存在一种结构性不兼容。法官和陪审员被要求在相互竞争的专家证人之间进行裁判，却没有确定哪位专家是正确的技术工具。在实践中，这意味着他们默认于首先提出证词的专家、资历更为印象深刻的专家，或论证直觉上更有说服力的专家——这些都不是准确性的可靠替代指标。

解决这一问题的方案——任命独立的法庭专家而不是依赖对抗性专家证人，要求专家证词在被采纳前由独立技术小组审查，对概率证据施加方法论标准——自路西亚·德贝尔克案以来已被多次提出。实施一直不一致。潜在的脆弱性仍然存在。

侦探简报

你正在审查一个反向构建的案件——从嫌疑人到证据，而不是从证据到嫌疑人。理解它需要你逐层解开调查逻辑，找出它最初出错的地方。从原始事件列表开始。病房文员威尔·克鲁恩汇编了一系列抢救和死亡案例，并注意到路西亚出现在不寻常数量的案例中。在任何统计分析之前，你需要了解：每个事件是如何被选入列表的？在路西亚的在场被知晓之前，每个事件是否都由临床专家独立评估为具有与自然原因不符的特征？还是路西亚的在场是纳入的主要标准？如果是后者，列表就不是独立证据——而是形式化在电子表格中的循环推理。然后审查统计计算。三亿四千两百万分之一这个数字是通过询问这名护士巧合出现在这么多事件中的概率是多少而产生的。转而问这个问题：在路西亚工作的那些具体班次中，在分配给她的具体患者严重程度水平下，这个特定科室不良事件的基础发生率是多少？当理查德·吉尔使用这些参数重新计算时，所谓不可能的变成了普通的。找到吉尔发表的分析，逐步研究它。接下来，将医学证据与统计论证隔离审查。对于每一起被指控为可疑的死亡，询问如果审查人不知道哪些死亡处于审查中——如果他们审查的是整个病房的死亡率记录而不是精心策划的列表——临床审查会得出什么结论。无罪释放前进行的独立审查正是如此，其结果摧毁了检察机关的医学案件。追踪每起死亡如何在检察机关的框架中从「自然原因」或「未确定」转变为「谋杀」。然后审查关于地高辛的毒理学主张。识别用于将地高辛水平分类为有毒的参考范围。确定原始样本如何储存，以及它们是否在采集和分析之间发生降解。查阅关于儿科患者死后地高辛变化的文献。多名婴儿被地高辛毒害的具体主张是检察机关最强硬的医学证据——也是在独立审查下首先崩塌的。最后，提出结构性问题：在这条调查链中的哪个节点本可以发现错误，由谁发现？答案几乎可以肯定是在统计阶段——如果法庭任命了一名独立统计学家来审查埃尔弗斯的方法论，而不是依赖对抗性专家证词。随后的医学和法律失败是一个概率错误的下游后果，直到法律程序之外的学者在六年后介入时，这个错误才得到适当的挑战。

讨论此案件

三亿四千两百万分之一的概率数字在六年间先后被提交给三个法庭，每次都被接受——法庭应该如何构建才能评估高度技术性的统计证词，而当前的对抗性专家证人模式是否系统性地有利于能够提出听起来最有把握的专家的一方？
路西亚自愿承担艰难班次和寻求危重患者的特点——反映专业奉献精神的行为——在她被捕后被重新解读为险恶动机的证据：法医调查中是否存在一个结构性问题，同样的事实根据已经形成的调查假设，既可以支持有罪也可以支持无辜？
反对路西亚出庭作证的专家、制作有缺陷的概率计算的统计学家，以及在不充分基础上建立案件的检察官，在她被无罪释放后均未面临任何职业后果——这种免于问责的状态告诉我们推动错误定罪的机构性激励机制是什么，这些激励机制又应如何改变？

来源

特务理论

登录后分享你的理论。

No theories yet. Be the first.