800名科学家Nature联名发文主张废除P值,研究数据统计大变天?围观各路大神怎么看

发布时间:2020-01-13 10:16     文章来源:未知     作者:百替生物

 

 
 

一般来说,我们的学术研究需要统计学意义来证实数据在实验/对照组的差异。统计显著性和p值由于标准明确、计算方便逐渐成为衡量科学研究可靠性的重要标准。

2019年3月《Nature》发布了一篇主张废除P值的文章,并获得了800多位科学家的支持,其中不乏量化和统计学领域的重要人物。此文一出,瞬间引爆整个学术圈,有赞同,也有质疑,研究数据统计是否就此变天?看看他们怎么说......

 

Nature发文:反对P值一刀切

 

在这篇Nature杂志官网发表的篇名为《科学家们起来反对统计学意义》(Scientists rise up against statistical significance)的封面文章中,学者Valentin Amrhein,Sander Greenland和Blake McShane提出,如果没有这个概念可能会更好。他们希望“统计学显著”这个概念应该退出历史舞台,要求将“统计显著”这个词从统计学中去掉,他们的观点得到很多人的支持。

 

 

一直以来,前人的经验告诉我们,统计学上无显著性的结果并不能“证明”零假设。事实上,统计上显著的结果也没有“证明”某些其他假设。这种误解用夸大的观点扭曲了文献,而且导致了一些研究之间的冲突。

 

这种对“统计显著性”的二元化标准的严重依赖,可能导致对医学和社会科学新发现的真实性信心不足甚至丧失。因此,三位统计学家提出一些建议,让科学家们不至于成为这些误解的牺牲品:

 

一、首先明确必须停止的事:永远不应该仅仅因为P值大于阈值(如0.05)就得出“没有差异”或“没有关联”的结论;或者,仅仅因为置信区间包含0就得出这样的结论。

 

二、我们也不应该断定两项研究之间存在冲突,只因为其中一项研究的结果具有统计学意义,而另一项则没有。这些错误浪费了研究工作,误导了政策决策。

 

三、当区间估计包含严重的风险增加时,得出结论认为统计上不显著的结果显示“无关联”是荒谬的;同样荒谬的是,声称这些结果与先前研究中显示相同观察效果的结果相反。然而,这些常见的实践表明,依赖统计意义上的阈值会误导我们。

 

 

仁者见仁  智者见智

 

该文一出,关于是否废除P值,活跃在社交平台的学者们相继表态,赞同者不在少数,但也并非所有人都认为应该取消“统计显著性”的概念和p值。

 

赞同者

 

 

《Cell》主编Eric Topol公开发言: A call to retire statistical significance:  when >800 scientists say enough is enough, "The tool has become the tyrant". (呼吁放弃统计学意义:当800多名科学家说受够时,“该工具已成为暴君”

 

部分国内学者赞同观点:

 

 

反对者:

 

 
斯坦福大学教授约翰·约阿尼迪斯(John Ioannidis)就对Nature这篇文章表达了明确的质疑,并撰文总结了与该文作者Sander Greenland和Blake McShane的商榷内容。他认为,设立一定的门槛是有必要的,如果没有“统计显著性”作为界限,那么几乎任何结果都可能会发表,“无可辩驳的废话”将会占据统治地位。
 
Dr Anop Kulkami 认为这个工具还没有成为暴君,我们仍然需要这个工具,它不应该落在审稿人手中,而审稿人则将其作为文章接收的把控标准。
 
部分国内学者反对观点:
 

 

质疑者:

 

 
Dr Jacob van Etten 通过推特表示:我同意“我们呼吁停止以传统的二分法方式使用P值来决定结果是否反驳或支持科学假设”,但这并不意味着P值应该被“拒绝”
 
部分国内学者质疑观点:

 

 

争议30年,定论何在?

 

对P值的争议,其实早已开始。1988年,一篇《The end of p value?》就对其提出质疑。

 

 

2016年,针对p值的过分强调,美国统计学会(ASA)发布了一个关于统计意义和p值的声明,但是,这只是份声明,并无实际操作空间。

 

 

2017年7月,《Nature》就把显著性水平从P<0.05降到P<0.005对受访者进行调查时,发现表示支持的比例竟高达69%。

 

2019年,800多位科学家联合署名废除P值登上《Nature》头条。

 

此后,几个大杂志期刊也没有闲着,纷纷加入p值的谈论当中。

 

 

从1988年的《The end of p value?》到如今的Nature头条《Scientists rise up against statistical significance》,30年的争议,到现在都还没有一个大家都认可的定论,那么,这些关于p值的争议是源于哪,是科学研究进展的需要,还是p值本身?

 

走在十字路口的今天,对于p值的讨论也愈发激烈。一方面,p值仍然被一些研究者错误地作为衡量临床效应大小的标准,而事实上两者并没有什么一一对应的关系;另一方面,样本量对p值的影响极大,对于拥有几十万级别以上的样本量的研究而言,获得一个p<0.05的结果也恐怕也只是走个流程。

 

小编有话说

 

废除P值的出发点是利于科研工作者正视研究中所有不确定因素的存在,从而时刻保持怀疑和思考,将精力放在思考如何控制不确定因素、如何设计更严谨的研究方案、如何有效落实研究方案、如何确保数据质量、如何把研究结果和早期研究结果相联系做进一步的合理解释(而不是如何造出P<0.05的结果),并保持开放和谦逊,公开所有的结果,了解并清楚认识到研究自身的局限,接受同行的评议。

 

许多高分期刊已经开始慢慢进行不彻底的改革,在文章中不再提“认为P<0.05具有统计显著性”,不再报告P值水平,而使用点估计和区间估计来替代,或是用贝叶斯因子来替代。

 

出发点虽好,但是具体操作起来难度很大。首先就是各杂志社编辑们的审稿难度大大增加,因为废除了“统计学显著性”之后,要求编辑们对某一领域背景知识要非常的了解。其次,由于文章的生杀大权落在编辑们的手上,主观性也会相对增加。此外,完全摆脱统计学意义和预设的、经过仔细考虑的阈值,有可能使谬论变得无可辩驳。

 

关于是否废除P值,短期内或许不会有一个统一的结论。您会支持还是反对?

本文整理自nature、丁香园等,如有侵权请联系删除

本期服务顾问

咨询在线QQ

服务热线

400-611-2850


服务和特性

价格和优惠

扫微信咨询我们