原文作者: Philipp Koellinger, Christian Roessler, Christopher Hill
贡献者:xinyang@DAOrayaki.org
审核者:DAOctor@AOrayaki.org
原文: Why We Need To Fundamentally Rethink Scientific Publishing
“现有的学术期刊系统已经千疮百孔。这篇文章我们讨论了潜在的解决方案,包括我们需要什么样的期刊,以及web3技术带来的新的可能。”
科学哲学家David Deutsch指出,科学的目的是发现关于世界的解释知识,这些知识既是真实的(即可复现的和普遍的),又是“难以改变的”(即产生非任意的解释,可以通过实证手段验证,而不需要依赖于权威和教义)¹。
证实、批评以及提出新的解释和发现都依赖学术期刊。对于绝大多数领域来说,在著名的学术期刊上发表论文,可以赋予科学工作以合法性,吸引全世界研究人员的注意,为未来的研究获取资助者的资助,并且对于科学家找到工作和获得晋升都至关重要。
这样看来,顶级学术期刊已经成为科学合法性的守门人。但是,在顶级期刊上发表论文,真的与做好科学工作是一回事吗?如果不是,是否有一个更好的、现实可行的解决方案?
我们相信是有的。在这个系列中,我们将审视当前的学术生产体系,并描述由此产生的结构性问题,同时也将探讨web3技术如何使我们能够建立一个新的体系来解决这些问题。
作为排名和评价工具的学术期刊
在当前的学术生产模式下,科学家需要不断提供其“生产力”的证据,以促进其职业发展(即被雇用或晋升),获取未来研究资助,因为雇主和资助机构使用这样的评价过程。
这种评价过程中的问题在于,评价者并没有时间充分参与每个科学家所做的研究。仅仅彻底研究一位科学家以前的所有工作就可能需要几天、几周甚至几个月。
这对评价者来说不切实际,哪怕你再勤奋善良。于是,评价者不得不依靠启发式方法,以便更容易评估科学家的工作成果,如科学家发表了多少篇经同行评审的论文,以及是否在顶级期刊上发表。
因此,在学术期刊上发表文章是当前科学家的关键绩效指标。这一指标已经成为不同领域的科学研究被评价和排名的黄金标准。一些期刊被认为比其他期刊更有声望(即更难进入),所以这些期刊对科学家的职业生涯影响更大,同时也为研究结果本身增加了含金量。
学术期刊的编辑也因此在科学界具有很大的影响力。正是他们决定哪些投稿属于他们的范围,并且“足够好”,可以进行详细的评估,而且是由他们来最终决定接受或拒绝投稿(根据收到的同行评审意见)²。
这里是Publon在2018年对同行评审系统现状进行的一个很好的总结。值得注意的是,大多数同行评审是匿名的(即作者不知道他们的评委是谁),即使文章被接受发表也一样。这意味着评审过程缺乏责任人,这一学术生产关键过程中是否存在争权夺利、马虎、武断和利益冲突,则无人知道。此外,期刊的审查过程通常很慢,需要几个月或几年的时间才能出版,而且往往有很多针对期刊的各种投稿要求,如格式要求,在浪费科学家的时间,他们要投稿不同的期刊,直到最后找到一个出版渠道。
学术期刊在科学家的职业生涯中起着关键的把关作用,但期刊选择或拒绝文章的方式通常不对公众透明。不仅效率低下,而且不负责任。此外,期刊还决定了公众在什么条件下可以获得他们采纳的文章。对绝大多数期刊来说,发表的文章要么藏在付费页后面,要么就需要支付大量的出版费(如果文章开放),这些数千美元的费用必须由作者或其雇主支付。我们下面将进一步讨论期刊的这种商业模式。
引文和影响
衡量学术出版物的重要性和质量(其 "影响力")的一个流行指标是其被引用的次数。一篇文章被引用的次数越多,它就被认为对某一领域的科学论述越重要。引文很容易计算和比较,因此很快成为判断科学家是否成功的定量启发式方法。这极大地激励了科学家把增加引文本身作为目的。
但获得大量的引用并不等同于进行良好的科学研究。用引文作为“影响力”代表的一个问题是,科学工作需要时间来传播和积累引文。平均来看,科学论文在发表后的2-5年内达到引用高峰。⁶ ⁷这使得使用引用次数来评估科学家最新工作的影响几乎是不可能的。资助者和机构需要在一项发现的引文生命周期结束之前做出分配决定(“长期信用”),而引文数量需要几年时间来积累,所以他们使用了一个更直接的方式(“短期信用”):用期刊声誉来判断科学家最新工作的影响。在许多领域,如果一个科学家没有在“顶级期刊”(即那些被认为是最有声望和最难进入的期刊)上发表过至少一篇或几篇近期的文章,几乎不可能被聘用或晋升。
影响因子⁸是衡量期刊声誉的代表,它衡量过去两年中发表的文章的年平均引用次数。期刊声誉和影响因子是一个指标,根据设计,这些指标集合了所有在期刊上发表的论文的声誉,而不考虑其具体论文质量和影响。但是,期刊内部的引文分布通常是高度倾斜的——一本期刊中大约一半的论文占到期刊总引文的85%。⁵ 由于在同一期刊上发表的文章在引用模式上的巨大差异,期刊的影响因子只能粗略地代表期刊内发表论文的质量和重要性。⁹ 此外,小型期刊的影响因子可能会因为收录一篇或几篇迅速积累大量引文的文章而波动巨大。
不同领域的期刊影响因子也有很大差异,部分原因是特定领域的引文文化和一个学科的绝对规模,但也与期刊规模和被计算的出版物类型(如信件、社论、新闻条目、评论)有关。⁶ 因此,期刊的影响因子部分是由与其发表的文章质量无关的方面驱动的。
影响因子指标最初并不是为了作为期刊质量的代表而使用的。它最早由Eugene Garfield设计,图书馆管理员采用它来帮助决定订阅哪些期刊。⁸由于它已经成为期刊声誉的重要组成部分,以营利为目的的订阅期刊从此学会了利用各种策略来优化其影响因子,来从中获利。
当一个指标被作为目标优化时,它往往就不再是衡量真正关注的对象(即学术出版物的质量和重要性)的好指标了。¹⁰ 科学家们一直是影响因子的接受方,也经常发出谴责,但还是不得不采用这一规范,因为机构只能以此评判学术生产力。尽管人们一再呼吁放弃将期刊影响因子作为衡量学术界和机构学术生产力的标准,但它仍然是最广泛使用的衡量标准,部分原因是人们对应该使用何种替代措施缺乏共识¹¹²。
带来的后果就是,知名期刊已经学会了管理他们的文章组合,就像人们分散押注不确定的市场一样。从本质上讲,编辑们是根据某篇文章未来预期产生的引用次数来对论文下注;这种组合产生的引用次数越多,影响因子就越高,这反过来又能推动收入。
但是,著名期刊一旦获得这种声望,也会成为市场推手:因为它们在学者和记者的注意力经济中拥有很大的 "市场份额",在它们那里发表的文章可能会获得更多的引用,从而产生飞轮效应,巩固现有期刊的收益,使它们极难被取代。因此,高影响因子的期刊很可能比发表相同质量文章的另一期刊获得更多的引用,从而使影响因子离一个有用的衡量标准更远了。
在目前的激励结构下,创新性胜过可重复性
实证结果的独立重复对于科学界寻求更好解释世界如何运作至关重要。¹³ ¹⁴ 如果结果无法复现,一项新颖的发现可能是错误或捏造的,只能依赖某人的权威而不是客观证明。不幸的是,在学术出版物的声望等级中,可重复的得分远不如创新和令人惊讶的结果高。例如,只有3%的心理学期刊明确鼓励提交重复研究,而许多期刊则明确表示他们不发表重复研究¹⁵。
因此,科学家们几乎没有动力去产生可复现的研究结果。相反,他们面临的是一种“不发表就灭亡”,甚至是“无影响就灭亡”的文化,这种文化以新颖性和影响力为基础,决定了他们在学术界的成功。¹⁰使用引用率和影响因子作为衡量学术生产力的核心问题之一是,它们没有考虑到已发表研究的可重复性。新颖的、令人惊讶的和具有颠覆性的结果更有可能得到关注和引用,因此受到编辑和期刊的追捧——尽管新颖的和令人惊讶的发现也更可能是假的。
可重复性与常用的绩效指标脱钩,导致许多科学领域出现了严重的可重复危机。¹³ ¹⁶ ¹⁷ ¹⁸ ¹⁹ ²⁰ 科学家们产生新颖的、吸引眼球的结果的动机是如此强烈,已有许多彻头彻尾的数据操纵和欺诈案例见诸报道。²¹ ² ²³此外,糟糕的研究设计和数据分析,以及研究人员在分析数据时的自由度,都鼓励了虚假发现。¹³ ¹⁶ ²⁴ 最近对社会科学领域的高影响力论文进行的大规模复现研究发现,只有约60%的原始结果可以被复现。¹⁷ ¹⁹ 超过70%的研究人员曾试图复现另一位科学家的实验,但没有成功,超过一半的人没有重复自己的实验。
更糟糕的是,不可重复的研究往往比可重复的研究被引用得更多,²⁶而在强烈矛盾的重复结果之后,论文的引用模式只作了适度的调整。由于这种支持创新性而反对可重复性的偏见,科学工作并没能有效地自我纠正。由于发表的文章中的引文只是向后看(即它们只反映以前发表的文献中哪些部分被引用),文章的读者几乎无法确定一项研究的新发现是否可复现和值得信赖。期刊也有动力不为复现提供便利,因为成功的复现并不新颖,不足以获得大量的关注(即影响和引用),而不成功的复现则会破坏期刊的质量保证声明。
在技术附录中,我们更详细地探讨了期刊编辑选择新颖性和反对重复现有结果的研究的动机。作为对比,我们提供了一个能使整个研究事业价值最大化的“理想”标准。在一个理想的学术评估体系中,重复,尤其是最初几次重复,将获得明显更多的权重。
目前,将可重复性与影响力分开,缺乏对现有工作进行重复的激励措施,以及缺乏对重复结果进行“前瞻性”观察的激励措施,这些都导致了今天许多学术领域的不稳定状态。¹⁶ 从根本上说,目前奖励科学家发表尽可能多的“高影响力”研究的做法与科学工作的目标,即找到可靠的解释之间存在着脱节。
然而,尽管有其固有的缺陷,著名的期刊和学术机构仍然在这种模式下运作,而科学家们几乎别无选择,只能配合,因为他们的职业前途主要取决于此。
学术期刊的商业模式
传统学术期刊要求作者将版权转让给出版商。版权是一种知识产权,赋予其所有者复制创造性作品的专有权,从而为版权所有者创造垄断权力,使作品货币化。学术出版物市场主要由五家大型营利性公司(Elsevier、Black & Wiley、Taylor & Francis、Springer Nature和SAGE)主导,它们共同控制着50%以上的市场。²⁸全世界学术论文使用权的销售额超过190亿美元,这使得学术出版业的收入介于音乐产业和电影产业之间。
出版公司的两种主要商业模式是“付费获取”和“付费出版”。这两种模式都依靠科学家无偿的同行评审,这相当于科学家向出版业捐赠了数十亿美元,出版社利用公共资金或研究人员的私人时间来提高利润,并剥夺了科学家进行高质量评审工作的应有的公平回报。
在付费获取模式中,期刊向个人和机构(如大学图书馆)收取订阅费。每份期刊的年度订阅费用通常为数百美元,获取单篇文章的费用通常在20美元至100美元之间。
大学、图书馆和政府等机构订户得到的是捆绑式“交易”,其中往往不仅有出版商排名最靠前的期刊,还有大量小众或低影响力的期刊,这些旗杆如果不是因为捆绑,订户可能不会付费购买。这种利用市场支配地位来捆绑商品的做法,是一种强有力的反竞争策略。³⁰ ³¹ ³² 通过在一笔交易中占据图书馆的大部分预算,在位者可以保护自己的市场不受新来者的竞争。
这种模式下的期刊订阅对公共资金造成巨大负担。³³例如,英国在2014年花费了5230万美元用于年度期刊订阅,³⁴而荷兰在2018年为其公立大学订阅一个大型出版社(Elsevier)的期刊支付了超过1400万美元。尽管大量公共资金用在期刊订阅,但为大部分研究和期刊订阅费提供资金的纳税人却无法获得自己税收所支持的学术文章。
在“付费出版”模式中,作者为他们发表的每篇文章支付费用。与“付费获取”模式不同的是,这些文章是根据开放获取协议发表的,通常公众可以在线获取。不同期刊和文章类型的出版费各不相同,典型的出版费在2,000美元至11,000美元之间。³⁵ 科学家要么从研究预算中支付这些费用,要么自掏腰包,要么依靠雇主(如大学)来支付费用。“付费出版”期刊的总数和市场份额每年都在增长。³⁶ ³⁷
“付费出版”模式的核心是一种不正当的激励机制:文章的作者只有在稿件被接受时才付费。这意味着,每拒绝一篇稿件,期刊就会损失一笔钱。因此,开放获取的期刊需要放宽筛选限制,以维持商业模式。虽然开放获取期刊降低了知识获取的门槛,而且许多期刊都是善意的、高质量的,但这个模式导致了低标准的劣质期刊在世界范围内的流行,为几乎没有价值的研究打开了大门。³⁸ ³⁹ ⁰ ⁴¹
因此,我们的学术评价系统陷入了两难境地:一边是以订阅为基础的出版商控制着发行渠道,他们是顽强的、不可动摇的,强有力地提取纳税人缴纳的税款。他们的严选的旗舰期刊让他们有能力进行捆绑交易获利。在另一头,开放获取模式以数量取胜,使劣质出版商在全球范围内崛起,大量虚假的、不可靠的、甚至是剽窃的报告,伪装成科学文献。
最后,“付费获取”和“付费出版”两种模式都将来自底层机构的绝大多数科学家和发展中国家的人民排除在科学参与之外,从而加剧了不平等,限制了进步和发展的机会。
近年来,我们见证了免费替代方案的兴起:预印本平台,如bioRxiv、medRxiv或SSRN,它们允许科学家在网上发布其手稿的早期版本。这些预印本平台效仿物理学家依靠Arxiv在圈子里分发自己工作成果的做法。与此类似,经济学家也依赖NBER等工作文件平台,主要是因为在知名的经济杂志上发表文章往往需要多年时间。然而,预印本和工作论文没有经过同行评审,往往与最终发表版本大相径庭,或者根本没有被需要同行评审的期刊接受发表。因此,非专业的读者很难/不可能评估他们能否相信这些渠道的内容。正如我们在COVID疫情中所看到的,预印本平台,尤其是在医学领域,可能被滥用于传播错误信息和不可靠的科学研究。
总之,目前的学术出版生态系统具有高度的剥削性和不公平性:它限制了科学进步和发展的机会;它有利于目前学术出版社的寡头垄断及其股东,却牺牲了公众的利益。虽然预印本平台作为一种学术期刊的替代品,但它缺乏同行评审的严谨性,更容易成为错误信息的来源。
Web3技术如何为未来带来希望
历史上技术创新使我们生产和分享知识的能力得到了巨大的改善。这方面的例子包括印刷术的发明(它使大规模存储和传播知识成为可能),科学设备的发展和改进,互联网(它使人们能够立即在全世界范围内访问计算机程序、数据库和出版物),以及能够快速处理大量数据的超级计算机。
最近的一波浪潮是web3技术,该技术实现了互联网的去中心化版本,其基础是越来越多的公开可用、防篡改记录的对等网络,允许大规模的协作。Web3是对web2的中心化、不透明、数据篱笆原则的有力背离,web2是注意力经济,也是Facebook、Google等公司成功的基础,也是寡头垄断的学术出版商的专有、垂直整合的平台。
与此相反,web3的核心前提是将所有权广泛地分配给用户,以及通过分布式账本技术构建无需信任、抗审查的执行代码。随着web3越来越多被采用,应用程序也越来越多,我们开始好奇,精英期刊是否可以重构为web3上的科学合作。
在web3上重构目前的学术出版模式的好处是,它将根据贡献大小,使科学家能够在数百万美元的学术出版业务中获得股份。如果能成功做到这一点,它将从实质上解决当前集中模式下出现的一些挑战和问题。虽然技术上可行,但它很可能会遭到在位者的反对:主要的出版商坚决反对所有权,认为这是一条不可逾越的红线,他们宁可让编辑们集体辞职,也不愿意开这样一个危险的先例。
除了把科学家创造的价值还给科学家之外,web3还为新的合作模式、激励制度和支付手段提供了技术能力。正如我们在DeFi上看到的那样,金融业正面临着可编程货币(“乐高货币”)崛起的压力。去中心化的自治组织DAO正在以越来越快的速度出现,从金融服务提供商(如MakerDao)到数字艺术投资集体(如PleasrDAO)。Web3正在涌现出激进的实验,例如通过二次方募资(如Gitcoin)、去中心化的身份管理DID、去中心化的存储解决方案(如IPFS、ARWEAVE、Filecoin)、自我托管的集体钱包(如Gnosis),以及蓬勃发展的DAO工具包生态系统(如Aragon、Commons Stack)。
更重要的是,将匿名身份与学术声誉绑定的可能性,为我们在一个完全开放、透明的科学评价系统中保护评审员的身份提供了新的视角。在web3中,我们可以以一种防篡改和可审计的方式,将一个匿名身份与真实的、高价值的科学工作贡献挂钩。通过将“技能证明”系统与匿名相结合,我们可以创造一个科学生态系统,既可以促进公开辩论,又可以减少偏见。
web3精神的核心是将世界去中心化,实现更多基于贡献的价值和所有权的分配,并恢复个人对其财务、数据、贡献和身份的主权。现在各种构件已经具备,学术期刊作为DAO有诸多好处,可以把创造的价值回馈给社区。
在Web3应用于科学的领域,一些先驱者已经开始行动。现在已经有了一个生态位系统,VitaDAO是一个Web3项目的例子,它将世界上一些伟大的长寿研究实验室聚集在一起,为他们的研究提供资金,并对由此产生的知识产权拥有权益。其他项目,如ResearchHub,正试图通过类似Reddit的社会机制,对科学工作进行众包策划。
我们所面临的问题是全球性的,人类的未来在很大程度上取决于我们的科学引擎是否有自我纠正、证伪、批评和向真理靠拢的能力。David Deutsch在他的书说,只要这些核心属性得以保持,人类就已经踏上了走向无限进步的起点。不幸的是,有经验证据表明,在过去的几十年里,科学进步一直在稳步减速,每投入一美元,随着时间的推移,产生的社会回报越来越小。这一趋势令人担忧,一个可能的解释是,新发现越来越难了。⁴⁵但可重复危机和劣质出版也表明,我们的学术验证机制的运转出了问题,这是科学回报率下降的一个原因。
以正确的方式结合起来,web3技术可以转变并大幅改善我们的科学合法性授予引擎,同时将科学家创造的价值还给科学家。
技术附录
学术期刊基于智能体黑盒来预测稿件价值
为了改进目前的出版体系,最好能定义一个目标函数,说明期刊应该选择什么文章,以使出版物对知识创造的贡献最大化。基于这样的目标函数,可以对不同的选择机制进行比较,并对其促进知识创造的能力进行排名。这就是我们现在试图做的事情。
作为第一步,我们可以将期刊概念化为一个预测管道,旨在根据预期价值对科学工作进行分类和分级。期刊评价过程中的每个参与者关于是什么构成了有价值的科学,都有自己的世界模型。参与者可能同意也可能不同意他们所认为的有价值的科学。而且,通常情况下,审稿人和编辑都不会明确说明他们的个人评价标准是什么。让我们把这些潜在的异质性世界模型称为“黑盒子”。
在学术出版过程的每个阶段,这些黑匣子都会产生信号,这些信号被组合成一个由编辑提出的最终预测。只要预期的科学价值超过了某个期刊的设定标准,稿件就会被接受出版。如果没有达到标准,稿件将被拒绝或被邀请重新提交,前提是评审员的要求能够得到彻底解决。
机器学习框架:学术期刊作为集成学习
目前大多数学术期刊可以被视为一个3阶段的预测过程,它结合了来自不同黑盒算法的预测。在机器学习中,这被称为集成学习。集成学习是将不同的预测算法结合起来,以提高预测的准确性。⁴⁶⁴⁷编辑(一般是资深科学家)会进行初始预测("案头"),构成对预期科学影响的初步过滤。通过“案头”后,论文就进入了下一阶段,也就是把论文发给同行评审员。评审人对该工作的预期科学价值进行自己的预测。在最后阶段,编辑将这些信号与自己的信号进行权衡和汇总,形成自己的最终预测。
基于智能体的框架:努力和真相是防止噪音、串通和破坏的必要条件
在一个理想的世界里,每一个参与的黑盒子都 a)花费最大的努力,b)如实报告其预测结果。之所以需要前者,是因为这些世界模型的应用成本很高:评估方法的合理性和结论的合理性所需的详细和细微工作是一个耗时的过程。每一份提交的材料都是一个高维度的输入,需要从多个维度进行分解和评估,以确定其预期的科学影响。如果扩大不够格的努力,预测就变成了噪音。
如果不报告真相,我们就会遇到无端的把关风险。同样,作者和同行评审员之间也有串通的威胁,互相提供夸大的评论。噪声、破坏和串通是现代学术期刊同行评审过程的三种失败模式,只有通过努力和诚实才能避免。这是一个特别尖锐的问题,因为同行评审员(往往还有编辑)为出版社无偿工作,而提供努力的评审几乎没有任何好处。
学术期刊的正规化
在抽象的意义上,我们可以认为研究工作是通过提供新的证据来确定一个假设的真实性,这些证据理想上是非常有说服力的(但事实上可能不是这样)。研究贡献的质量(Q)取决于我们学到了多少东西(L),即这些信息在多大程度上提高了我们对假设的信心,以及该假设对整个科学事业的重要性(V)。也就是说,Q=V∙L。
鉴于我们现有的知识基础,新知识的价值取决于其潜在影响,以及从这些潜在影响中获得的收益,例如新发明。这些东西很难观察。即使是有类似资格的评审员和编辑也可能在一定程度上对什么是V有不同意见,这受限于他们对当前知识的主观理解,他们判断未来影响的技巧和想象力,以及他们对哪些问题最需要解决的看法。我们预设存在有意义的真正的V,而科学工作的评估者要去“猜测”它。一般来说,能力越强越可能有更好的猜测。
我们可以参照贝叶斯规则来理解我们学到了多少东西,P(Y|X)=P(Y)∙P(X|Y)/P(X),其中P(Y)是结果Y发生的先验可能性,而P(Y|X)是后验可能性(当数据中条件X成立时)。P(Y|X)衡量的是X包含Y的推断强度,我们用R表示。P(X|Y)/P(Y)衡量的是当结果为Y时,观察到条件X的可能性有多大。我们定义P(X|Y)/P(X)=1+I,所以I=0反映了X在有Y或没有Y的情况下一样可能发生,因此对条件X的研究没有学到任何东西。(这里我们假设X和Y之间的正向关系正在被检验,即I≥0。这并不丧失一般性,因为Y总是可以被重新标记为相反的结果,使负向关系成为正向关系。)
贡献的质量现在可以表示为Q=V∙(R-R/(1+I)),其中V是能够预测结果Y的(预测)价值,R是Y对条件X的依赖程度,I则是我们对Y的信念因这项研究而发生的变化。请注意,R和I都对Q有正面影响,而且Q≤V。当没有学到任何新东西(I=0),或当条件不能预测结果(R=0),或当预测结果不相关(V=0)时,那么Q=0。请注意,对先前结果的重复可以是一种质量贡献,因为它可能大大增加对假设的支持,特别是当它是最早的几个重复之一。
一个有趣的,而且可能是常见的情况是,当一篇论文报告了令人惊讶的结果,有可能改变范式,但结果却变成了假的。通常来说,在这种情况下,Q可能小于零,因为一个有影响力的错误结果可能会造成巨大的损失,不仅是科学家浪费的时间和精力,还要考虑到社会的福祉。例如,不可重复的临床试验会给病人和社会带来间接成本。此外,在虚假发现的基础上进行的未来研究不仅可能浪费资源,还可能使科学进步误入歧途。
当贝叶斯模型出现错误时,证据并不能证明结论的正确性。如果假设是错的,条件和结果之间的关系实际上是负的(I<0),但被错误地报告为正。那么L=R-R/(1+I))<0,这将使贡献的质量Q为负。
如果我们把科学进步当做一个线性过程,正的Q值意味着新发现对科学进步做出了某种积极贡献。一个错误的发现不仅可能对我们的知识没有贡献,而且实际上可能增加混乱和熵,导致科学倒退。然而,编辑可能会误判了Q而发表这样的论文。
学术期刊的既定目的是发表能促进知识发展的论文(Q>0)。在这一点上,区分期刊应该如何审稿以促进知识发展(即规范性案例)和期刊在实践中的实际表现(即描述性案例)是很有意义的。
在规范的情况下(即理想的世界),期刊的预测算法应该试图识别具有高Q值的论文。这一点很复杂,因为贡献的真正价值本来就很难评估,并受到主观见解和偏好的影响。此外,评审员和编辑需要努力确保所作分析的客观和有效,但他们这样做并没有得到奖励。
我们将用Q,R)来表示预测的稿件质量,其中素数表示估计数量。评审员和编辑不一定会根据贝叶斯模型来评估Q,而可能会采用主观的权重。V和I'原则上可以更客观地确定,但要把它们弄对是很费劲的,所以这个任务主要留给评审员。评审员做出报告m,其准确性取决于努力e∈0,1。一般来说,m(e)=t+ρ∙(1-e),其中t是真实值,是一个围绕零对称(如正态)分布的随机变量。注意,努力越大,潜在误差ρ∙(1-e)越小。
在一个典型的过程中,某编辑,i = 1,对投稿进行第一次筛选。如果编辑认为提交的论文通过了某个最低限度的门槛,那么它就会被送出去进行正式评审,这个门槛会受到编辑对新颖性、可重复性等相对偏好的影响。如果论文被编辑送出进行正式评审,评审员也会对其进行类似的评估,他们同样对不同的考核角度给予不同的权重。
然后,编辑对评价进行总结,得出对论文的最终决定。如果估计的质量高于期刊门槛,该论文下一步可能被要求修改然后重新走流程,最终被拒绝或发表。
期刊编辑面临的一些不利因素,往往使他们偏好于创新性,反对重复。争议性的或其他引人注意的结果会在其他研究人员试图验证它时获得引用。如果通过引用实现声誉最大化是一个目标,那么期刊不激励和奖励重复性工作就是合理的,尽管它们是科学事业的一个重要组成部分。重复工作的困境是,他们“不有趣”或“不可信”。如果一项重复性研究证实了原来的结果,或者否定了一个最近发表的、尚未广为人知的结果,那么它可能不会被视为值得注意的。如果它未能证实一个众所周知的结果,它将可能面临质疑。此外,如果只有否定的重复工作才足够“新颖”,可以在知名期刊上发表,那么研究人员在尝试这样的研究时就会面临很大的风险(以及偏见),因为重复结果可能是积极的。
这些方面表明,文章的“估计质量”将基于不符合贝叶斯学习框架的权重,并可能反映出编辑和评审员之间的优先级差异,评审员为期刊创造未来引文的动力较弱。最终,评审员的判断在最终决定中的反映程度可能比表面看来要低,这将进一步降低评审员投入努力工作的积极性。
总结一下上述观点
-
编辑和评审员不一定会按照一致的加权标准来评价文章,他们的判断很可能偏离对真实质量的最佳预测。
-
特别是,编辑有动机将创新性看得比可重复性更重,而评审员对科学准确性的验证可能打折扣。这可能导致出版的文献中有许多低质量的论文(即使评审员由于内在动机而付出最大努力)。
鉴于为每个期刊评估每篇论文的评审员和编辑人数不多,以及他们可能存在的异质性,出版物的最终质量在不同期刊上会有很高的差异,而每一次向不同期刊投稿都类似于抽奖活动。由于期刊要求他们评估的论文不能同时在不同的期刊上审议,这意味着从首次向期刊投稿到文章真正发表之间会有大量的时间损失。再鉴于许多期刊有不同的格式要求等,这也意味着投稿作者的大量成本。因此,目前策划和评估科学贡献的做法是低效的,是对(公共)资源的浪费。
如果过分强调可重复性,那么文献就多是真正的发现,但在我们可靠的知识方面却几乎没有进展。
在一个理想的世界里,期刊可以实现所宣称的目标,即发表尽可能高质量的论文:
-
采用逻辑推导规则,从估计的证据强度和研究工作的新颖性来预测质量。
-
给予评审员外在的激励,使其努力进行核查并如实报告。
在(a)和(b)都满足的情况下,如果期刊允许向不同的出版渠道同时提交论文,以及有更多的研究人员参与评估过程,产生科学文献的进展会更快。
References
-
Deutsch, D. The Beginning of Infinity: Explanations That Transform the World. (Penguin Books, 2012).
-
Goldbeck-Wood, S. Evidence on peer review — scientific quality control or smokescreen? BMJ 318, 44–45 (1999).
-
Huisman, J. & Smits, J. Duration and quality of the peer review process: the author’s perspective. Scientometrics 113, 633–650 (2017).
-
MacRoberts, M. H. & MacRoberts, B. R. Problems of citation analysis. Scientometrics 36, 435–444 (1996).
-
Adam, D. The counting house. Nature 415, 726–729 (2002).
-
Amin, M. & Mabe, M. A. Impact factors: use and abuse. Medicina 63, 347–354 (2003).
-
Min, C., Bu, Y., Wu, D., Ding, Y. & Zhang, Y. Identifying citation patterns of scientific breakthroughs: A perspective of dynamic citation process. Inf. Process. Manag. 58, 102428 (2021).
-
Garfield, E. The history and meaning of the journal impact factor. JAMA vol. 295 90 (2006).
-
Aistleitner, M., Kapeller, J. & Steinerberger, S. Citation patterns in economics and beyond. Sci. Context 32, 361–380 (2019).
-
Biagioli, M. & Lippman, A. Gaming the Metrics: Misconduct and Manipulation in Academic Research. (MIT Press, 2020).
-
Seglen, P. O. Why the impact factor of journals should not be used for evaluating research. BMJ 314, 498–502 (1997).
-
Moed, H. F. Citation analysis of scientific journals and journal impact measures. Curr. Sci. 89, 1990–1996 (2005).
-
Ioannidis, J. P. A. Why most published research findings are false. PLoS Med. 2, e124 (2005).
-
Moonesinghe, R., Khoury, M. J. & A Cecile J. Most published research findings are false — But a little replication goes a long way. PLoS Med. 4, e28 (2007).
-
Martin, G. N. & Clarke, R. M. Are psychology journals anti-replication? A snapshot of editorial practices. Front. Psychol. 8, 523 (2017).
-
Smaldino, P. E. & McElreath, R. The natural selection of bad science. R Soc Open Sci 3, 160384 (2016).
-
Camerer, C. F. et al. Evaluating replicability of laboratory experiments in economics. Science 351, 1433–1436 (2016).
-
Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science. Science 349, aac4716 (2015).
-
Camerer, C. F. et al. Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nat Hum Behav 2, 637–644 (2018).
-
Dreber, A. et al. Using prediction markets to estimate the reproducibility of scientific research. Proc. Natl. Acad. Sci. U. S. A. 112, 15343–15347 (2015).
-
Verfaellie, M. & McGwin, J. The case of Diederik Stapel. American Psychological Association https://www.apa.org/science/about/psa/2011/12/diederik-stapel (2011).
-
Grieneisen, M. L. & Zhang, M. A comprehensive survey of retracted articles from the scholarly literature. PLoS One 7, e44118 (2012).
-
Callaway, E. Report finds massive fraud at Dutch universities. Nature 479, 15 (2011).
-
Schweinsberg, M. et al. Same data, different conclusions: Radical dispersion in empirical results when independent analysts operationalize and test the same hypothesis. Organ. Behav. Hum. Decis. Process. 165, 228–249 (2021).
-
Baker, M. 1,500 scientists lift the lid on reproducibility. Nature 533, 452–454 (2016).
-
Serra-Garcia, M. & Gneezy, U. Nonreplicable publications are cited more than replicable ones. Sci Adv 7, (2021).
-
Hardwicke, T. E. et al. Citation patterns following a strongly contradictory replication result: Four case studies from psychology. Adv. Methods Pract. Psychol. Sci. 4, 251524592110408 (2021).
-
Hagve, M. The money behind academic publishing. Tidsskr. Nor. Laegeforen. 140, (2020).
-
Aczel, B., Szaszi, B. & Holcombe, A. O. A billion-dollar donation: estimating the cost of researchers’ time spent on peer review. Res Integr Peer Rev 6, 14 (2021).
-
Adams, W. J. & Yellen, J. L. Commodity bundling and the burden of monopoly. Q. J. Econ. 90, 475–498 (1976).
-
Greenlee, P., Reitman, D. & Sibley, D. S. An antitrust analysis of bundled loyalty discounts. Int. J. Ind Organiz 26, 1132–1152 (2008).
-
Peitz, M. Bundling may blockade entry. Int. J. Ind Organiz 26, 41–58 (2008).
-
Bergstrom, C. T. & Bergstrom, T. C. The costs and benefits of library site licenses to academic journals. Proc. Natl. Acad. Sci. U. S. A. 101, 897–902 (2004).
-
Lawson, S., Gray, J. & Mauri, M. Opening the black box of scholarly communication funding: A public data infrastructure for financial flows in academic publishing. Open Library of Humanities 2, (2016).
-
Else, H. Nature journals reveal terms of landmark open-access option. Nature 588, 19–20 (2020).
-
Laakso, M. & Björk, B.-C. Anatomy of open-access publishing: a study of longitudinal development and internal structure. BMC Med. 10, 124 (2012).
-
Solomon, D. J., Laakso, M. & Björk, B.-C. A longitudinal comparison of citation rates and growth among open-access journals. J. Informetr. 7, 642–650 (2013).
-
Clark, J. & Smith, R. Firm action needed on predatory journals. BMJ 350, h210 (2015).
-
Grudniewicz, A. et al. Predatory journals: no definition, no defence. Nature 576, 210–212 (2019).
-
Richtig, G., Berger, M., Lange-Asschenfeldt, B., Aberer, W. & Richtig, E. Problems and challenges of predatory journals. J. Eur. Acad. Dermatol. Venereol. 32, 1441–1449 (2018).
-
Demir, S. B. Predatory journals: Who publishes in them and why? J. Informetr. 12, 1296–1311 (2018).
-
Brierley, L. Lessons from the influx of preprints during the early COVID-19 pandemic. Lancet Planet Health 5, e115–e117 (2021).
-
Singh Chawla, D. Open-access row prompts editorial board of Elsevier journal to resign. Nature (2019) doi:10.1038/d41586–019–00135–8.
-
Increasing Politicization and Homogeneity in Scientific Funding: An Analysis of NSF Grants, 1990–2020 — CSPI Center. https://cspicenter.org/reports/increasing-politicization-and-homogeneity-in-scientific-funding-an-analysis-of-nsf-grants-1990-2020/ (2021).
-
Bloom, N., Jones, C. I., Van Reenen, J. & Webb, M. Are Ideas Getting Harder to Find? Am. Econ. Rev. 110, 1104–1144 (2020).
-
Polikar, R. Ensemble Learning. in Ensemble Machine Learning: Methods and Applications (eds. Zhang, C. & Ma, Y.) 1–34 (Springer US, 2012).
-
Sagi, O. & Rokach, L. Ensemble learning: A survey. Wiley Interdiscip. Rev. Data Min. Knowl. Discov. 8, e1249 (2018).
-
Begley, C. G. & Ellis, L. M. Raise standards for preclinical cancer research. Nature 483, 531–533 (2012).