COVID-19对Liu实验室Addgene质粒请求的影响

由Guest Blogger.

本文由麻省理工学院的Max W. Shen、哈佛大学许文斌和哈佛大学博德研究所的David R. Liu共同撰写。

在过去六个月的过程中,Covid-19对我们的世界产生了巨大影响 - 截至2020年6月4日,Covid-19在全球范围内造成了380,000人死亡(谷歌在6/4提供的统计数据/ 20)。许多国家在几周到几个月内进入锁定,暂停或终止就业,以获得大部分劳动力。

湿实验室科学家对这一效果而言,无限制地设计了世界上的实验室,由于Covid-19而无限期地持有。在我们的实验室中,我们有兴趣检查Covid-19对全球科学活动的影响。然而,这种类型的开放式问题很难定量地没有广泛,无偏的数据来回答。因此,我们选择检查一个数据集刘实验室质粒来自addgene的请求,作为我们特定科学子场中全球活动的代理。

质粒要求与纸张出版物相关

该数据集包括35篇论文超过6年的11,426个质粒要求(数据由Addgene于5/26/20提供,并包含5/22/14至5/19/20的请求)。每份纸张在1-32个质粒之间,总共2-2,590个请求。我们收到了56个国家的质粒要求,尽管数据由美国,欧洲(23%)和中国(14%)负担。质粒要求的尖峰对应于流行论文的出版物。

刘实验室质粒要求和纸张出版物表明出版日期与申请号之间的相关性。
图1:质粒请求的日期。括号表示每篇论文订购的质粒总数。

Covid-19对质粒要求的粗略估计

在我们开始任何复杂的分析之前,我们首先以各种方式可视化我们的数据。使用7天的滚动均值平滑我们的质粒秩序数据给了我们粗略洞察Covid-19对我们的数据的效果。由于我们的大多数质粒命令来自美国和欧洲,我们在3月左右的质粒要求活动中看到相应的浸渍。粗略估计显示,3月份的活动水平约占1月1日至3月1日至3月1日之间观察到的33%。

七天滚动平均自20020年1月至2020年5月至5月20日期的质粒要求。在Covid-19每天约14个质粒之前,质粒要求是指的。在Covid-19期间,每天约为6个质粒

图2:COVID-19对使用7天滚动均值平滑的数据影响的简单近似。

虽然这种全球近似已经向我们展示了对订单数据的“COVID-19效应”,但它没有捕捉到世界不同地区在不同时间遭遇COVID-19的事实。最值得注意的是,1月中旬至3月中旬,中国比世界其他国家更早受到新冠肺炎的影响。

为了更好地了解质粒订单如何受Covid-19大流行的影响,我们通过地点进行了每周的质粒订单和新的Covid-19案件的数量。我们观察到,当预期时,质粒订单(左,蓝)在报告(右,红色)有许多新的Covid-19案件时,可能是由于隔离

缝合
图3.每周显示质粒订单和新的Covid-19案例的动画地图。

统计建模

注意 - 如果统计建模不是您的巷子,请随意直接跳到结果

要开始建模我们的数据,我们首先选择以更精细的时间粒度重新检查我们的全球数据。对于每篇论文,我们观察到对相应质粒的需求往往遵循指数衰减模型,在周末和重大假期下跌幅。

圣诞节和新年对质粒请求的影响
图4:质粒请求轨迹建议周末和假日效果的指数衰减需求模型。

基于这些观察,我们考虑了以下(无噪声)模型的数据:

计算-1我们选择让yxt)代表纸张订购订单的独特PIS或实验室的数量x时间到了t。我们不能使用单个质粒订单,因为当PI或实验室达到订单时,它们可能会一次性命令几种质粒,打破泊松过程的统计独立假设。这种修改还简化了我们推断的参数的解释,因为科学生产力更好地被解释为科学家或实验室配售订单的速度。

我们的模型因素我们泊松过程中的可能性为两个组成部分:x(t) 和zt)。X(t)描述我们观察到的指数衰变过程zt)乘以相应的因子z,如果t在活动期间z。我们考虑为我们的模型考虑的“活动”是周末,圣诞节/新年和Covid-19锁定。要允许我们的模型为每个参数提供不确定性估计,我们向构成我们分发的每个术语添加了日志正常噪声,从而导致以下分层模型:

计算-2

由于美国、欧洲和中国的质粒订单占我们全部质粒订单的75%以上,我们接下来的讨论将集中在这三个地区。每个地区受COVID-19影响的时间不同,因此我们将中国的COVID-19事件窗口定义为01/15/20—03/15/20,美国和欧洲的COVID-19事件窗口定义为03/11/20—05/19/20(数据集中的最后日期)。为了提高模型的稳定性,我们只考虑了2020年超过10个唯一订单日期的10篇论文。

我们在Pytorch中使用随机梯度下降法拟合每个区域的模型,这给了我们每个参数的最大似然估计。由于数据似然的解析表达式包含一个棘手的泊松与多元对数正态似然乘积的积分,我们用多元高斯-厄米特积来近似数据似然。

周末、寒假和COVID-19对质粒请求的影响

推断 - 正常活动百分比
图5:推断效果。值是在受每个效应影响的日期上正常活动的推断百分比(唯一pi /实验室每天下订单的平均比率)。

推断参数表明,Covid-19诱导了跨区域每天下订单的科学家率的2x-5倍,欧洲最受影响力和中国最不影响。推断的周末效应是,虽然我们提醒了读者,但是,我们提醒读者这不是因果解释 - 如果在某种程度上冒着科学家,效果通常不会是相同的。

US_EUROP.

中国

图6:模型适合。橙色线描绘了观察到的数据。蓝线是每份纸张的平均速率的总和。绿色和红线分别描绘了每张纸的平均+1和-1 std的总和。

拟合模型捕捉到了周末、圣诞节和新年,COVID-19的效果相当好。然而,我们在中国的数据中观察到一个并发症——从1/22/20-2/23/20开始的1个月期间,没有质粒请求。之后,从2/24/20-3/15/20(所谓的锁定结束)开始,请求活动似乎恢复正常。该模型拟合了这两个离散阶段,估计中国对COVID-19的影响为62.3%。但显然,如果我们认为1/22/20-2/23/20是中国更准确的封锁日期,那么观察到的数据与2019冠状病毒病导致的活动减少了一倍至零相一致。因此,取决于我们认为中国新冠肺炎疫情的日期范围,它们可能是受影响最大的,也可能是受影响最小的。这些结果突出了在相对稀疏的中国数据中估计参数的不稳定性和不确定性。

重要的额外警告是,我们的数据集含有从只有一个实验室的质粒订单,这限制了人们可以广泛地解释我们对Covid-19对科学活动的影响的分析。Covid-19对许多其他科学领域的影响可能是不同的。

结论

概括
图7:按地区的平均推断效果。

总之,我们的模型推断,COVID-19导致不同地区科学家每天下订单的比率下降了2x - 5倍。我们对模型拟合的研究揭示了中国数据中一些潜在的不稳定性,因此我们建议用更多的不确定性来解释中国的模型结果。


非常感谢我们的客座博主,麻省理工学院的Max W. Shen,哈佛大学的Alvin Hsu,以及哈佛大学博德研究所的David R. Liu。

Max-ShenMax Shen是麻省理工学院的博士生。他的研究将应用机器学习和统计方法用于基础科学发现和高影响力的应用。

阿尔文Alvin Hsu是哈佛大学的研究生。他爱好使用选择,进化和机器学习来解决化学和化学生物学中的难题。

大卫刘David R. Liu是Merkin Institute和Brovite Instituts副主席的主任;哈佛大学化学与化学生物学教授;和霍华德休斯医学院调查员。刘的研究整合了化学和进化,以照亮生物学,使下一代治疗方法能够实现。Prime编辑,基本编辑,节奏和DNA模板合成是他实验室开创的技术的四个例子。学习更多在这里

Addgene博客上的其他资源vwin.com mobile

addgene.org的资源

话题:其他新冠肺炎

留下你的评论

分享科学刚刚变得更容易...订阅我们的博客

订阅