CRISPR软件Matchmaker:用于为您的需求选择最佳CRISPR软件的新工具

由Guest Blogger.

这篇文章由巴斯德研究所的客座博客Cameron MacPherson贡献

CRISPR软件和piñata效果

两年前我是一个团体的一员寄生虫互动的生物学,STORITUT Pasteur,巴黎),使疟疾社区的基因组编辑工作变得更好(生物科技Nat。》。,2014年)。考虑到这个时间点,不应该奇怪克里普尔克系统涉及。今天,同样的实验室在他们的工作编辑的基因组中成功编辑超过90%的速度恶性疟原虫(导致疟疾的寄生虫)。我将他们的成功归功于技术专长,周到单引导RNA(SGRNA)设计,以及异常低的GC含量恶性疟原虫基因组。为了更好地理解这最后一点,恶性疟原虫基因组仅含有0.66亿个可定位的NGG PAM网站,而人类基因组大约有3亿。由于这种稀疏的纵向基因组,偏离靶向令人担忧和瞄准可能更有效。

没有计算支持,这些见解很难升值。实际上,没有依赖某种预先分析,不可能理性的SGRNA设计是不可能的。在2014年底,我开始开发软件以使所有人都可以获得SGRNA设计。当我以为有改进的空间和一年后,别人认为是相同的。自2013年1月以来,已发布和记录了33台Crisp软件工具omictools.。对于一个新手来说,决定使用正确的软件一定很困惑。面对这么多的选择,我的问题是,我们最初是怎么走到这一步的?

CRISPR创新如何影响软件开发

CRISPR引导RNApiñata

CRISPR就像之前的miRNA泡沫一样,为快速创新如何影响研究界提供了一个有趣的视角。我把它比作围绕着piñata的庆祝活动。从那些构建piñata的人的角度来看,他们的角色是用一些有价值的东西填充道具。他们是内容的审查员。另一方面,piñata打败派对参与者的目标则完全不同。他们充满了盲目的期待。他们对内容质量的信任隐含地定义为对piñata构建者(即评审者)的信任。在参加聚会的人进行了一些体力活动后,piñata爆炸了,里面的东西洒到了地上。当人们试图衡量并确定散落在地板上的每一个糖果或玩具的价值时,会产生一种类似于疯狂的情绪。最后,一切都安定下来了,每个项目的价值也从审稿人煞费苦心的评估变成了更能代表社区意见的东西。 The trouble is, with so much choice, in those few moments after the piñATA突发,价值相对于每个人的基本需求主观归因于主体;整个社区尚未解决任何真正的价值。我被称为“piñata效应”,那些在审查Piñata的内容和盲目收到的观众之间的那些脱节;它导致高度相似的内容和缺乏迭代设计;它是由于没有时间评估公众反应而导致;而且,它是我认为我们目前在CRISPR软件空间中的阶段。CRISPR研究社区尚未有机会在最佳CRISPR软件工具上开发共识。

作为一种基因组编辑工具,CRISPR/Cas9技术自2012年问世以来,一直被研究活动和开发的旋风所包围。这只是3到4年前的事情。这是一个创新的泡沫(piñata),软件开发已经赶上了它。同行评审过程受到了许多紧密间隔的CRISPR软件提交的挑战。由于之前的出版物很少,一份提交的手稿只能被视为一个显著的改进。结果是,piñata软件充满了一个主题的轻微变化,而没有很多资源来审查它们。总的来说,CRISPR软件的集合体现了促进大多数CRISPR工程实验应用的解决方案。与集体实用程序相比,很容易发现单个应用程序中缺乏特性。接下来的问题是,我们是否应该将所有工具当成某种元/弗兰肯斯坦应用?或者也许有一个明显的赢家,有没有什么东西可以让我们投入时间去学习,并从中获得最大的价值? This is only one of many decisions faced by those engaging in CRISPR design, but it is a significant hurdle made worse by an ever increasing marketplace. Since 2013 about 11 tools have been added every year.

打破障碍:我对当前sgRNA设计工具的看法

这篇文章的目标是为可用的CRISPR软件工具提供一些洞察力,各种工具试图解决的问题,最后我们如何在未来进行。当我们考虑使用CRISPR设计实验时,有两个软件可以提供帮助的两个主要领域。最重要的处理SGRNA的设计,代表了当前可用工具的狮子的份额(我们将专注于本博客文章中的这些工具)。第二个主要区域在实验后质量控制,一个很好的例子是CRISPR-GA。这些工具按类型评估修复事件(NHEJ./HDR.),并在单个位点(通常是目标位点)追踪indels。多位点评估需要完全评估脱靶,但目前没有为此目的设计的软件。这第二个领域非常重要,鉴于人们对它缺乏关注,它显然是进一步发展的重点。然而,质量控制并不是这篇博文的重点。

我将SGRNA设计工具分开到数据库中新创解决方案。数据库工具允许我们查看和了解SGRNA设计以前在哪些条件下进行了工作。这种资源对于自动合理设计可能是非常有价值的。只有三个这样的数据库,eendb.(发布于2013年1月1日),是报告的sgRNA设计的简单目录。第二个数据库,cris(出版于2015年6月27日),值得注意的是其广泛的范围,策划的内容和易于访问。第三,w(2015年9月15日发布),与eendb比剧本更类似于剧本,但也是如何用数据库工具来帮助设计的良好示例。这些数据库仍然很年轻,需要从社区的合作努力才能成功。

关于新创sgRNA设计,我再次把它分为两类。一方面,我们有一些软件工具可以应用一些近似的或合理的规则来确定sgRNA设计的价值。另一方面,一些软件工具利用经验推导和/或先验知识来告知决定好的sgRNA设计的质量。顺带一提,sgRNA设计的第一个软件(由Hsu等人。,2013年)采用了经验方法和近似方法的结合。他们的评分功能的详细信息可以在他们的在线工具中找到文档。自Hsu等人2013年以来,其他工具已经纳入了新的参数,如Doench-Root评分(由Doiond等人。,2014)进入他们得分的职能。许多工具也选择混合和匹配不同的评分算法和参数。这种想法的挂毯是选择正确的工具混淆的原因,这意味着没有一种尺寸适合所有方法。您必须根据您的项目选择一个工具,而不是一般意见。

CRISPR软件媒体概述概述。CRISPR软件Matchmaker可帮助您确定用于您的CRISPR实验的RNA设计软件。

我可以花费很多时间详细运行每个工具,但已经在已发表的文章中介绍。相反,我已经将工具分解为使每个工具唯一的个别功能。这CRISPR软件搭配制造者由这些特性组成,并允许您根据项目需要选择工具。表中有8个主要类别,描述了从基本功能到高级功能的所有内容,以及用户期望如何与该工具交互(上面可以找到表的屏幕截图和概述)。下文将进一步讨论这些类别(所有术语的定义也载于表内):

  • 基本功能这些功能体现了软件的主要目标,应该是您确定工具适用性的第一个地方。这类功能是工具之间最常见的功能。例子:“单目标设计”,“多目标设计”,“偏离目标意识”,“高错位”,“近似设计”,“经验设计”,“单粉状设计”,和“多帕姆设计”。趋势:到2014年底,工具开始远离设计,专门用于NGG PAM目标,并开始允许任意PAM定义。这些较新的工具仍可能对最新的NTT靶向CA蛋白有些有用,CPF1。另外,目标疗效仍然是一个只有几个工具试图解决的概念。
  • 高级功能:这些功能并不完全必要,但应视为非常有用,具体取决于设计目标。例子:“特征意识”,“SNP意识”,“次要结构意识”和“微型学意识”。趋势现在发布的具有高级功能的工具越来越少,这类功能似乎被委托给其他更合适的软件,比如或者商业工作台,比如acvector.或者卧改
  • 实用功能这些功能有助于加快sgRNA的设计过程,消除重复的任务和/或提供功能,以帮助设计后的过程,如引物和质粒设计。例子:“多元设计”、“多元设计”、“单一设计”。趋势:最常见的实用程序功能是批量设计或多路复用功能。然而,帮助底漆设计的工具越来越普遍。
  • 用户互动:落入此类别的软件设计元素描述了用户预计如何与软件互动。此类对于希望根据其操作计算机的舒适度选择工具的用户非常重要。例子:“离线”,“在线”,“cli”和“gui”。趋势在线工具在软件领域占主导地位,但通常依赖较弱的算法来检测脱靶。少数可用的脱机工具大多适用于任何计算机,但通常需要命令行或脚本的工作知识。
  • 输入灵活性:软件工具需要某种数据输入以生成结果。虽然不同类型的输入比其他输入更用户友好,但这是比数据输出更少的关注,因为可以容易地转换不同的输入类型。例子:“有机体”、“序列”、“标识符”、“负载”。趋势:基于序列的输入是迄今为止最常见的,对于大多数工具,也需要用户指定生物体。
  • 输出的多样性:不同的工具以不同的格式向用户提供结果。这可能对下游结果有很大的影响。例子:“HTML”,“视觉轨道”,“绘图”,“表格”,“交互式”和“保存”。趋势:大多数工具提供表格HTML格式化输出。令人惊讶的是,只有2个工具提供Fasta输出。一些值得注意的工具允许用户保存结果并稍后返回或共享。
  • 社区独特性:不同的社区为自己的需求开发软件。这通常会导致软件设计,其仅适用于一个,或者有机体的子集。在只有少数情况下,软件是有机体无关紧要的。大多数工具都是一个或一部分生物体。例子:“有机体无关”,“模型生物”,“小基因组”,“大基因组”,“生物偏见得分”。趋势:许多工具可以处理任何尺寸的基因组,只有受限制的作者将基因组添加到工具的曲目中。有机体无政府主义工具是更好的解决方案,但通常被包装为脱机工具,需要一种编程语言的专业知识。
  • 支持生物:本节列出各工具支持的基因组。基因组用生物体名称和基因组组装版本表示。表中的名称与软件中的名称一样。大多数sgRNA设计工具要求用户指定一个有机体。它们这样做是因为它们依赖于预构建的索引或数据库,以便尽快找到并将结果呈现给您。有些工具不需要指定生物体,是真正的生物体不可知论者。其他工具需要指定一个有机体,但也允许你建立自己的数据库;这些工具将被标记为生物体不可知的,并在本节中列出了当前可用的生物体。

针对特定用户的CRISPR软件建议

您将发现,一些工具通过其算法的开发方式或其对特定生物体的关注来迎合特定的用例。出于这个原因,我通常建议已经尝试过几次CRISPR实验的实验室,通过比较它们过去的结果和每种工具建议的设计来评估它们感兴趣的每种工具的预测能力。对于第一次进入sgRNA设计的人,最好根据眼前的需要选择一个工具,经过多次试验后重新评估。另外,上面提到的数据库,或者更好的是,从使用CRISPR对同一生物体进行研究的实验室获得的第一手知识,可以作为最后一种方法的替代。

第一次计时器的顶级工具:您需要学习语言以及参数代表的内容。最好的学习工具是e-crisp.。作者已经努力,以便他们的工具既是教学和功能。它也是我遇到的唯一工具,以便根据正在追求的CRISPR实验的类型提供参数的类别。你还应该看看的词汇表CRISPR软件搭配制造者,它提供了一系列我认为对CRISPR软件领域来说很重要的术语。你不太可能在其他地方找到这些术语,因为我为这篇文章开发了它们,但它们应该给你一个注意什么的想法。

用于生物信息管理员的顶级工具:为了在您自己的分析中获得灵活性,您需要访问原始数据、目标站点、非目标站点、得分和计算它们的统计数据。为此,一些在线工具如CAS-IFFINDER.就足够了。caso - offinder提供了基因组中所有字符串的基本数据转储,使用任何IUPAC编码模式,在任何编辑距离。但是,除了编辑距离之外,它不会计算任何分数。添加的功能由您来实现。您也可以下载该软件在任何机器上使用OpenCL启用了硬件。这个OpenCl依赖性是一个严重的限制,但该工具足够快,如果您从事繁重的CRISPR设计(我说话屏幕和/或非常大的基因组),那么它是值得购买专用机器的。在离线前面,有一个Python脚本SSFinder.,但我发现它的实现对于实际使用来说太慢了。基于R的包Crispseek.提供了很好的实用程序,并与Bioconductor结合,应该是任何已经熟悉r的人的首选sgRNAcas9

将CRISPR技术转移到新生物的顶级工具:出于显而易见的原因,您可以排除任何限制您到特定基因组子集的工具。这些是大多数工具,但好消息是你只需要一个。ProtospacerWB是通过将CRISPR技术应用于新生物的目的,帮助您与您有完整的组装。它是一个离线工具,但附带图形用户界面。

实验室的最佳策略:在购物之前,定义您需要软件工具的内容。使用CRISPR软件搭配制造者根据您的需求选择最佳工具。优化你的标准。重复,直到找到最好的工具。做几次实验并使用结果重新评估所有工具。报告您的调查结果以帮助其他人。

CRISPR技术已经渗透到如此多不同的社区,几乎不可能公正地判断单个工具。我相信现在只有客观地将这些工具分解成它们各自的产品,并允许您根据您的需求来选择它们才是可能的。我们可能会开始看到可用工具的收缩,越来越多的功能被集成到所谓的基因组编辑工作台中,比如卧改(商业,在线),桌子(商业、在线),或ProtospacerWB(学术,离线)。虽然它仍有待观察,但我相信CrispR软件的未来是有前途的。这个空间的快速创新使我们能够退后一步,樱桃选择实际在我们的实验和生活中有所作为的特征。要有效地做到这一点,开发人员和最终用户之间需要良好的沟通。

点击这里使用CRISPR软件Matchmaker!


感谢我们的博客卡梅隆麦克弗森!


卡梅伦麦克弗森

Cameron R. MacPherson是巴黎巴斯德研究所环境Intérieur项目的首席数据科学家。你可以在Twitter上关注他@CMacPhD

参考

1.Ghorbal, Mehdi等人。“使用CRISPR-Cas9系统编辑人类疟疾寄生虫恶性疟原虫的基因组。”自然生物技术(2014)。PubMedPMID:24880488

2.徐,帕特里克d。等。“DNA靶向RNA引导CAS9核酸酶的特异性。”自然生物技术31.9(2013): 827 - 832。PubMedPMID:23873081。公共医学中心PMCID:PMC3969858

3.doohion,约翰g。等。“CRISPR-CAS9介导的基因失活高活性SGRNA的理性设计。”自然生物技术(2014)。PubMedPMID:25184501公共医学中心PMCID:PMC4262738

addgene的资源

得到的建议如何设计一个grna

阅读我们的CRISPR指南赶上所有CRISPR基础知识

阅读其他关于CRISPR的博客文章

验证gRNAs

计划您的下一个CRISPR实验,点击立即在Addgene开始

主题:克里普尔克,其他CRISPR工具

留下你的评论

分享科学刚刚变得更容易...订阅我们的博客

订阅