使用BLAST验证质粒的提示

由Jason Niehaus

杰森Niehaus

科学家从冰箱里提取样本本文更新于2017年12月4日。

在Addgene,我们持续使用NCBI提供的基本局部对齐搜索工具(BLAST)。BLAST可以帮助我们将文库中质粒的测序结果与已知的参比序列进行比较,如将质粒存入我们的实验室提供的完整质粒序列,或NCBI众多数据库中的其他条目。

随着我们的仓库多年来的增长(我们现在有超过60000个质粒!),我们分析的测序结果数量作为我们质量控制过程的一部分也在稳步增长。在繁忙的一周,我们可能需要分析200多个质粒,作为我们质量控制过程的一部分。因此,我们的团队改进了BLAST网络浏览器界面的使用,使之尽可能高效。

如果你发现自己经常在BLAST网站验证质粒或者验证你的新克隆,尝试这些技巧来充分利用你的时间和序列!你可能也很乐意看到我们的质量控制过程随着下一代测序技术的引入,已经发生了改变!

订阅质粒博客文章!

选择爆炸计划

在五个可用的BLAST程序中,我们主要使用Standard Nucleotide BLAST (blastn)、Standard Protein BLAST (blastp)和translation BLAST (blastx)。NCBI有一个很棒的BLAST入门指南,其中包括对不同的BLAST程序、数据库和BLAST搜索页面的元素的简单解释。

在Addgene,我们使用blastn来识别桑格序列中的任何差异,如不匹配、缺失或插入。我们使用blastp或blastx将测序结果与蛋白质序列进行比较,以检查开放阅读框(orf),并确定任何核苷酸差异的潜在影响。blastp和blastx程序的优化是不同的,你可能想要选择一个(或两个)取决于你想要验证的信息。我们将在下面深入研究这些差异。

优化blastn搜索

标准核苷酸爆炸页面,首先要做的决定是是否将Sanger测序结果与单个已知参考序列或BLAST序列数据库进行比较。如果您知道预期的核苷酸序列,勾选“对齐两个或更多序列”复选框,并将您的参考序列粘贴到出现的主题序列框。对齐两个核苷酸序列可能是执行最快的BLAST搜索,与其他类型的BLAST搜索相比,将节省您的时间。

Blastn对齐多个序列

如果您不知道您的结果的确切参考序列,请从下拉菜单中选择一个BLAST序列数据库。通常,我们使用默认的核苷酸数据库“nucleotide collection (nr/nt)”,因为它包含GenBank、EMBL、DDBJ和PDB序列的合成,可能是最全面的搜索。

blastn数据库选择

节省时间的技巧#1:如果你知道你的测序结果应该匹配的物种,在有机体框中输入常见或科学名称。这一小段信息可以显著减少您对blastp、blastp和blastx搜索的等待时间!

blastn生物选择

现在,在你点击BLAST按钮之前,请考虑Program Selection参数,因为这将影响执行搜索的时间以及总体对齐结果。默认设置是“优化高度相似的序列(megablast)”,这是非常快的,当您的序列和参考/数据库序列之间的身份≥95%时工作最好。[如果95%的结果都是正确的,我们的QC过程将是无故障的和更快的!]

由于Sanger测序反应是不完美的,而且接近一个反应开始或结束的序列通常是不可靠的,我们建议使用“有点相似的序列(blastn)”程序进行blast,这样你就可以从你的结果中提取几乎每一个可靠的碱基对。

blastn程序选择

此选项并不像Megablast那么快,但可以返回较长的对齐以与您的测序跟踪文件进行比较。与Megablast不同,常规BLASTN程序使用较小的单词大小,并在对齐中的不匹配和空隙中降低得分惩罚。如果您对BLASTN程序的差异感到好奇,请查看爆炸帮助网页

优化blastx搜索

一旦你使用了爆破为了确定一个桑格测序结果的可靠部分,并注意到核苷酸序列中任何潜在的不匹配或空白,你可以运行一个翻译爆炸(blastx)搜索以检查预期的orf、突变或截断。blastx的一个主要优点是,您不必为您的测序结果决定一个阅读帧——blastx根据数据库检查所有6个可能的帧。另一个好处是,当查看blastx结果时,ORF中出现的帧移突变很明显。

blastx数据库选择

当使用blastx在Addgene,我们使用默认的“非冗余蛋白质序列(nr)”数据库,因为它包含的蛋白质序列最多。就在BLAST按钮下面,你可能注意到了“算法参数”链接。点击此链接查看高级BLAST选项和我们建议的blastx定制。类似于核苷酸序列,蛋白质通常有重复或高度同源的区域,这些区域在标准的blastx搜索中默认被忽略。省略重复区域的比对可能会令人困惑,比如当你试图验证一个基因的起始蛋氨酸时,但blastx结果从一个更远的氨基酸开始比对。我们始终使用未选中的“低复杂度区域”过滤器来运行blastx搜索,以便将这些区域包含在搜索中,从而最大化对齐长度。虽然这个建议不是绝对正确的,但我们发现删除这个默认设置可以节省分析时间。

Blastx低复杂度滤波器

节省时间的技巧2:blastx搜索本质上比blastx或blastp慢,这是因为在将核苷酸序列翻译成所有6个可能的阅读帧时需要额外的搜索。如果你知道预期的蛋白质序列,使用“对齐两个或更多的序列”选项来大大减少等待搜索结果的时间。

优化blastp搜索

这取决于排序结果,我们经常在一个标准蛋白BLAST (BLAST)和BLASTX搜索以验证质粒中的预期蛋白质序列。如果您知道哪个阅读框架要选择测序结果,并且可以轻松地翻译它,我们建议使用BLASTP OVER BLASSX。主要优势是节省时间,但额外的好处是BLASTP搜索默认情况下不会过滤低复杂性区域,这意味着您不必记住调整任何BLASTP算法参数。我们使用默认评分矩阵Blosum62,但您可能想要查看描述的描述其他矩阵看看另一个是否对你的搜索更有利。

blastp数据库选择

节省时间的技巧#3:注意,可用的蛋白质数据库不太可能有你最喜欢的基因融合到一个表位标签或融合蛋白的精确条目。如果您选择了测序引物来确认标签或融合蛋白在框架内,我们建议使用带有“对齐两个或更多序列”选项的blastx,并将您期望的蛋白质序列粘贴到主题序列框中。

爆炸的替代品

根据您的测序结果和所需的分析,BLAST可能并不总是您的最佳选择。对于BLAST无法处理的复杂序列比对,Clustal是我们经常选择的成对或多序列比对核苷酸或蛋白质序列。我们也使用用于对准多种蛋白质序列,特别是为了比较不同的同种型。除了我们的最爱外,还有许多序列对齐工具可用。

试试下面这些资源,看看BLAST的替代方案:

爆破快乐!

对于用BLAST来确认您的质粒测序结果,您有什么建议吗?或者您对我们的建议有什么意见吗?请在此分享您的想法,以帮助其他实验室加快他们的质粒和克隆验证步骤,并腾出更多时间来使用您的质粒!

点击下载Addgene的质粒101电子书


所有的BLAST图像都是修改后的截图NCBI BLAST网站

额外的Addgene博客资源:vwin.com mobile

在Addgene.org上的资源

主题:分子生物学协议和提示,质粒

留下你的评论

分享科学刚刚变得更容易...订阅我们的博客

订阅