在线课堂

微生物测序常见问题

发布日期:2020.12.24

01

测序深度、覆盖深度

测序深度指的是测序得到的总碱基数与待测基因组大小的比值。
覆盖深度是指测序获得的序列占整个基因组的比例。理想情况下,物种基因组大小有多大与测序得到的序列量是吻合的,然而由于基因组中存在高GC、重复序列等复杂结构,导致测序拼接组装的到的序列往往不能覆盖基因组的所有区域。

例如,某个细菌基因组测序覆盖深度为99%,则该细菌还有1%的序列不在测序所得序列之内。

02

引物(primer)、接头(barcode)

引物(primer):是人工合成的一小段DNA或RNA序列,作为DNA复制的起始点。16S测序中目的片段的引物是基于保守区的序列设计的,为了解决碱基多态性的问题,尽量选择覆盖率高的引物。
接头(barcode):一种标签序列,也是人工设计的,有了它,在生信分析步骤中,便能将不同样品的序列从测序所得的所有序列中辨别出来。

03

接头(barcode)选择原则是什么?

接头的选择主要是要兼顾碱基平衡和激光平衡,相当于ATCG四种碱基尽量都存在,且ATCG的比例接近一致,A+C=G+T。

04

 16S扩增子建库原理是什么?

16S扩增子建库实质就是利用酶和引物对特定片段进行PCR富集和筛选。这种建库方法,相对机器打断法等方法来说成本较低。

05

OTU是什么?

OTU是一种操作分类单元。这种操作分类单元是通过特定的距离度量算法计算两两不同序列之间的距离度量或相似性,然后设置一定的分类阈值,得到同一阈值下的距离矩阵,进行聚类操作,从而形成的分类单元。简单的说,就是相似性为97%的reads被归为同一类别的核苷酸序列。

06


为什么要进行样品OTU抽平?

在对原始数据进行质控处理时,去掉了一部分不合格的序列,对样品OUT抽平是为了让各样品的序列数保持一致,便于在同一标准上对各样品进行Alpha多样性分析等,保证有可比性。

07


样品序列,在与数据库比对时,如何挑选每个OTU的代表序列?


每个OTU往往有多种reads,每种reads条数不同,在进行数据库比对时,选取reads条数最多的核苷酸序列作为代表序列。

08


如何理解Q20、Q30?


在理解Q20、Q30之前,我们先来理解碱基质量值(Q)的概念。二代测序,每个测序后的碱基都有一个质量值,这个质量值反映了测序的准确度情况。
行业中Q20(Q30)指的是测序序列中质量值大于或等于20(30)的碱基所占百分比,主要作用是评估序列测序的准确度。Q20(Q30)表示碱基被测错的概率为1%(0.1%),准确率为99%(99.9%)。一般来说,准确度达到Q30的碱基量至少要为85%。

09


  Contig N50 vs Scaffold N50


Contig N50为评估拼接reads效果的指标,
Scaffold N50为评估组装contig成Scaffold时的组装效果指标。


10

技术重复VS生物学重复、样本测序量(总数据量不变、生物学重复数与单样本测序量最佳组合)


技术重复指的是同一样品多次测量。
生物学重复指的是经过相同方式处理的相同样品。生物学重复数量原则上越多测序结果越准确,但在实际的研究中,或由于科研经费有限亦或是由于生物学重复难度大,也常常会采取生物学重复数与单样本测序量合理搭配的做法,从而保证研究结果准确性。

11

常见实验样本取样指南?

土壤样本取样:选择具有代表性的土壤,使用无菌工具,采集5-10cm深的一定量的土壤,去除杂质,分装标记,每袋样品约5-10g,密封后立即低温保存。
粪便样本取样:用无菌粪便采集器或其它灭菌器皿收集粪便样品,分装标记并立即低温保存(也可先标记并低温保存后分装)。每个样本分装几管灭菌离心管,每管0.2g左右。小鼠个体较小,粪便不足0.2g时可将生物学重复样本混合。注意粪便样品不要在空气中暴露太长时间,避免污染和降解。对于珍贵和较难收集的样品,建议老师们进行备份。

12

16S测序物种注释常用数据库及其特点?

RDP( http://rdp.cme.msu.edu/seqmatch/seqmatch_intro.jsp)
RDP数据库全称“RibosomalDatabaseProject”,该数据库提供质控、比对、注释的细菌、古菌16SrRNA基因和真菌28SrRNA基因序列。该数据库较适合于微生物的物种鉴定,可先预测出16SrRNA,然后用未知物种片段最长的完整16s核糖体RNA序列与RDP数据库进行比对即可,可以在线比对也可把RDP数据库下载到本地进行比对。(下图展示的是在线比对方式)
比对时,若只是鉴定单个物种,直接把单条16Sribosomal RNA序列复制到序列框里,序列框下方有一些比对时的过滤选项,可自行设置以提高比对的针对性,然后点击提交即可(如下图所示)。若是需要大批量比对,可将各物种的16Sribosomal RNA序列合并在同一个文件,在【选择文件】处导入文件,其它步骤与单个物种鉴定一致。

然后稍等一会,就会有比对结果出来,点击viewselctable matches查看鉴定结果。

SILVA( https://www.arb-silva.de/ )
SILVA一词起源于拉丁文silva(意为forest),它是一个包含三域微生物(细菌、古菌、真核)rRNA基因序列的综合数据库,其数据库涵盖了原核和真核微生物的小亚基rRNA基因序列(简称SSU,即16S和18SrRNA)和大亚基rRNA基因序列(简称LSU,即23S和28SrRNA)。
Greengenes( http://greengenes.lbl.gov/ )
Greengenes是专门针对细菌、古菌16S rRNA基因的数据库,相比前面提到的RDP和SILVA数据库,该数据库更新速度较慢,目前更新停留在2013年5月更新的gg_13_5版本。
SILVA、RDP更新更及时。





13

数据是什么格式?

数据格式记住ID、E值、Score值等生信相关文件常见的选项的含义即可,其它的可以查阅https://genome.ucsc.edu/FAQ/FAQformat.html#format1,该网站对各类生信相关文件的格式解析较为齐全。

END

微信公众号或添加客服号