基础数据分析
1. 数据检查
对所有样本的总离子流色谱图(TIC)色谱图进行可视化检查,如图1:
图1 代表性总离子图(TIC)色谱图
2. 数据预处理
将仪器检测得到的原始数据转化为通用格式,然后对质谱数据进行峰匹配、峰对齐和保留时间校正,得到去卷积的质谱数据。然后,对来自于同一个物质的各个峰数据进行归属分析。
3. 多维统计分析
对数据进行后处理,将处理后的数据导入到SIMCA软件进行多维统计分析,在软件中首先进行Pareto格式化(Par scaling)和平均中心化(mean-centering)处理,然后再进行PCA、PLS-DA和OPLS-DA等多维统计分析。
3.1整体PCA分析和组间PLS-DA分析
采用SIMCA软件对整体样本进行PCA分析(主成分分析),用于解释和分析各组样本之间的代谢差异。如图2:
图2 整体PCA分析
对样本进行PLS-DA分析(偏最小二乘法判别分析),用于分析组间的差异代谢物信息的显著性,并进行Permutation test(置换检验),结合模型的Q2和R2Y,验证模型的可靠性。如图3:
图3 组间样本PLS-DA分析和Permutation test
3.2 组间OPLS-DA分析和Volcano Plot分析
为消除无关噪音信息及准确获得两组样本间的显著性差异代谢物信息,我们采用组间OPLS-DA(正交偏最小二乘法判别分析)进行分析,进而获得OPLS-DA模型和相关值(VIP值),作为下一步进行差异物定性筛选的参考。并可对OPLS-DA分析的结果进行Loading Plot分析和S-plot分析,另外使用R语言平台进行Volcano Plot(火山图)分析。如图4:
图4 组间样本OPLS-DA分析和Loading Plot分析、S-plot分析和Volcano Plot分析
4. 单维统计分析
对数据进行单维统计分析,对数据分别进行Shapiro Wilk’s test、Welch’s t Test和Wilcoxon Mann-Whitney test (U test)。呈正态分布的变量则采用Welch’s t Test结果,而呈非正态分布的变量则采用Wilcoxon Mann-Whitney test结果,综合得到各变量在各对比组之间的显著性分析结果(p-value)。
5. 差异代谢物定性
多维统计分析(VIP>1)结合单维统计(p-value<0.05)寻找差异性表达代谢物,采用软件人工结合的方式,使用RT和特征M/Z(GC-MS)或精确分子量和二级质谱(LC-MS)与数据库进行逐一对比分析,差异性代谢物的定性方法为:搜索自建的标准物质数据库、Fiehn GC/MS Metabolomics RTL Library、Golm Metabolome Database、Metlin、HMDB、KEGG、Lipid和NIST等商业数据库。差异物列表示例如表1:
表1 组间样本的差异性代谢物示例
Metabolites | p-value | VIP | FC(A/B) | HMDB | KEGG | Pathway (KEGG) |
pyruvic acid | 2.16E-03 | 1.71 | -0.51 | HMDB00243 | C00022 | Glycolysis / Gluconeogenesis; Citrate cycle (TCA cycle); Pentose phosphate pathway |
glucose | 4.11E-02 | 1.82 | 2.65 | HMDB00122 | C00031 | Glycolysis / Gluconeogenesis; Pentose phosphate pathway; Galactose metabolism |
gluconic acid | 1.52E-02 | 1.63 | 0.68 | HMDB00625 | C00257 | Pentose phosphate pathway |
mannitol | 4.11E-02 | 1.45 | 1.47 | HMDB00765 | C00392 | Fructose and mannose metabolism |
dulcitol | 2.16E-03 | 1.74 | 3.72 | HMDB00107 | C01697 | Galactose metabolism |
galactonic acid | 2.16E-03 | 1.96 | 2.24 | HMDB00565 | C00880 | Galactose metabolism |
ethanolamine | 2.16E-03 | 2.10 | 1.00 | HMDB00149 | C00189 | Glycerophospholipid metabolism |
… | … | … | … | … | … | … |
6. 相关性分析
6.1Pearson Correlation分析
为了表征各差异性代谢物之间的(浓度)相关性,我们会对这些物质的定量信息进行Pearson Correlation分析。如图5:
图5 差异性代谢物的相关性矩阵图
6.2热图分析
为了表示差异物之间的聚类关系,我们会对这些物质的定量信息进行heatmap(热图)分析,如图6:
图6 差异性代谢物的热图
7. 代谢通路分析
7.1代谢通路进行归类分析
我们采用KEGG数据库对每个差异代谢物所属的代谢通路进行归类分析,如图7:
图7 差异性代谢物所属KEGG代谢通路示例
7.2 metaboanalyst pathway分析
我们用软件metaboanalyst对差异性代谢物进行pathway analysis,metabolome view如图8所示。
图8 差异性代谢物metabolome view
Pathway views如表2所示,total表示该途径所含的代谢物总数,hits表示该途径含有差异性代谢物数,-log(p)表示图8纵坐标值,impact表示图8横坐标值。参数如表2:
表2 组间样本的pathway view
Pathway | Total | Expected | Hits | Raw p | -LOG(p) | Holm adjust | FDR | Impact |
Pantothenate and CoA biosynthesis | 16 | 0.39402 | 2 | 0.05672 | 2.8695 | 1 | 1 | 0 |
Zeatin biosynthesis | 16 | 0.39402 | 2 | 0.05672 | 2.8695 | 1 | 1 | 0 |
Butanoate metabolism | 20 | 0.49252 | 2 | 0.08457 | 2.4702 | 1 | 1 | 0 |
Alanine, aspartate and glutamate metabolism | 21 | 0.51715 | 2 | 0.09208 | 2.3851 | 1 | 1 | 0 |
C5-Branched dibasic acid metabolism | 4 | 0.098505 | 1 | 0.09504 | 2.3534 | 1 | 1 | 0 |
Citrate cycle (TCA cycle) | 20 | 0.49252 | 1 | 0.39526 | 0.9282 | 1 | 1 | 0 |
Pyruvate metabolism | 20 | 0.49252 | 1 | 0.39526 | 0.9282 | 1 | 1 | 0.148 |
Purine metabolism | 55 | 1.3544 | 2 | 0.39676 | 0.9244 | 1 | 1 | 0.065 |
定制化分析
需要根据实验结果进行定制化分析。
1. 定制化代谢通路分析
我们根据客户的实验结果,集合各方面现有成果,进行定制化的代谢通路分析,如图9:
图9 定制化代谢通路分析图示例
2. 其他定制分析如使用Cytoscape软件对样本的代谢组、蛋白组、基因组进行关联分析(如图10),包括但不限于多组学关联分析、多平台数据整合分析等根据客户实际需求,我们指定详细的方案进行科学合理的分析。只要是基于代谢组学技术的所有统计分析,我们都可以提供高质量技术服务。
图10 代谢组、蛋白组、基因组进行关联分析示例