代谢组学常见问题（五）：数据处理和分析相关基础篇-谱领生物

在线课堂

代谢组学常见问题（五）：数据处理和分析相关基础篇

发布日期：2020.04.13

Q：非靶向代谢组学发现没有差异，该怎么办？

A：首选需要确定这是这是否是合理的结果，即需要逐步自查：第一步确认样本处理、收集、储存和运输是否出现异常情况。第二步检查待测样本的前处理、质控和数据统计分析过程是否正常。在走完以上环节后，如果发现没有异常，那么说明对比分析确实没有符合统计学意义的差异的代谢物（只要提前和谱领交流，并经给与确认的95%以上的课题设计，只要是不同处理的两组及以上样本，都具有符合统计学意义的差异的代谢物）。这时候还可以就检测到的物质进行KEGG Pathway分析，即对代谢物参与的代谢通路进行研究，观察是否有其他的补给途径、代谢途径与疾病之间是否存在一定的关联性。

Q：谱领服务的结果是什么样的，都包含哪些内容？

A：谱领生物代谢组学结果一般包含以下内容：

(1) 方法学内容，包含仪器型号、参数、样本处理步骤、数据处理软件以及所使用的试剂等详细信息；

(2) 数据单维和多维统计分析：如T-test、PCA、PLS-DA、OPLS-DA分析等；

(3) 代谢物结构鉴定；

(4) 相关性分析（PearsonCorrelation）；

(5) 热图分析（heatmap）；

(6) 代谢途径富集分析（pathwayenrichment analysis）；

(7) 根据具体情况结合具体数据对客户项目提供可行性建议；

(8) 我们会结合顾客的具体情况与需求来出报告表。

Q：有哪些操作避免样本检测出现较大误差？

A：实验误差是客观存在的，不可避免，但是，谱领通过在整个实验环节加入质量控制（Quality Control）体系样本、多内标（Internal Standard）校准、保留指数（Retention Index）校准以及跨时间质量控制体系来确保实验误差处于低水平，确保客户获得高质量的数据。

Q：仪器对于所测代谢物的响应是一样的吗？

A：相同的仪器平台和检测方法对于同一种物质的响应是一样的，对于不同的物质则可能不一样，这与物质的结构和仪器及其具体运行的方法有关。因此，不同样本中的同一物质可以通过仪器检测得到的信号强弱对比知道其含量高低，而不同的物质，则不能通过信号强弱来判断含量高低。对定性出来的代谢物通常只做横向样本间的对比，而不做纵向的比较。

Q：什么是韦恩图？有什么用？

A：韦恩图（Venn）用于显示一个有限的不同集合之间的所有可能的逻辑关系。

Q：PCA分析的原理是什么？

A：每一个样本检测了许多指标（具体的话就是代谢物的含量），每个指标表示一个维度，则每个样本都是一个多维的向量。在空间里看就是一团高维的数据云。PCA也就是主成分分析方法会通过投影的方式来对这个数据云进行降维处理，从而到达建立合适的模型来解释和预测的目的。PCA得分图一般展示的是PC1(第一主成分)和PC2（第二主成分）这两个方向构成的平面上的投影。PC1、PC2这两个方向是虚拟的不是具体的变量，是全部变量贡献的。

Q：如何对差异代谢物做进一步的筛选？

A：一般是使用P值<0.05 vip="">1 这样的阈值组合来进行差异物的筛选。

P值（P-value）来源单维统计分析（如T-test），VIP值来源于多元变量统计分析（如OPLS-DA）表征该变量对两组差异的贡献值。

使用P值<0.05 logfc="">1或 logFC<-1) [FC=Fold change]来进行差异物筛选也是有这样的做法，但是P值和FC值都来源单元变量统计分析。

在此基础上要做进一步的筛选的话，有以下几个方法：

(1) P值<0.05，对VIP值做排序（VIP值越大，差异代谢物越有意义）；

(2) VIP>1，对P值做排序（P值越小，差异代谢物越有意义）；

(3) 在P值<0.05 vip="">1的范围内，对logFC值做排序（大于1的logFC，越大越有意义；小于-1的logFC，越小越有意义）；

限定更严格的基础筛选条件，比如：P值<0.01& vip="">2。

Q：火山图是什么，有什么用？

A：火山图主要展示P-value、Fold-Change这两个维度的信息（或者再此基础上再映射其他信息：比如VIP值）。这些信息都是和差异代谢物的筛选息息相关的，所以展示了差异代谢物在所有物质的分布概况。

Q：R2和Q2分别是什么意思，怎么看？

A：R2X（针对PCA）或R2Y（针对PLS-DA）表示当前模型可对数据方差或变异进行解释的比例，即解释率，表明模型拟合优度（the goodness of fit）。Q2表示当前模型可对数据方差进行预测的比例，即预测率，表明当前模型的预测能力。关于R2X和Q2的值在什么范围可以接受没有定论，这个要取决于你所使用的标度化方法以及你的样本。通常来说，如果你使用的是ctr的标度换算方法，那么R2X通常会高一些，而如果使用par或者UV的话，因为发生了畸变，R2X会低一些，所以没有必要在意R2X这个值，而是关注R2Y。那么对于Q2来说，如果你的是细胞等一些实验条件严格可控，个体差异比较小的样本，那么要求Q2要高一些，比如0.8以上，而对于动物实验来说，个体差异会大一些，要求的Q2值会小一些，比如0.4以上可以接受，但是如果对于人体实验来说，因为生活习惯差异、饮食等各方面的差异而导致个体差异很大，那么一般我们会降低对它的要求，0.3甚至0.2都算是可以接受的

Q：PLS-DA与OPLS-DA模型有什么区别？

A：OPLS-DA比PLS-DA多了一个正交换算，把与模型分类不相关信号过滤掉，OPLS-DA解释能力更强。比如组间差异比较小，组内差异比较大的情况，用PLS-DA VIP筛出的可能是组内差异变量，容易误导，OPLS-DA是PLS-DA的升级版，全面优于PLS-DA。

Q：PCA和OPLS-DA模型中，有些样本偏离了95%置信区间，这种数据需要剔除吗？

A：根据情况确定：一般不建议剔除，因为生物学重复的目的就是为了减少误差，数据中出现个别样本偏离属于正常情况，且也不会影响后续的数据分析，所以无需对数据进行剔除修改，保留其真实情况即可。但误差较大，影响到后续分析了，则可以根据情况酌情剔除。

Q：置换检验判断标准？

A：置换检验（Permutationtest）即随机化检验或重随机化检验。通常标准是R2<0.3，Q2<0.05，但有的时候样本生物学重复太少，不满足要求。所以只需要回归线斜率是正的。

Q：峰面积的单位是多少？

A：没有单位。

Q：总离子流图的横纵坐标单位？

A：横轴是时间，min，纵轴是信号强度，没有单位（或者说是单位是abundance）。

Q： “面积归一化”中的“面积”是指一个样本的总面积还是所有样本的总面积？

A：一个样本检测的所有物质的总面积。

Q：如何从TIC图中找到我关注物质的那个峰？

A：结合保留时间（RT）和特征质荷比（M/Z）值寻找。

Q：为什么对比分析只能两两对比？

A：因为在寻找差异物的过程中根据含量差异确定该物质是否是差异物，一个物质相在一组中的含量相对于另一组上升/下降了，而无法同时计算相对于两组变化的量。

Q：两组对比的样本数量不一致可以吗？

A：可以，只需要每组的生物学重复数量都要满足最低需求。

Q：多平台的数据整合到一块做PCA模型可以吗？

A：可以。

Q：ROC是什么，判断标准是什么？

A：ROC（ReceiverOperating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣。一般的，AUC值越接近1，这个二值分类器越优。

Q：热图的数据是怎么进行归一化处理的？

A：（每个数值-平均数）/标准差就是标准分数（standard score）也叫z分数（z-score）。

Q：如何获得高质量GC-MS代谢组学数据？

A：实验设计先不谈，在仪器分析阶段，若想获得高质量数据，有以下几个方面需要注意。

(1) 前处理方法的一致性。实验误差是客观存在的，但可以通过合理、规范的操作减少误差。因此，一般情况建议一个项目应当只由一个人负责前处理，或使用自动衍生设备，以减少人为误差。

(2) 检测之前需确保仪器处于最佳工作状态。仪器的控制软件都有系统自检功能，可以快速便捷地核查质谱仪器的状态。但更重要的是气相色谱状态，推荐使用一组混标作为仪器质控。在每一个项目开始之前，先进行质控样检测，确认气相色谱的分离度和质谱的整体响应。

(3) 后期数据矫正，特别是对于大数量样本或者时间跨度大的项目，可以在检测序列中加入随行质控样本（可每个样品取少量后混合），在后期数据处理时，使用质控样本结合算法对整体数据进行矫正。

Q：为什么有的GC-MS检测的数据中代谢物会出不止一个峰？

怎么处理？

A：GC-MS中这种情况主要是由于衍生化反应造成的。当代谢物有多个活泼氢时，会产生三甲基硅烷基（TMS）取代数目不同的衍生产物。如甘氨酸会生成2TMS和3TMS取代的衍生物。即使衍生试剂过量，也很难保证不同TMS取代个数的产物比例会保持一致。因此，通常的做法是将同一个代谢物的所有衍生产物的面积进行加和。谱领会在数据分析中根据需要最优化处理这类问题。

Q：代谢物的峰面积是如何计算的？

A：软件会对原始质谱数据做基线计算、平滑、峰查找和解卷积。在解卷积之后，软件会考察代谢物所有碎片的信噪比、碎片提取离子流图（EIC）的对称性以及碎片色谱峰的纯度（共流出干扰的程度），最终自动挑选出一个最优的离子对。最终的峰面积是对定量离子进行积分所得。

Q：怎么看谱图？每个坐标代表什么？什么是解卷积？

A：一般情况下，仪器检测得到的谱图是三维的，X轴横坐标是保留时间，Y轴纵坐标是丰度，Z轴是每个时间点对应的质谱碎片信息。通常看到的总离子流色谱图（TIC）是软件根据质谱采集到的一个个数据点拟合出来的，每一个数据点背后就有一张质谱图。当两个或多个色谱峰没有分离开而共流出时，质谱采集到的数据点就是一张混杂的质谱图，包含了多个组分的碎片（feature）信息。如果直接用于定性分析会导致物质相似度的降低和组分的丢失。解卷积（Deconvolution）就是利用数学算法将色谱未分离的组分重新解析开，还原它们真实的质谱信息。解卷积是基于算法，也会出现误差，因此，好的色谱分离依然十分重要。

Q：GC-MS如何提高定性准确度？

A：GC-MS的定性有双重标准，一是上保留指数（RI）或保留时间（RT），二是质荷比（M/Z），将仪器得到的质谱信息带入质谱数据库（如NIST库）进行比对后，介入富有经验的工程师进行人工核查，确保物质定性的准确性。

Q：保留指数是什么？其目的是什么？

A：保留指数（Retention Index），是定性的重要指标。它采用一系列保留指数基准物质（如脂肪酸甲酯和正构烷烃）作为参考，最终将保留时间转换为指数。相比于保留时间，保留指数的特点是它只和色谱柱类型有关，而和其他仪器参数（如具体允许方法）无关。

例如，为达到最佳的色谱分离，GC-MS不同的升温程序，此时，代谢物的RT就会发生改变，无法和质谱库中的标准时间进行匹配。色谱柱使用较长时间后，一般会将柱前端截断30-50CM（柱前端容易被严重污染，从而影响柱效。现在更好的方法是色谱柱前添加保护芯片）以恢复柱效。此时，所有代谢物的保留时间都会提前。保留指数不会受到这些实验条件的影响，依然可以用于准确定性。

Q：物质定性，谱图吻合度多高可以确认？

A：不管是串联质谱还是时间飞行质谱，没有标准品物质的保留时间和质谱信息的鉴定都是不精确的。没有保留时间（单靠质谱信息或精确分子量）的判断只能是推断，需要进一步用标准品来验证。如果经费有限，建议采购匹配度最高的标准品物质用以验证。

PS：近期的问题总结就到这里，大家有问题可以留言，小编会整理，总结，并在下一期统一给予回复。

400-628-6528

www.profleader.cn

专注创新精准领先

本文为谱领生物原创，欢迎以个人名义转发分享。以商业或其他目的需要转载，请务必在正文前标注来源：谱领生物微信公众号。

服务资源

代谢组学常见问题（五）：数据处理和分析相关基础篇

科学研究服务

关于谱领

提交需求

论文索取

微信公众号或添加客服号