案例分享

Anal Chem. 丨通过代谢组学和机器学习对于 Covid-19进行自动诊断和风险评估

发布日期:2021.04.06

导读


冠状病毒(CoVs)是来自冠状病毒科的包膜单链阳性RNA病毒。最近新发现的一种冠状病毒SARS-CoV-2被命名为COVID-19,这种疾病传播迅速,截止2021年2月,其在全世界已造成几十万人死亡,单美国就有超过50万人因此死亡。 

目前COVID-19给全世界带来了沉重的健康和财政负担。病人损伤筛查和风险管理在政府和当局如何指导资源、规划重新开放以及指定卫生对策等方面发挥着根本作用,特别是在贫穷地区显得更为重要。鉴于其对全球经济、卫生和社会的影响,目前全球正在进行数千项新的研究,都是为了了解病毒病理学和控制病毒传播的目标,这些都直接影响到治疗、疫苗、筛查测试和病人预后的战略。

目前,可用的主要测试是基于通过抗原或RNA扩增(RT-PCR)直接检测SARS-CoV-2病毒,血浆学测试以及RT-PCR和胸部CT结合以评估患者的免疫力。

“组学”是一门系统性的从整体上研究生物和生命科学科学的技术手段,目前将人工智能解释算法和“组学”技术相结合运用的方法已经产生了使用机器学习(ML)的平台来分析质谱(MS)数据,来达到对疾病进行生物标志物识别,当然这也可以对COVID-19严重程度进行评估和诊断。本篇文献中,作者使用代谢组学技术和ML结合的技术对于Covid-19进行自动诊断和风险评估,十分具有代表性。下面,小编为大家分享此篇文献的精彩。


应用案例
通过代谢组学和机器学习对于 
Covid-19进行自动诊断和风险评估


图片关键词


01 
研究背景
COVID-19测试的紧迫性包括需要医疗决策工具来进行病人的风险分层和管理,而标准方法很难做到这一点。尽管这些程序的基础已在文献中有充分的文献记载,但人们越来越担心在现场实现的测试的敏感性和特异性,与程序相关的时间和成本,试剂和受过训练的人员的可用性以及测试窗口。
因为COVID-19的复杂性,所以准确诊断SARS-CoV-2和患者风险分类变得困难。SARS-CoV-2感染病理生理学反映了广泛的患者症状,从轻微的流感样表现,如发烧、咳嗽和疲劳,到危及生命的急性呼吸窘迫综合征(ARDS)、血管功能障碍和脓毒症。为了消除病原体,身体对SARS-CoV-2严重肺部感染的反应包括减少自然杀伤细胞(NK)、增加促炎细胞因子(IL-6、IFN-、TNFα等)和肺浸润,特别是巨噬细胞和单核细胞,这可能导致组织损伤和器官损伤。
此外,脂质稳态的变化是病毒感染的一个共同特征,且与SARS-CoV-2病理有关。此前有研究表明,在血浆样品的脂质组学和代谢组学分析中,富含单唾液酸二己糖基神经节苷脂(GM3)的外显子与COVID-19的严重程度有关。在同一研究中,循环酰基肉碱的减少表明氧化应激和细胞能量支持的紊乱。还有研究提出了死亡患者血浆低密度脂蛋白(LDL)逐渐降低与胆固醇之间的关系。此外,对COVID-19症状的易感性还没有完全了解,这些都阻碍了对任何潜在的结果预测。
在本篇文献中,作者将基于机器学习的算法与使用质谱的仪器分析相结合,创建了一个快速的诊断分析平台,通过检测分析血浆样本可以在几分钟内区分COVID-19患者,同时还提供了风险评估工具,以协助医疗保健专业人员进行病人管理和决策。
考虑到本文献中引入的COVID-19的检测工具是基于来自实际患者的代谢物,它可能被认为是SARS-CoV-2筛查的一种新方法。所提出的端到端质谱和机器学习组合旨在预测识别和建模COVID-19识别和风险评估的假定生物标志物。尽管输入数据发生了变化,但为模型增加了鲁棒性,这对于在实际环境中有效地实现是至关重要的;由于噪声和采集条件的微小不同变化而产生的问题将不会对最终输出产生重大干扰。因此,利用MS-ML技术在COVID-19诊断中的潜力,作者招募了728个个体的队列来开发这个独立的平台,该平台同时使用具有高度特异性和敏感性的血浆样本作为自动筛选测试,并提供与疾病的存在和严重风险相关的代谢信息。
通过使用非靶向代谢组学的方法,作者团队在志愿者的血浆样本中够选择和识别21个分子与疾病的病理生理学以及26个特征与病人的健康相关的结果。由于其盲检数据具有特异性>97%和敏感性>83%,作者团队认为这种诊断和筛选方法是一种具有巨大现实应用潜力的工具。

02 
实验材料与方法


图片关键词图1 实验设计思路和分析流程


志愿者和样本信息

在2020年4、5、6月和7月期间,在巴西三个疫情区域(圣保罗首都、圣保罗农村和马瑙斯)的四个中心招募了728名患者(369名COVID-19确认患者和359名对照志愿者)参与研究。
COVID-19组(CV):成人患者在过去7天内有一个或多个SARS-CoV-2感染的临床症状(发烧、干咳、不适和/或呼吸困难)和SARS-CoV-2RT-PCR阳性。
对照组(CT):无症状和RT-PCR阴性参与者(SN)和非感染对照组(AS)组成。
本研究包括728名参与者,根据症状、RT-PCR检测结果和各自的风险进行分类(图1a)。CV组由369例症状性SARS-CoV-2确诊病例的487份血浆样本组成,多出来的118份样本代表住院患者的第二次收集(中位数11天,SD3.8),恢复(R)或死亡(D)。高风险组(HRSP)包括中度和重度症状需要住院的患者(n=197),低风险(LRSP)类别(n=172)包括轻度症状重定向到家庭护理的患者。为模拟实际情况,没有应用性别、年龄和禁食限制,并提供没有病人偏见的结果。CT组由29SN和330AS组成,共359人,表S1(补充材料)显示了详细的人口学信息和参与者细分。

样品制备和质谱分析

外周静脉血制备成血浆样品在-80°C处冷冻用于分析。取其中20µL血浆中进行制备上机样本,之后直接注入HESI-Q-Orbitrap®-MS高分辨率质谱(Thermo Scientific)进行正离子模式扫描进行随机进样检测。

生物标志物阐明

用Xcalibur3.0软件算法确定的下机质谱数据的每个判别m/z的存在。利用METLIN、HMDB和LIPIDMAPS数据库和文献检索进行分子鉴定。
基于Kegg数据库生物进行标记通路分析和意义信息和科学文献。

学习数据分析

本研究提出的用于COVID-19自动诊断和风险确定的MS-ML平台由两个主要数据分析阶段组成,如图2。


图片关键词

图2 代谢组数据分析和诊断模型的建立


第一阶段包括利用MS数据的分类算法开发机器学习模型(ML),以确定用于诊断和风险确定的潜在m/z生物标志物。
第二阶段建立一个预测程序,用于诊断和确定高风险和低风险程序,该程序将用于实地个人筛查。


图片关键词


03 
研究结果

通过MS-ML平台进行COVID-19测试:建模和性能

质谱仪采集产生的完整数据集有846个生物样本,每个样本平均复制10个。表1显示了拟合过程的数据准备(在10轮训练和验证中shuffled)和测试。在本研究中,作者采用一种新的顺序处理代谢组学数据的机器学习算法,建立了一个分为两个阶段的模型。首先,对假定的生物标志物识别进行预测建模。然后,将生物标志物特征组合成相对对,组成现场诊断和风险评估所使用的预测模型(递归拟合如图1b所示)。
诊断分析是用完整的数据集进行的,而风险评估依赖于369名COVID-19阳性受试者,因为这是第二阶段的分析。在COVID-19阳性受试者中,197人达到了当地的住院临床标准,其余172人被转送给家庭护理。表2和表3分别显示了COVID-19自动诊断和风险评估分类器的成对特征的结果。梯度提升树(GDB)得到COVID-19盲测自动诊断结果为:特异性97.6%,敏感性83.8%,风险评估:特异性76.2%,敏感性87.2%。


图片关键词


使用非靶向代谢组学分析COVID-19患者判别代谢物Panel

采用ML方法选择了30种离子,并使用引入的成对模型(指标见表3)进行COVID-19诊断,并通过质谱数据进一步验证。在此基础上,作者提出了21种COVID-19条件下的判别生物标志物,分为对条件有10种阳性(阳性组平均值较高)和11种阴性贡献的。在21个分子中,有8个属于甘油磷脂类,3个甘油脂,3个脂肪酸,2个胆固醇衍生物,1个嘌呤代谢物,1个前列腺素,1个纤溶酶原,2个未知的多肽。其余的10个分子尚未被识别的非靶向代谢组学的共同元素。有效的生物标志物和未知特征见表4。
对于风险评估,使用26个离子来实现表4中显示的度量。其中9个生物标志物有助于COVID-19的高风险条件,17个生物标志物有助于降低风险。表4所示的主要发现表明,与轻度症状患者相比,中度/重度病例中某些种类的溶血磷脂酰胆碱(LysoPC)、磷脂、胆固醇酯(CE)和三酰甘油(TG)相对减少(图2a)。在表4中,生物标志物首先按贡献类型分组,然后通过J度量反映代谢类别/功能和重要性。图2a显示了生物标志物类和∆J度量的表示。


图片关键词


04 
讨论

MS-ML选择的生物标志物和COVID-19病理生理学

使用AI解释的算法使作者能够创建可靠的模型,以促进诊所的决策和研究不同生物标志物水平的病理生理意义。病毒识别是初始宿主免疫反应的重要步骤,与SARS-CoV感染相关的快速过程和细胞因子风暴可能与鸟苷和尿苷丰富(GU)的单链RNA作为PAMP(病原体相关分子模式)的潜在作用有关。脱氧鸟苷是嘌呤代谢的代谢物,在ssRNA存在下触发TLR7的增强信号,诱导巨噬细胞分泌细胞因子。因此,需要进一步的研究来了解脱氧鸟苷在SARS-CoV-2免疫过度激活和病理中的潜在作用。
主要发现的脂质表明甘油磷脂代谢的重塑。作者发现磷脂酰甘油(PG)[PG354)、PG351)、PG33.1]和磷脂酰乙醇胺(PE)[PE384]的存在增强,以及溶血磷脂酰胆碱(LysoPC)[LysoPC160)、LysoPC161)、LysoPC180)、LysoPC182]和磷脂酰丝氨酸质体(PS-PL)21[PS(O-362)/PS(P-361)]COVID-19阳性患者中的减少,如图2a所示,甘油磷脂复发途径。
在需要住院的患者(中度和重度病例)的血浆样本中,LysoPC[LysoPC160)和LysoPC182)]也被发现有负贡献。细胞对各种刺激的反应可能由磷脂介导,磷脂积极参与炎症过程。溶血磷脂酰胆碱在阳性患者和中度至重度患者中的相对含量降低,其中一些与最近对急性呼吸窘迫综合征(ARDS)和脓毒症代谢变化的研究结果一致,COVID-19严重程度的重要特征。
LysoPC是通过磷脂酶A2(PLA2)介导的PC裂解形成的,其调制在炎症过程中起着至关重要的作用(见图2bLysoPC的相关途径)PLA2的上调促进脂肪酸(eicosanoidsLysoPC的前体)的形成。数据表明,SARS-CoV核衣壳蛋白刺激Ciclooxyase-2(COX-2)的表达,Ciclooxyase-2(COX-2)是脂肪酸生成前列腺素的过氧化氢酶,如阳性组中的m/z407.1821中所发现的那样。虽然作者发现了一种与eicosanoid生物合成相关的离子,表明阳性患者的PLA2COX-2活性,但LysoPC在这组中相对减少。LysoPC的可用性也受到LCAT(溶血磷脂酰胆碱酰基转移酶1)的酰基转移酶活性的精细调节,这可能通过Lands周期促进PC的恢复。在LysoPC上由LCAT1活性形成的肺泡表面活性剂中发现的最丰富的脂质种类是磷脂酰胆碱[DPPCPC160/160)]。该分子对应于70-80%的表面活性剂脂质组成,表面活性剂薄膜的失调与肺损伤和ARDS直接相关。由于DPPC的形成取决于脂质底物的可用性和Lands循环功能,这一过程中的干扰可能会干扰LysoPC的可用性。
此外,COVID-19病理生理学似乎破坏了胆固醇的稳态。作者在样本中发现胆固醇酯(CE)与轻度症状有关。在康复过程中,发现肺泡巨噬细胞BMP增加,CEs增强。在临床实践中也观察到胆固醇和LDL(低密度脂蛋白)降低与COVID-19预后不良有关,例如ARDS中的三酰甘油。
在这篇文献中,基于所提出的m/z离子,作者使用MS-ML组合生成的诊断和风险评估分类器对COVID-19患者进行了鉴别。虽然所提出的生物标志物将COVID-19病理生理学与数学过程联系起来,但需要更全面的生物标志物评估,以更好地了解它们对COVID-19的贡献,并确定未知因素。
使用非靶向代谢组学和机器学习(ML)进行COVID-19的自动诊断和风险评估
在复杂数据中,人工智能算法用于生物标志物挖掘的组合是解决问题和实施健康科学新技术的常用方法。利用机器学习作为从质谱数据中识别疾病的手段,旨在开发诊断和预后生物标志物、治疗靶点和患者管理系统。
作者的方法引入了成对的m/z分析,这是非靶向代谢组学应用的一个重要进展。通过组合不同的m/z,该方法支持不同质谱仪获得的质谱数据,包括稳健地使用流注质谱(FI-MS),以克服离子抑制效应。具有成对特征的模型优化可以很容易地转移到独立的诊断平台上。鉴于关键程序步骤是从生物样品“ion-fishing”因此这种方法不需要色谱和生物标志物定量的独立诊断。
本文献所提出的用于COVID-19评估诊断MS-ML平台提供了可靠的定性结果,特异性为97.6%,灵敏度为83.8%(盲测数据),与现有血浆学方法和RT-PCR方法相比,本方法性能相似甚至更好。此外,作者的研究还带来了关于疾病病理生理学的分子信息,这些信息可能有助于确定COVID-19预后指标和治疗靶点。
总的来说,本文创建的诊断方案为公共卫生工作提供了一种公共COVID-19公共筛查和指导工作的的替代方案。同样的方法也可以应用于大流行病期间与病人管理有关的其他疾病上。


✎ 文献出处

Jeany Delafiori, Luiz Claudio Navarro, Anderson Rezende Rocha, et al. Covid-19 automated diagnosis and risk assessment through Metabolomics and Machine-Learning. Anal. Chem.2020, 6. 


微信公众号或添加客服号