代谢组学的飞速发展,尤其是分析技术的进步、样本数量的增加、样本类型的多样化以及多检测平台的联合应用,使代谢组数据在数量和复杂性上急剧增加。代谢组学数据库的开发对于归纳总结这些大数据、提高数据的使用率、进行深层次的交叉分析以及揭示隐藏在大数据背后的生物学机理都有重要的作用。
当前,代谢组学研究中涉及到的数据库大致可划分为两个层次:存储原始检测数据的原始数据库和存储代谢物及代谢通路相关信息的代谢物库。产生最早且发展相对成熟的是代谢物库。早期的代谢物库主要是存储各种代谢物的基本信息,包括代谢产物的简介、化学式、分子量、化学分类、化学性质、所在的代谢通路和质谱图等。用户可以将待鉴定物质的信息与库中代谢物的信息进行一一比对,对目标物质进行定性及代谢通路搜索。其中Human Metabolome Database (HMDB)、Kyoto Encyclopedia of Genes and Genomes (KEGG)、Metabolite Link (Metlin)、The Golm Metabolome Database (GMD)和The Small Molecule Pathway Database (SMPDB)等等代谢物库是该类数据库的代表,发展相对成熟,应用广泛。
2010年以来,随着精准医学和生物信息学的发展,在一些国际组织的倡导和大力推动下,原始数据库开始出现。这类数据库在建立、完善、标准化和推广上都存在很多困难,依赖于全世界科研观念和技术的发展。基因组数据库建设的成功先例对该类数据库的发展有一定的促进和借鉴作用。原始数据库的出现和标准化建设将为更多的科研工作者提供了交流合作的机会,也是进一步提高数据利用率和挖掘深度的有效途径,将大大促进代谢组学技术的进步,也会为各种组学的整合分析以及组学与其他学科的交叉研究奠定数据基础。因此,虽然这类数据库建设和完善难度较大,但却是组学发展的必然趋势。2010年以来,欧洲和美国的多个机构逐步建立了一系列原始数据库并组建了专业团队致力于维护和推广应用。当前,有代表性的四大库是美国NIH的Metabolomics Workbench、欧洲生物信息研究所的Metabolights、Metabolic Phenotype Database(MetaPhen,属于MetabolomeExpress的一部分)和Metabolomic Repository Bordeaux (MeRy-B)。其中,前两种应用较为广泛,且接受多种仪器平台和物种的数据。Metabolomics Workbench还允许对公开可用数据进行探索性的统计分析。Metabolights更侧重于数据管理,且数据递交的标准更严格。MetaPhen和MeRy-B的规模更小,且专注于植物代谢组学。MeRy-B以1H-NMR数据为主,MetaPhen则侧重于GCMS数据。
目前,原始数据库建设的公认标准是MSI(Metabolomics Standards Initiative, European Bioinformatics Institute, http://msi-workgroups.sourceforge.net/)和COSMOS (Coordination of Standards in Metabolomics, European union, http://cosmosfp7.eu)。上述数据库基本都符合这两个标准。有些组织也公布了自己的标准,但与这两个标准高度一致。按照MSI和COSMOS的要求,数据库要求被授权的资源提供者在提供规定格式(如ISA-Tab)的原始数据的同时,还必须提供以下信息:提交者的基本信息、实验设计,研究对象及相应处理,样本搜集和存储条件、样本前处理,仪器平台和分析条件、样本的临床信息和代谢物信息等。其中代谢物的信息包括基本描述,外部数据库识别代码,化学式,简化分子线性输入规范(Simplified molecular-input line-entry system, SMILES),应用化学协会识别代码(the International Chemical Identifier of IUPAC),峰强度或浓度以及用于识别代谢物的相关信息,例如m/z,保留指数,碎片信息等。如果资源提供者采用提交的资源已公开发表过文章,还需提供文章全文。只有满足以上要求的资源才会被加入到数据库中。
下表中列出了常用的典型数据库及其主要性能的比较。
表1. 典型数据库及其主要性能比较
当前,各大代谢物库的应用已相对广泛成熟,对代谢组学发展的贡献有目共睹。原始数据库虽然发展势头强劲但仍处于建设初期,尚未有大量应用的报道。但可喜的是,已有学者将多个原始数据库或某一库中的多项资源进行整合使用,进一步提高了数据资源的利用率。2015年,荷兰的莱登大学、欧洲生物信息学研究所和德国的莱布尼茨植物化学研究所等多家机构共同建立了一个跨库原始数据检索平台——MetabolomeXchange(http://metabolomexchange.org/site/),为数据库资源的整合和扩展应用提供了又一快捷途径。
HMDB(www.hmdb.ca)
HMDB由加拿大人类代谢组计划(Human Metabolome Project, HMP)发起,并于2007年发布首个代谢组草图。目前最新版本HMDB4.0包含114100代谢物、5498条疾病链接、3840 NMR实验图谱、22198 MS/MS实验质谱图和7418 GC-MS实验质谱图。另有几千到数万个代谢物预测的NMR或MS谱图。相较于以前版本,4.0版新增了6777个代谢物—SNP互作关系,2497个代谢物—药物互作关系和18192个代谢反应。此外,HMDB支持多种搜索方式,包括化合物名字搜索、分子量搜索、分子结构搜索和二级质谱搜索。但该库目前不支持批量搜索,仅限于单个代谢物搜索,搜索效率较低。另外,该库也不支持代谢通路搜索、代谢化合物浓度搜索等功能。HMDB是当前世界上最完整且最全面的人类代谢物和人类代谢数据精选收集。我国科学家对该库的完善也有一定贡献。
KEGG(https://www.kegg.jp)
KEGG是基因组破译方面的数据库,其第一版于1995年上线,当时仅包含Pathway、Genes、Compound和Enzyme四个部分。目前KEGG已包含18个部分,17268种代谢物和460条通路,整合了基因组、化学、系统功能和健康信息。将已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能进行关联是KEGG数据库的特色之一。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,使研究者能够对其所要研究的代谢途径有一个直观全面的了解。
Metlin(https://metlin.scripps.edu)
Metabolite Link (Metlin)数据库由The Scripps Institute Gary Siuzdak组于2003年创建,2005年对公众开放,主要侧重用于液质非靶向代谢组学(Non-targeted Metabolomics)代谢物鉴定领域,目前包括超百万种小分子物质,超431000个高分辨率MS/MS质谱图。该库的主要特征是含有大量代谢物的二级质谱图,而且每个化合物都有多种不同碰撞能的图谱,可以清晰的找到代谢物的碎片离子。用户还可以获得分子量、化学式、化学结构等信息。该数据库的主要缺陷是没有代谢物在生物体中的浓度、代谢通路等信息,也没有临床相关信息,偏重于化学分析。
GMD(http://gmd.mpimp-golm.mpg.de/)
The Golm Metabolome Database (GMD)是由德国Max Planck研究所的科学家建立的植物代谢组学数据库,包含1450种已被鉴定的代谢物和10336个相关质谱图。该库资源侧重于气质非靶向代谢组学,其最大特点是含有大量的植物代谢物的GC-MS图谱(特别是衍生化后的)。用户可以导入自己的GC-MS数据进行搜索比对和鉴定。另外,该库还含有部分代谢物在植物中的浓度,可以按照植物名、部位等进行搜索。但是,该数据库仅仅收录GC-MS 平台检测的植物样本代谢组数据,应用范围有一定限制。
SMPDB(http://smpdb.ca/)
SMPDB(The Small Molecule Pathway Database)
The Small Molecule Pathway Database(SMPDB)由加拿大卫生研究院、阿尔伯塔大学和加拿大代谢组学创新中心共同创建,是一个交互的、可视的小分子通路的数据库,包含910条手绘小分子代谢通路,其中468条药物通路,232条疾病通路,105条代谢通路,100多条其他通路。这些通路中百分之七十以上不能在任何其他通路数据库中找到。SMPDB特别为临床代谢组学、转录组学,蛋白质组学和系统生物学中通路阐释和通路发现而设计。SMPDB提供了巧妙详细地人类代谢通路、代谢疾病通路、代谢物信号通路和药物活性通路的超级链接图表。每个小分子和人类代谢组数据库(HMDB)或DrugBank中包含的详细描述进行超链接,而每个蛋白质或酶复合物和UniProt进行超链接。该库方便浏览,并支持全文搜索。用户能够用一列代谢物名字、药物名字、基因/蛋白质名字、SwissProt ID,Affymetrix ID或Agilent微阵列ID来查询SMPDB。这些查询将产生一列匹配的通路,并在每个通路图表中高亮显示匹配的分子。基因、代谢物和蛋白质浓度数据也可以通过SMPBD的映射界面进行可视化。所有SMPDB的图像、图像映射、描述和表都是可下载的。