跳转到内容

基因组分类学数据库

维基百科,自由的百科全书
基因组分类学数据库
内容
获取的数据类型拟议的原核生物命名法、系统基因组学数据
相关信息
研究中心澳大利亚生态基因组学中心昆士兰大学
作者(创始人)
  • 菲尔·休根霍尔茨(Phil Hugenholtz)
  • 玛丽亚·楚沃希纳(Maria Chuvochina)
  • 克里斯蒂安·林克(Christian Rinke)
主要参考文献(引用)PMID 30148503
发布日期2018年
访问
网站gtdb.ecogenomic.org
下载网址gtdb.ecogenomic.org/downloads
网络服务网址gtdb.ecogenomic.org/tree
其它信息
许可CC BY-SA 4.0
版本09-RS220 (2024年4月24日)
管理政策混合

基因组分类学数据库(英語:Genome Taxonomy Database缩写GTDB)是一个在线数据库,它遵循基于一组保守的单拷贝蛋白质的系统基因组学方法,保存有关原核生物拟议命名法的信息。除了解决并系群之外,该方法还通过算法重新分配分类等级,并在两种情况下更新名称。[1] 2020年添加了古菌信息,[2] 以及基于平均核苷酸同一性英语Bacterial genomeaverage nucleotide identity)的物种分类。[3] 每次更新都包含新的基因组及其分类的自动和手动管理。[4]

一个名为GTDB-Tk的开源工具可用于将草图基因组分类到GTDB层次结构中。[5] GTDB系统通过GTDB-Tk已用于对人类肠道微生物组和其它宏基因组来源中尚未命名的细菌进行分类。[6][7]

GTDB于2019年被纳入《伯吉氏古菌和细菌系统学手册》,作为其系统基因组学资源。[8]

方法论

[编辑]

用于构建系统发育的基因组来自美国国家生物技术信息中心参考序列英语RefSeq〔RefSeq〕和基因银行〔Genbank〕),GTDB发布版本已索引到RefSeq版本,从版本76开始。重要的是,该数据集越来越多地包含从宏基因组和单细胞获得的未培养微生物的草图基因组,以确保微生物世界的基因组代表性得到提升。所有基因组在纳入GTDB之前均使用CheckM进行独立质量控制。[9]

基因组首先经过基因调用(gene calling)来提取基因。分类学基于以下树状图:在WAG模型下,使用FastTree从120个单拷贝标记蛋白的串联集合推断出细菌的分类树;在PMSF模型下,使用IQ-TREE从53个(自RS207以来;之前为122个)标记蛋白的串联集合推断出古菌的分类树。此外,还使用了其他标记集(包括串联核糖体蛋白和核糖体 RNA 基因)来交叉验证树状图的拓扑结构。[9] 《相对进化分歧》(relative evolutionary divergence,RED)指标决定了所使用的分类等级,它是由PhyloRank程序从两个主要树中得出的。[1]

物种划分使用平均核苷酸同一性和比对分数,两者均由“skani”计算。对于先前版本中存在的物种,GTDB会比较两个基因组的质量和位置,并可能决定切换到新的《物种代表》(species representative)基因组。[9]

分类法来自以下来源:

GTDB人员通过对照PhyloRank(系统等级)和树枝的结果来整理来自上述来源的分类法。

  • 分类单元名称对应的树节点的RED可能与其等级不匹配。该名称可以移至其他节点,或(通过更改拉丁后缀)移至其他等级。[1]
    • 如果分歧过大,可能会在物种或属的层面上进行分裂。这样做会产生新的分类单元。[3]
  • 该分类单元可能最终是多系群的。管理员首先将分类单元限定在包含其模式材料的演化支内。然后为每个其他演化支创建一个新的分类单元。[1]

对于每个新的分类单元,管理员都会尝试在文献中为其寻找一个建议名称。如果没有建议名称,则会在原名称后添加一个后缀,赋予该分类单元一个占位符名称,例如Lactobacillus gasseri_A(加塞尔氏乳杆菌英语Lactobacillus gasseri_A)。“Z”之后是“AA”。[1]

数据库的内容

[编辑]

每个版本包含:[10]

  • 分类表包含所有基因组组合在门到种分类中的分配情况。(每个域一个。)
  • 包含每个基因组组装元数据的文件,包括来自

NCBI的原始分类、原始菌株标识符、GTDB分类、质量评估以及重要基因(tRNArRNA)的存在情况。(每个领域一个。)

  • 物种树Newick文件包含物种代表性基因组(每个物种1个),构建方式如上一节所述。(每个域1个。)
  • 对于物种代表性基因组:
    • 从这些基因组中鉴定出的标记基因的比对
    • 包含每个物种的一个16S rRNA序列的文件
    • 包含这些基因组中所有预测基因的氨基酸和核苷酸版本的tarball
    • 包含所有这些基因组完整内容的tarball
  • 对于所有通过质量检查的基因组:
    • 从这些基因组中鉴定出的标记基因的比对
    • 包含从这些基因组中识别出的所有16S rRNA序列的文件
  • 辅助文件;请参阅完整的FILE_DESCRIPTIONS.txt。

网页界面会显示一个基于分类法(而非整个Newick文件)的树状结构,直至基因组组装层级。每个基因组组装都有一个页面,详细说明其元数据以及在每次GTDB版本中其分类的历史记录。此外,它还具备搜索功能。

对公认分类法的影响

[编辑]

GTDB“现已成为原核生物分类学的重要资源”。其物种树及其方法论要素均被分类学家用来改进《原核生物法规》(Prokaryotic Code)下现行公认的分类法。例如,分类学家可以在自己的系统发育树之上引用GTDB树,以进一步支持其分类学提案。[11]

甚至还有更雄心勃勃的提议,要将数据库的大部分内容导入公认的分类法。2022年,《国际系统与进化微生物学杂志》(IJSEM)上由第三方作者撰写的一篇文章提出,应该根据毫无意义的拉丁音节为超过6.5万个GTDB分类单元命名,[12]尽管这些名字都没有进入LPSN。 GTDB团队在2023年发表的一篇文章中提出将223个高阶分类单元导入《原核生物法规》系统,将 49 个高阶分类单元导入《序列法规》(SeqCode)系统。[13] 《原核生物法规》中公布的许多名称已经得到验证。[14] (《序列法规》 要求注册名称才能有效发布,这也已经完成。)

参阅

[编辑]

参考文献

[编辑]
  1. ^ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Parks, DH; Chuvochina, M; Waite, DW; Rinke, C; Skarshewski, A; Chaumeil, PA; Hugenholtz, P. A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. (PDF). Nature Biotechnology. November 2018, 36 (10): 996–1004. PMID 30148503. S2CID 52093100. bioRxiv 10.1101/256800可免费查阅. doi:10.1038/nbt.4229. 
  2. ^ Rinke, Christian; Chuvochina, Maria; Mussig, Aaron J.; Chaumeil, Pierre-Alain; Davín, Adrián A.; Waite, David W.; Whitman, William B.; Parks, Donovan H.; Hugenholtz, Philip. A standardized archaeal taxonomy for the Genome Taxonomy Database (PDF). Nature Microbiology. 21 June 2021, 6 (7): 946–959. ISSN 2058-5276. PMID 34155373. S2CID 235595884. doi:10.1038/s41564-021-00918-8 (英语). 
  3. ^ 3.0 3.1 Parks, DH; Chuvochina, M; Chaumeil, PA; Rinke, C; Mussig, AJ; Hugenholtz, P. A complete domain-to-species taxonomy for Bacteria and Archaea.. Nature Biotechnology. September 2020, 38 (9): 1079–1086. PMID 32341564. S2CID 216560589. bioRxiv 10.1101/771964可免费查阅. doi:10.1038/s41587-020-0501-8. 
  4. ^ For information on each update, see relevant change logs. For notable, paper-worthy changes, see "Cite GTDB" section on the About page.
  5. ^ Chaumeil, PA; Mussig, AJ; Hugenholtz, P; Parks, DH. GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database.. Bioinformatics. 15 November 2019, 36 (6): 1925–1927. PMC 7703759可免费查阅. PMID 31730192. doi:10.1093/bioinformatics/btz848可免费查阅. 
  6. ^ Almeida, Alexandre; Nayfach, Stephen; Boland, Miguel; Strozzi, Francesco; Beracochea, Martin; Shi, Zhou Jason; Pollard, Katherine S.; Sakharova, Ekaterina; Parks, Donovan H.; Hugenholtz, Philip; Segata, Nicola; Kyrpides, Nikos C.; Finn, Robert D. A unified catalog of 204,938 reference genomes from the human gut microbiome. Nature Biotechnology. 20 July 2020, 39 (1): 105–114. PMC 7801254可免费查阅. PMID 32690973. doi:10.1038/s41587-020-0603-3可免费查阅. 
  7. ^ Nayfach, Stephen; et al. A genomic catalog of Earth's microbiomes. Nature Biotechnology. 9 November 2020, 39 (4): 499–509. PMC 8041624可免费查阅. PMID 33169036. doi:10.1038/s41587-020-0718-6可免费查阅. 
  8. ^ Incorporation of Phylogenomics into BMSAB. Bergey's Manual Trust. 
  9. ^ 9.0 9.1 9.2 METHODS.txt (GTDB release 220). data.gtdb.ecogenomic.org. 2024. 
  10. ^ 220.0/FILE_DESCRIPTIONS.txt. 
  11. ^ Gupta, Radhey S.; Patel, Sudip; Saini, Navneet; Chen, Shu. Robust demarcation of 17 distinct Bacillus species clades, proposed as novel Bacillaceae genera, by phylogenomics and comparative genomic analyses: description of Robertmurraya kyonggiensis sp. nov. and proposal for an emended genus Bacillus limiting it only to the members of the Subtilis and Cereus clades of species. International Journal of Systematic and Evolutionary Microbiology. 1 November 2020, 70 (11): 5753–5798. PMID 33112222. doi:10.1099/ijsem.0.004475. 
  12. ^ Pallen, MJ; Rodriguez-R, LM; Alikhan, NF. Naming the unnamed: over 65,000 Candidatus names for unnamed Archaea and Bacteria in the Genome Taxonomy Database. (PDF). International Journal of Systematic and Evolutionary Microbiology. September 2022, 72 (9). PMID 36125864. doi:10.1099/ijsem.0.005482可免费查阅. 
  13. ^ Chuvochina, M; Mussig, AJ; Chaumeil, PA; Skarshewski, A; Rinke, C; Parks, DH; Hugenholtz, P. Proposal of names for 329 higher rank taxa defined in the Genome Taxonomy Database under two prokaryotic codes.. FEMS Microbiology Letters. 17 January 2023, 370. PMC 10408702可免费查阅. PMID 37480240. doi:10.1093/femsle/fnad071.  已忽略未知参数|article-number= (帮助)
  14. ^ Oren, Aharon; Göker, Markus. Validation List no. 215. Valid publication of new names and new combinations effectively published outside the IJSEM. International Journal of Systematic and Evolutionary Microbiology. 1 February 2024, 74 (1). PMID 38299482. doi:10.1099/ijsem.0.006173可免费查阅. 

延伸阅读

[编辑]

外部链接

[编辑]
  • AnnoTree — 使用GTDB(R95或R214)物种树可视化基因组注释的第三方工具。