QIIME 2教程. 27语义类型Semantic(2020.11)
语义类型
Semantic types
https://docs.qiime2.org/2020.11/semantic-types
所有的QIIME 2的对象(documentation)都定义了语义类型。此文介绍了如何使用这些语义类型,如何在QIIME 2插件中定义新的语义类型。
为什么定义语义类型
Why define semantic types?
定义语义类型可以帮助我们确保被传递到某个动作的数据是有意义的。例如,一个biom.Table
可以含有0/1数据,其中0代表未观察到某OTU,1代表有某个OTU。不过,这种0/1数据无法用于计算定量的多样性指标。这种定量多样性指标(比如加权UniFrac)在计算时使用了丰度信息,虽然计算过程能够顺利完成,但是计算结果毫无意义。
QIIME 2定义的语义类型可让系统自动推断哪些文件可以进行哪种分析和可视化,从而避免这些功能使用上的错误。
常用的语义类型
Common semantic types
除非另有说明,否则以下语义类型由q2-types插件定义并可以从其中导入。还可以在任何插件中定义语义类型,因此可用的语义类型不限于q2-types中定义的那些。我们团队即将添加有关如何完成此类操作的说明。同时,您可以参考q2-dummy-types仓库以获取带注释的示例。
FeatureTable[Frequency]
: 频率特征表(比如OTU表),表中为每个样品中对应OTU出现的频率,即每个物种的原始读长数。
FeatureTable[RelativeFrequency]
: 相对频率特征表,也叫相对丰度特征表,OTU表标准化为百分比,即每个样品所有物种的合计数为1。
FeatureTable[PresenceAbsence]
: 二元特征表,0/1代表在某个样本中是否检测到某个OTU。
FeatureTable[Composition]
: 组成型特征表,或者叫构成比特征表,表中的数值>0。组成型特征表和FeatureTable[Frequency]
有区别,前者是标准化后的数据,后者是原始数据。组成型特征表和FeatureTable[RelativeFrequency]
也有区别,后者特别强调每个样品中物种合计数为1。
Phylogeny[Rooted]
: 有根进化树。
Phylogeny[Unrooted]
: 无根进化树。
DistanceMatrix
: 距离矩阵。
PCoAResults
: 主坐标分析结果。
SampleData[AlphaDiversity]
: Alpha多样性结果,每个α多样性值与单个样本标识符关联。
SampleData[SequencesWithQuality]
: 带质量数据的序列,要求有质量值,要求序列名称与样品存在对应关系,比如按样品拆分后的数据。
SampleData[PairedEndSequencesWithQuality]
: 有质控信息的双端序列,要求序列ID与样品编号存在对应关系。
FeatureData[Taxonomy]
: 有每一个OTU/Feature物种分类信息的数据。
FeatureData[Sequence]
: 单个未比对的数据。
FeatureData[AlignedSequence]
: 单个已经比对的序列。
FeatureData[PairedEndSequence]
: 双端序列。
EMPSingleEndSequences
: 采用地球微生物组计划标准实验方法产生的单端测序数据。
EMPPairedEndSequences
: 采用地球微生物组计划标准实验方法产生的双端测序数据。
TaxonomicClassifier
: 已经训练过的用于物种注释的“物种分类器”。这种类型的文件在q2-feature-classifier插件中定义。
译者简介
刘永鑫,博士,中科院青促会会员,QIIME 2项目参与人。2008年毕业于东北农业大学微生物学专业,2014年于中国科学院大学获生物信息学博士,2016年遗传学博士后出站留所工作,任工程师。目前主要研究方向为宏基因组数据分析。目前在Science、Nature Biotechnology、Protein & Cell、Current Opinion in Microbiology等杂志发表论文30余篇,被引2千余次。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章2400余篇,代表作有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》、 《微生物组实验手册》、《微生物组数据分析》等,关注人数11万+,累计阅读2100万+。
Reference
https://docs.qiime2.org/2020.11
Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. doi:10.1038/s41587-019-0209-9