准考证号,身份证号码,TCGA样本条形码的区别

TCGA教程足够多了,有学员不理解TCGA样本编号问题,所以一个简单的比喻来阐述一下。

准考证号

这个大家从小就接触过,这里以四六级准考证号码解析为例,四六级准考证号一共由15位组成(如下图)

提醒:这种方法仅供参考,可能会有误差。最好是找到当时跟自己一个考场的同学,问问他们的准考证号,再结合自己的信息进行推算,这样成功的机率比较大哦~

是不是瞬间就理解了?

再看看身份证号码

早期'身份证号码’叫'社会保障号’,为15位,1999年开始更名为公民身份证号码,即第二代身份证,为18位,且终身不变。

公民身份号码是特征组合码,由前十七位数字本体码和最后一位数字校验码组成。排列顺序从左至右依次为六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。

最后看我们需要记忆的TCGA编码

接触和分析过TCGA数据的朋友肯定会经常处理TCGA barcode的前15位(有时12位),实际从上图可以看出TCGA的barcode设计总共有28位之多。每一个短横杠衔接的都是含不同意义的序列,如下所示:

具体每一个字段介绍自己看官网

参考:https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/

将barcode的组成从层次结构(树)来看,是这样的:

数据类型非常多

不同的数据之间需要关联,同一个病人有多种数据,甚至一种数据也有多个,比如转录组数据某病人就有癌症和癌旁,都需要用ID来进行关联和区分。

写在最后

因为这个学员问题比较简单,没有资格列入我的TCGA 28篇教程,所以大家就随意看看哈!

(0)

相关推荐