SEER数据库系列|SEER数据分析
欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO,SEER数据挖掘。
.
SEER数据分析
SEER计划由18个地区癌症登记机构组成的联盟,这些登记机构进行了严格而一致的数据收集和标准制定。SEER计划在其18个定义明确的区域提供了所有癌症和特定地点癌症随时间的年度频率分布,发病率,患病率和死亡率数据。SEER癌症发病率是按年龄标准化的,可将处于危险之中的人群或其中的人群的年龄分布调整为标准人群。
通过年龄标准化或调整,可以比较不同种族群体和地理位置之间的癌症发生率。例如,可以比较夏威夷和犹他州的年龄标准化癌症发病率,即使夏威夷的总人口年龄比犹他州大。年龄校正还可以按日期比较发病率,而与处于风险中的人口年龄结构随时间变化无关。
由于SEER提供的数据适合通过定义的特征对人群中的病例进行比较分析,因此可以用来回答有关种族差异,新医疗实践的影响以及病因暴露变化的关键问题。年龄校正后的癌症发病率或死亡率代表了癌症的绝对风险,通常表示为每年每100,000人新诊断出的癌症病例数或死亡人数。
Cancer-specific survival 是诊断后指定时间间隔内存活的癌症个体的百分比。当死亡率分子(死者或病例数)完整但分母(高危人群)不完整时,通常在病理病例系列中考虑生存数据。即,当记录了整个人群中罹患癌症风险的个体数量时,死亡率数据通常仅在基于人群的数据集(例如SEER)中可用。
SEER还按阶段生成针对特定部位的原位癌和浸润性癌的特定年龄发病率,从而(通常)告知各种疾病状态之间的平均时间。例如,在就宫颈癌和浸润性宫颈鳞状细胞癌和浸润性腺癌的诊断中,平均年龄的巨大差异支持了筛查和干预以预防这些癌症的价值,并为考虑临床指南提供了价值。随着SEER计划包括有关癌症病例更复杂特征的越来越完善的信息,包括生物标志物和分子谱等信息,这些数据将越来越多地能够计算精确率和趋势-朝着“精确监视”迈进。
. 基于SEER数据库的研究
SEER数据资源已被全球研究人员广泛分析,并提供有关美国癌症和肿瘤学实践的重要见解。下面看下 Pubmed的文章引用情况。
1973年到2015年,PubMed(www.ncbi.nlm.nih.gov/pubmed)搜索中的40,031次引用使用关键词“监视”,“流行病学”和“最终结果”确认,例证并突出了该SEER的研究效率。这些基于SEER数据的研究通常是观察性的,研究癌症在人群和群体中的分布以及人口统计学,临床病理学和治疗变量如何影响癌症负担。一些研究将SEER数据集与其他注释更为丰富的数据集联系起来。然后可以对这些综合数据集进行分析,以识别可能的风险因素,从而通过实验研究设计来验证假设。