这篇4+分非肿瘤生信思路值得借鉴!
Smoking and blood DNA methylation: an epigenome-wide association study and assessment of reversibility吸烟与外周血DNA甲基化:表观基因组关联分析及可逆性评估
一、研究背景
先前的一些研究对暴露于烟草制品的烟雾与外周血甲基化水平的相关性做了一些探索,发现了一些与吸烟有关的CpG位点(P<10^−7)。但各项研究对比来看,可能因选择偏倚以及方法学上的差别,结果存在较大差异。另外,有些研究发现了从未吸烟,曾经吸烟以及当前吸烟的个体DNA甲基化水平的差异,并进一步发现吸烟相关的甲基化有一定的可逆性。对吸烟相关的甲基化水平改变的研究有助于我们理解吸烟在生物学层面对人体的影响,而在临床实践上,也能为我们提供一些参考。
二、研究流程
三、结果解析
基线数据简述
如表1,来自Melbourne Collaborative Cohort Study(MCCS)的5044名参与者被纳入横向分析,年龄中位数为60.7(四分位距(IQR)=53.9-65.4)。参与者中655名为当前吸烟者,2010名为曾经吸烟者,2379名为从未吸烟者。
纳入纵向分析的参与者基线数据显示年龄较小(中位数58.5)。
注:下文中如无特殊说明,将以(Md:a, IQR=b-c)格式展示中位数a以及四分位距b-c。
表1.研究的基线资料表
1.从未、曾经与当前吸烟者的对比
以P<10^-7为阈值,作者在MCCS的数据中发现了1851个在当前与从未吸烟者中甲基化存在差异的CpG位点。156个在曾经与从未吸烟者中甲基化存在差异的位点,156个中140个位点在当前与从未吸烟者中也存在差异。总的来说,1851个与当前吸烟者关联的CpG位点中的917个(50%)先前未被在P<10^-7为阈值下发现并报道过,而1851个中1124个(61%)位点在当前与曾经吸烟者中存在差异。这样的结果提示我们——从未、曾经、当前吸烟者的血液DNA甲基化水平存在差异,且因吸烟改变的甲基化水平可能会因戒烟而在一定程度上恢复。
而可逆性系数计算的结果(Md:74%, IQR=63%-86%)也表明——曾经吸烟者DNA甲基化水平在一定程度上可以回归到从未吸烟者的平均水平 。
注:可逆性系数是将曾经与当前吸烟者,从未与当前吸烟者分别进行回归分析,将前者回归系数比上后者得到
2.综合吸烟指数(CSI)与τ值
综合吸烟指数(Comprehensive smoking indices)是作者提出的一个量化吸烟者受吸烟影响程度的指标,将每日平均的吸烟支数(N),吸烟持续的年数(T),戒烟持续的年数(tsc)以及烟雾成分体内代谢半衰期系数(τ)纳入考量。公式如下:
作者将τ=1-50分别带入CSI公式中,获得的MCCS参与者的吸烟类别与CSI关系如图1(只展示6个τ值)。从图中我们可以看出,τ值过小(如τ=1)或过大(如τ=50)都会造成结果的失真,而在不失真的前提下,较小的τ值对应的CSI分布更接近于作者对吸烟的生物学效能的假设(即从1类-7类,CSI倾向于逐级下降)。
因为τ值在公式中为一个常量,需要先求出τ才能进行CSI的计算,所以作者首先通过使用先前6个研究中发现的3327个不同的CpG位点的甲基化数据估计了τ值(Md:2.25, IQR:1-5.25)。为进一步改进结果,作者选择了在MCCS数据中复现前人的结果得出的1277个位点估计了新的τ值(Md:2.75, IQR:1.5-5.25)。作者用中位数,第25百分位数以及第75百分位数这三个τ值带入CSI后,将CSI纳入模型进行了表观遗传组关联分析研究(EWAS),分别识别出了3497个(τ = 2.75),4022 个(τ = 1.5) 和2433 个(τ = 5.25)个吸烟相关的甲基化位点。这样的结果从侧面反映了较小的τ值可能对应更高的灵敏度。
在以上分析中,总共有4496个吸烟与甲基化水平的关联位点被识别出,其中3296个(73%)从未被其它研究以P<10^-7为阈值发现并报道过,这些位点对应了1326个先前被认为不受吸烟相关甲基化水平变化影响的基因。作者在Joehanes et al.的研究数据中尝试复现这些位点,发现从未被报道过的3296个位点中有1189个在p<0.019(FDR矫正p<0.05)的阈值之下可被复现。
为了评估对模型影响较大的因素,作者进行了敏感性分析,在未对基线数据中酒精摄入和/或BMI进行调整的情况下,得到的关联位点结果与原结果非常相似。说明这两个因素对模型的影响不大。而使用pack-year(每天吸烟的包数×吸烟的总年数)代替CSI得出的结果与使用CSI得到的结果差异较大——作者将pack-year取对数后进行了EWAS,只识别到了930个与吸烟相关的甲基化位点(p<10^-7),明显少于先前发现的4496个,提示CSI对模型的影响较大,且纳入CSI的模型可能具有更高的灵敏度。
图1.不同τ值下吸烟类别对应的CSI值分布(吸烟类别——1:当前每日吸20支及以上的烟;2:当前每日吸10-20支烟;3:当前每日吸少于10支烟;4:15年内曾经吸烟且曾每日吸20支及以上的烟;5:15年内曾经吸烟且曾每日吸少于20支烟;6:戒烟超过15年且曾每日吸20支及以上的烟;7:戒烟超过15年且曾每日吸少于20支烟)。
关于τ值的补充解释:
作者起初在构建CSI公式的时候,假设吸烟之后的反应为一级反应,另外还假设一旦吸烟立即造成影响,故CSI公式原来是这样的:
τ为一个代表烟雾成分体内代谢半衰期的因数,作者认为其可代表吸烟导致的甲基化改变在戒烟后恢复所需的时间长短。虽然作者后来将该公式进行了对数化处理,但其趋势没有改变。每个甲基化位点因各种因素的影响,可能会有不同的τ值,作者将每个甲基化位点与对应吸烟情况的相关数据,通过最大似然的方法求出对应的τ值再进行后续的分析。作者在上文中还取了τ的中位数,第25百分位数和第75百分位数统一带入CSI后再进行关联分析。对于τ值的获得以及使用是否合理,作者的表述是在模型中表现不错,但是否能真正应用需要进一步的深入研究。
3.其它因素与甲基化的相互影响分析
在使用Bonferroni校正 (P=0.05/4,496=1.1x10−5) 并将CSI的τ值设为较小的第25百分位数1.5后,作者分析发现女性的DNA甲基化与吸烟的相关性在未注释到基因上的CpG位点中更弱。而在BMI较高的参与者中观察到的相关性在5个CpG位点中更弱,这5个位点中包括2个AHRR基因的甲基化位点。另外,作者还发现AHRR基因甲基化与吸烟的相关受出生国家的影响——英国出生的参与者未注释的CpG位点甲基化改变更不显著。以上结果预示着性别、肥胖以及出生地对吸烟相关的甲基化存在影响。
另外,作者对吸烟状况(从未、曾经、当前)与年龄,酒精摄入及未来患病情况之间进行了分析,未观测到显著的相互影响。(作者的数据来自于MCCS,本来是一个癌症与膳食相关的研究,所以会有未来患病情况这个因素,而因为数据筛选的时候剔除了与吸烟高度相关的癌症,故这里未观测到显著的相互影响。)
4.对先前报告中相关位点的复现
对先前6个研究中得到的当前吸烟者吸烟与全血DNA甲基化关联的3327个位点,作者进行了检验。将MCCS中当前吸烟者与从未吸烟者两组对比,在方向相同(即同一位点都超甲基化或低甲基化)的大前提下,使用p<0.05作为阈值时复现了2795个,p<10^-7作为阈值时复现了934个。将3个τ值(1.5,2.75,5.25)统一代入CSI后再进行复现,复现出的则是2946(p<0.05)和1200个(p<10^-7)。
在一项报道了2500个相关位点的研究中,作者将MCCS中当前与从未吸烟者两组对比,复现了1983个位点(P<0.05),其中有97%的位点被两个或以上的研究报道过。
最后,使用当前与曾经吸烟者的数据比较,作者对两项研究进行了检验。Besingi et al. 的研究报告了54个P>10^-7的相关位点,作者发现使用本文中的数据及模型分析后复现了45个位点(FDR p<0.05),其中42个通过了Bonferroni校正的多重检验(P<9x10^-4);Joehanes et al. 的研究报告了16138个P>10^-7的相关位点,作者复现了9337个位点(FDR p<0.05),而其中1363个通过了Bonferroni校正的多重检验(P<3x10^-6)。
作者随后研究了早前报道的曾经与从不吸烟者的DNA的甲基化差异,在一项研究中,以P<10^-7为阈值发现并报道了146个相关位点,作者在MCCS数据中以p<0.05为阈值复现了129个,以p<10^-7为阈值则是60个。而所有被两次及以上报告过的相关位点都在MCCS数据中得以复现。
在上文中,作者使用了MCCS的数据在本文的模型中尝试复现了前人的研究结果,整体来看复现情况还是不错的,但对Joehanes et al.的研究结果的复现并不理想(9337/16138),作者认为这可能是因为使用FDR矫正的p值使筛选条件变得更严格所致。
更多详细数据可以参考表2
表2.对前人研究的复现情况
5.甲基化情况的可逆性
经过计算后作者发现,4496个在MCCS中预测到的相关位点对应的τ值跨度较大,但其中90%小于6(Md:1.75,IQR:1.25-3),与先前6个研究项目中3327个报告的位点对应的τ(Md:2.25, IQR:1-5.25)较为一致。
图2左图展示了MCCS数据中估计的τ值和可逆性系数的关系,从图中我们可以发现,可逆性系数越小,对应的τ值越高,提示我们更低的可逆性对应着更长的烟雾成分体内代谢半衰期(或者说对甲基化的影响恢复耗时更长),符合一般的经验。
作者随后在3个先前的甲基化情况可逆性研究中检验了τ的分布规律。第一个是 Guida et al.的研究,其中位点被分为可逆和不可逆两组,本文作者在其中发现了较弱的的证据提示不可逆组的τ值要高(Wilcoxon秩和检验,单尾P=0.03);第二个是 Joehanes et al.的研究,该研究发现36个位点在戒烟30年后甲基化水平仍没有恢复。本文作者发现这36个位点的τ值相对较高(单尾P<0.001);第三个是Wilson et al.的研究,研究发现15个位点在40年及以上的戒烟后仍未恢复甲基化水平,在其中本文作者发现了较弱的证据证明这些位点对应的τ较高(单尾P=0.05)。以上结果进一步证实了图2左图中观测到的规律。
图2中图展示了横向分析中估计的τ值与关联强度的关系,可以看到,p<10^-20的组对应的τ值稍高,提示更高的关联强度可能与更高的τ值相关,不过这个猜想尚需要更多证据支持。
作者进一步验证了MCCS中横向分析得到的4496个相关位点的纵向关联(间隔11年两次采集甲基化水平和吸烟相关信息)。当对基线中的吸烟状态进行校正并将CSI的τ设为1.5后,作者发现以一直吸烟的参与者作为参考,中途戒烟的参与者有368个甲基化位点存在差异,基线上的曾经吸烟者有280个位点存在差异,而从未吸烟者,则有262个位点存在差异。基线中代表甲基化水平的M值未做调整的情况下,结果在定性的层面上看与原结果相似,但位点的数量稍微少一些。以上结果与预期有出入,作者认为可能是样本量不够大以及存在混淆变量等原因造成的。
通过使用调整了基线中吸烟状态和M值的结果进行分析,作者发现没有证据表明在戒烟与一直吸烟的参与者比较中,与吸烟关联强度高的相关位点对应更高的τ值(图2右),这与横向分析中τ与关联强度的关系(图2中)存在出入。作者表示,二者的关系究竟如何,需要更多的研究进一步确认。
图2左.τ与可逆性系数的关系图2中.横向分析中τ与关联强度的关系图2右.纵向分析中τ与关联强度的关系
小结
小结:作者通过创造性地在模型中引入综合吸烟指数(CSI)这个概念,对前人的研究进行了重新检验,并对MCCS的结果进行了横向及纵向分析,发现从未吸烟,曾经吸烟和当前吸烟者外周血DNA甲基化在某些CpG位点中存在差异,另外还观测到了戒烟后甲基化水平存在可逆性的趋势。此外,作者还探索了τ值的规律。但CSI和τ值的使用是否真的合理,需要进一步的研究来探明。