利用大“组学”数据和人工智能在肝细胞癌中发现药物
机器学习方法
人工智能:
一组智能计算机程序,有助于解决人类发现困难或无法解决的挑战。它包括广泛的机器学习算法。
深度学习(DL):
DL 源于经典的机器学习算法,称为人工神经网络,旨在通过改变神经元之间突触连接的强度来模仿大脑如何学习复杂的模式。DL 使用深度人工神经网络(即输入和输出层之间的许多人工神经元层)来学习输入特征(例如基因组特征)之间的内部线性和/或非线性关系。这种技术通常大大优于依赖领域专家提供的功能的系统。由于隐藏了许多潜在关系的大数据的出现以及允许计算机从 DL 网络快速解决复杂数学问题的计算能力的增强,DL 的力量得以释放。
自编码神经网络:
自编码器是一种无监督的 DL 算法,它学习输入数据的表示,通常被认为是一种降维方法。与主成分分析 (pCA) 等其他方法相比,自编码器可以捕获输入特征之间的非线性关系,在处理高维数据方面具有独特的优势。
非负矩阵分解算法:
无监督学习算法,包括 PCA,涉及分解受不同约束的数据矩阵。根据所使用的约束,结果因子可以显示为具有非常不同的表示特性。在非负矩阵分解中,一个矩阵被分解为两个矩阵,三个矩阵都没有负元素。这种特性导致模型比 pCA 等模型更容易解释,因此在从图像、文本或 RNA 测序计数中分解数据集时很受欢迎,其中输入特征是非负的。
分类:
一种使用基因表达数据估计混合细胞群(大块组织样本)中成员细胞类型丰度的计算工具。
Cox 比例风险回归:
Cox 比例风险建模是一种常用的生存建模方法。生存模型将事件发生之前经过的时间与可能与该时间量相关联的一个或多个协变量相关联。生存模型由两部分组成:基础基线风险函数,描述每时间单位事件风险在协变量的基线水平上如何随时间变化,以及效应参数,描述风险如何响应解释性协变量而变化。
“集群集群”方法:
该工具是一种无监督的共识聚类方法,旨在整合从不同组学平台识别的聚类。它与每个平台的特征数量无关,每个平台的贡献由其集群数量决定。