该模型的学习过程可从以下数据构建:

(1) 模型: 极端梯度提升 (Extreme gradient boost) (2) 样本量: 61个肝癌患者样本 (31个复发人群, 30个不复发人群), 每个样本采集两个位置的ROIs。大部分样本重复数为5,个别样本重复数为3或4。将各个样本两个位置的ROIs进行交叉重组 (如: 原样本数据每个位置的样本量为5,经交叉重组后该变为5x5)。每个样本包含 (SPON2, ZFP36L2, ZFP36, VIM, HLA-DRB1). (3) 参数确定: 通过准确率 (accuracy), 真阳性预测率 (PPV), 真阴性预测率 (NPV), ROC曲线下面积 (AUC) 来评估模型性能从而得到最佳模型参数 (如图3所示). (4) 模型固定: 将1) 中的61个肝癌样本ROIs (不经过交叉重组) 作为数据,用 (3) 中得到的最佳模型参数来进行最终的xgboost模型确定. (5) TIMES计算: validation数据用 (4) 提到的最终 (最佳) xgboost模型得到validation数据每个样本不同基因的是否复发的概率值。接着求解每个样本不同基因复发概率的平均值和误差, 根据这些平均值和误差计算加权平均数,从而得到最终的TIMES。我们以0.5作为分界线,TIMES高于0.5的偏向预测为复发人群,低于0.5的为不复发。 (6) 模型中公式带入: 损失函数分布: Bernoulli

极端梯度提升模型

参数: 迭代次数: T=1000,每棵树的深度: K=10,学习率: λ=0.01,次采样率: p=0.5,初始函数: ˆf(x) = arg minρ ΣNi=1 Ψ(yi, ρ) 计算公式: 以下步骤均迭代1000次 计算负梯度作为模型响应 zi = − ∂/(∂f(xi)) Ψ (yi, f(xi)) |f(xi)= ˆf(xi) 从样本中抽取0.5 x x为 (1) 提到的样本量 拟合终端点为10 (K) 的回归树,g(x) = E(z|x) 计算最有的终端点预测 ρ1, . . . , ρK

其中Sk是定义终端节点k的xs的集合。 更新ˆf(x) f(x) ← ˆf(x) + λρk(x) λ=0.01 其中k(x)表示具有特征x的观测值将落入的终端节点的索引。 加权几何平均数

X是 (5) 中TIMES过程中每个样本各个基因概率值的平均值mean,f是计算TIMES过程中每个样本各个基因概率值的sd。 本发明的主要优点是: 1) 实验方法成熟,检测过程简单,直观且便于重复,无技术难度。 2) 通过人工识别和图像定量分析结合可以使得结果客观准确。 3) 与临床上常用的TNM分期和BCLC分期相比,该模型的预测准确率更高(HR = 29.6, P < 0.001)。

基于极端梯度提升模型的肝癌复发预测模型及其学习过程

原文地址: https://www.cveoy.top/t/topic/lCgy 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录