基于极端梯度提升模型的肝癌复发预测模型及其学习过程

该模型的学习过程可从以下数据构建:

(1) 模型: 极端梯度提升 (Extreme gradient boost) (2) 样本量: 61个肝癌患者样本 (31个复发人群, 30个不复发人群), 每个样本采集两个位置的ROIs。大部分样本重复数为5，个别样本重复数为3或4。将各个样本两个位置的ROIs进行交叉重组 (如: 原样本数据每个位置的样本量为5，经交叉重组后该变为5x5)。每个样本包含 (SPON2, ZFP36L2, ZFP36, VIM, HLA-DRB1). (3) 参数确定: 通过准确率 (accuracy), 真阳性预测率 (PPV), 真阴性预测率 (NPV), ROC曲线下面积 (AUC) 来评估模型性能从而得到最佳模型参数 (如图3所示). (4) 模型固定: 将1) 中的61个肝癌样本ROIs (不经过交叉重组) 作为数据，用 (3) 中得到的最佳模型参数来进行最终的xgboost模型确定. (5) TIMES计算: validation数据用 (4) 提到的最终 (最佳) xgboost模型得到validation数据每个样本不同基因的是否复发的概率值。接着求解每个样本不同基因复发概率的平均值和误差, 根据这些平均值和误差计算加权平均数，从而得到最终的TIMES。我们以0.5作为分界线，TIMES高于0.5的偏向预测为复发人群，低于0.5的为不复发。 (6) 模型中公式带入: 损失函数分布: Bernoulli

极端梯度提升模型

参数: 迭代次数: T=1000，每棵树的深度: K=10，学习率: λ=0.01，次采样率: p=0.5，初始函数: ˆf(x) = arg minρ ΣNi=1 Ψ(yi, ρ) 计算公式: 以下步骤均迭代1000次计算负梯度作为模型响应 zi = − ∂/(∂f(xi)) Ψ (yi, f(xi)) |f(xi)= ˆf(xi) 从样本中抽取0.5 x x为 (1) 提到的样本量拟合终端点为10 (K) 的回归树，g(x) = E(z|x) 计算最有的终端点预测 ρ1, . . . , ρK

其中Sk是定义终端节点k的xs的集合。更新ˆf(x) f(x) ← ˆf(x) + λρk(x) λ=0.01 其中k(x)表示具有特征x的观测值将落入的终端节点的索引。加权几何平均数

X是 (5) 中TIMES过程中每个样本各个基因概率值的平均值mean，f是计算TIMES过程中每个样本各个基因概率值的sd。本发明的主要优点是: 1) 实验方法成熟，检测过程简单，直观且便于重复，无技术难度。 2) 通过人工识别和图像定量分析结合可以使得结果客观准确。 3) 与临床上常用的TNM分期和BCLC分期相比，该模型的预测准确率更高(HR = 29.6, P < 0.001)。