1. 对于一个n*p的数据矩阵X,其中存在含缺失值的变量Xs。
  2. 将数据分为4部分,包括Xs的观测值yobs(s),Xs的缺失值ymis(s),除Xs外的观测值xobs(s),除Xs的缺失值xmisi(s)。
  3. 使用随机森林训练y~x的模型,预测Xs的缺失值。如有其他变量缺失值,采用迭代方式求解,首先进行初始猜测,然后按缺失率从小到大排序,先对缺失率小的变量使用随机森林填补其缺失值,最后迭代,直到填补结果不再变化时停止。
请为以下内容降重:①	假设数据𝑋 = 𝑋 𝑋2 𝑋𝑝为𝑛 ∗ 𝑝的一个矩阵 𝑋𝑠为任一含有缺失值的变量。②	将数据分成 4 部分:用𝑦𝑜𝑏𝑠 𝑠 表示𝑋𝑠的观测值;用𝑦𝑚𝑖𝑠 𝑠 表示𝑋𝑠的缺失值;用𝑥𝑜𝑏𝑠 𝑠 表示𝑋𝑠观测值以外的其余观测值;用𝑥𝑚𝑖𝑠 𝑠 表示𝑋𝑠的缺失值以外的其余观测值。③	使用随机森林

原文地址: https://www.cveoy.top/t/topic/fmpz 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录