这一步是将 df_nan 数据框中随机选择的 25 个观测值的'Math'列设置为缺失值 (NaN)。

代码 df_nan.loc[np.random.randint(0,df.shape[0],25),['Math']]=np.nan 实现以下功能:

  1. np.random.randint(0,df.shape[0],25):随机生成 25 个介于 0 到 df 数据框行数之间的整数,用于选择随机行。
  2. df_nan.loc[...]:使用 .loc 属性根据索引选择数据框中的行。
  3. ['Math']:选择数据框的'Math'列。
  4. =np.nan:将选择的行和列的值设置为缺失值 (NaN)。

通过此操作,可以在'Math'列中引入缺失值,模拟真实数据集中可能存在的缺失值情况,以便进行数据清洗和缺失值处理的练习或测试。

Pandas 数据框中随机插入缺失值 (NaN)

原文地址: https://www.cveoy.top/t/topic/fu4A 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录