Jupyter Notebook 中代码解析：读取 CMAPSS 数据集

这段代码的作用是定义数据文件路径并读取数据，其中包括训练数据和测试数据。通过设置列名方便索引数据。最后展示训练数据的前几行。

# define filepath to read data
dir_path = './CMAPSSData/'

# define column names for easy indexing
index_names = ['unit_nr', 'time_cycles']
setting_names = ['setting_1', 'setting_2', 'setting_3']
sensor_names = ['s_{}'.format(i) for i in range(1,22)] 
col_names = index_names + setting_names + sensor_names

# read data
train = pd.read_csv((dir_path+'train_FD001.txt'), sep='\s+', header=None, names=col_names)
test = pd.read_csv((dir_path+'test_FD001.txt'), sep='\s+', header=None, names=col_names)
y_test = pd.read_csv((dir_path+'RUL_FD001.txt'), sep='\s+', header=None, names=['RUL'])

train.head()

代码解释：

dir_path: 定义数据文件路径，此处为 ./CMAPSSData/。
index_names, setting_names, sensor_names: 定义列名以便于后续索引，分别代表单位编号、时间周期、设置参数和传感器数据。
col_names: 将所有列名组合起来。
pd.read_csv(): 使用 Pandas 库读取 CSV 文件，其中 sep='\s+' 表示以空格作为分隔符，header=None 表示没有标题行，names=col_names 指定列名。
train.head(): 显示训练数据的前几行。

代码的功能：

这段代码主要用于读取 CMAPSS 数据集，并将其划分为训练集和测试集，同时还读取了测试数据的剩余使用寿命（RUL）。通过定义列名，方便后续对数据进行访问和操作。