Python Pandas: 计算肿瘤和癌旁组织基因表达中位数

这段代码使用 Python Pandas 库读取 CSV 文件，并计算肿瘤和癌旁组织样本中每个属性 (A-H) 的基因表达中位数。

首先，代码读取名为 '2023_2_20_19.csv' 的 CSV 文件，并选择数据框的第 2 列到第 33 列，并将数据框分别筛选为 'tumor' 和 'peritumor' 两组数据。

然后，代码创建一个名为 'tumor_dict' 和 'peritumor_dict' 的字典，分别存储所有 'tumor' 和 'peritumor' 数据框，以属性名为键，对应的数据框为值。

接着，代码遍历每个属性 (A-H)，分别计算 'tumor' 和 'peritumor' 数据框中每个属性的基因表达中位数，并使用 to_frame() 方法将其转换为数据框。

最后，代码将每个属性的基因表达中位数以数据框形式打印输出。

输出内容:

代码输出的是每个肿瘤和癌旁组织样本中，每个属性 (A-H) 的基因表达中位数。其中，'tumor_dict' 和 'peritumor_dict' 分别是以属性名为键，对应的数据框为值的字典；'tumor_median_df' 和 'peritumor_median_df' 分别是每个肿瘤和癌旁组织样本中，每个属性 (A-H) 的基因表达中位数的数据框。

df = pd.read_csv('./2023_2_20No2/2023_2_20_19.csv', encoding='utf-8')
df = df.iloc[:, 1:33]
df_tumor = df[df['name'] == 'tumor']
df_peritumor = df[df['name'] == 'peritumor']  
tumor_dict = {}
peritumor_dict = {}
for name in ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']:
    df_tumor_name = df_tumor[df_tumor['property'] == name]
    df_peritumor_name = df_peritumor[df_peritumor['property'] == name]
    tumor_dict[name] = df_tumor_name
    peritumor_dict[name] = df_peritumor_name
    tumor_median = df_tumor_name.iloc[:, 2:33].median()
    peritumor_median = df_peritumor_name.iloc[:, 2:33].median()
    tumor_median_df = tumor_median.to_frame().transpose()
    peritumor_median_df = peritumor_median.to_frame().transpose()
    print(f'Tumor {name}: {tumor_median_df}')
    print(f'Peritumor {name}: {peritumor_median_df}')

这段代码展示了如何使用 Pandas 库来分析基因表达数据，并计算肿瘤和癌旁组织样本中每个属性的中位数。你可以根据实际情况修改代码，例如读取不同的 CSV 文件，或计算不同的统计指标。