Python Pandas: 计算肿瘤和癌旁组织基因表达中位数
这段代码使用 Python Pandas 库读取 CSV 文件,并计算肿瘤和癌旁组织样本中每个属性 (A-H) 的基因表达中位数。
首先,代码读取名为 '2023_2_20_19.csv' 的 CSV 文件,并选择数据框的第 2 列到第 33 列,并将数据框分别筛选为 'tumor' 和 'peritumor' 两组数据。
然后,代码创建一个名为 'tumor_dict' 和 'peritumor_dict' 的字典,分别存储所有 'tumor' 和 'peritumor' 数据框,以属性名为键,对应的数据框为值。
接着,代码遍历每个属性 (A-H),分别计算 'tumor' 和 'peritumor' 数据框中每个属性的基因表达中位数,并使用 to_frame() 方法将其转换为数据框。
最后,代码将每个属性的基因表达中位数以数据框形式打印输出。
输出内容:
代码输出的是每个肿瘤和癌旁组织样本中,每个属性 (A-H) 的基因表达中位数。其中,'tumor_dict' 和 'peritumor_dict' 分别是以属性名为键,对应的数据框为值的字典;'tumor_median_df' 和 'peritumor_median_df' 分别是每个肿瘤和癌旁组织样本中,每个属性 (A-H) 的基因表达中位数的数据框。
df = pd.read_csv('./2023_2_20No2/2023_2_20_19.csv', encoding='utf-8')
df = df.iloc[:, 1:33]
df_tumor = df[df['name'] == 'tumor']
df_peritumor = df[df['name'] == 'peritumor']
tumor_dict = {}
peritumor_dict = {}
for name in ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']:
df_tumor_name = df_tumor[df_tumor['property'] == name]
df_peritumor_name = df_peritumor[df_peritumor['property'] == name]
tumor_dict[name] = df_tumor_name
peritumor_dict[name] = df_peritumor_name
tumor_median = df_tumor_name.iloc[:, 2:33].median()
peritumor_median = df_peritumor_name.iloc[:, 2:33].median()
tumor_median_df = tumor_median.to_frame().transpose()
peritumor_median_df = peritumor_median.to_frame().transpose()
print(f'Tumor {name}: {tumor_median_df}')
print(f'Peritumor {name}: {peritumor_median_df}')
这段代码展示了如何使用 Pandas 库来分析基因表达数据,并计算肿瘤和癌旁组织样本中每个属性的中位数。你可以根据实际情况修改代码,例如读取不同的 CSV 文件,或计算不同的统计指标。
原文地址: https://www.cveoy.top/t/topic/kmF7 著作权归作者所有。请勿转载和采集!