import pandas as pd from sklearn.ensemble import RandomForestClassifier

读取Excel表格数据

data = pd.read_excel(r'C:\Users\lenovo\Desktop\HIV\GSE6740GSE50011基因降低\data1.xlsx') X = data.iloc[:, 1:].values # 特征矩阵 y = data.iloc[:, 0].values # 标签向量

使用随机森林算法进行分类

clf = RandomForestClassifier(n_estimators=100, random_state=0) clf.fit(X, y)

输出各基因的重要性评分

importances = clf.feature_importances_ genes = data.columns[1:] result = pd.DataFrame({'Genes': genes, 'Importances': importances}) result = result.sort_values(by='Importances', ascending=False)

选取前16个基因

top_genes = result['Genes'].values[:16]

输出前16个基因表达量及其对应的患者状态

output_data = data[['state'] + list(top_genes)] output_data.to_excel(r'C:\Users\lenovo\Desktop\HIV\GSE6740GSE50011基因降低\data1.xlsx', sheet_name='16', index=False)

import pandas as pdfrom sklearnensemble import RandomForestClassifier# 读取Excel表格数据data = pdread_excelrCUserslenovoDesktopHIVGSE6740GSE50011基因降低data1xlsxX = datailoc 1values # 特征矩阵y = datailoc 0values

原文地址: https://www.cveoy.top/t/topic/9qU 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录