import pandas as pdfrom sklearnensemble import RandomForestClassifier# 读取Excel表格数据data = pdread_excelrCUserslenovoDesktopHIVGSE6740GSE50011基因降低data1xlsxX = datailoc 1values # 特征矩阵y = datailoc 0values
import pandas as pd from sklearn.ensemble import RandomForestClassifier
读取Excel表格数据
data = pd.read_excel(r'C:\Users\lenovo\Desktop\HIV\GSE6740GSE50011基因降低\data1.xlsx') X = data.iloc[:, 1:].values # 特征矩阵 y = data.iloc[:, 0].values # 标签向量
使用随机森林算法进行分类
clf = RandomForestClassifier(n_estimators=100, random_state=0) clf.fit(X, y)
输出各基因的重要性评分
importances = clf.feature_importances_ genes = data.columns[1:] result = pd.DataFrame({'Genes': genes, 'Importances': importances}) result = result.sort_values(by='Importances', ascending=False)
选取前16个基因
top_genes = result['Genes'].values[:16]
输出前16个基因表达量及其对应的患者状态
output_data = data[['state'] + list(top_genes)] output_data.to_excel(r'C:\Users\lenovo\Desktop\HIV\GSE6740GSE50011基因降低\data1.xlsx', sheet_name='16', index=False)
原文地址: https://www.cveoy.top/t/topic/9qU 著作权归作者所有。请勿转载和采集!