Python PCA 降维可视化分析:从Excel数据到多维度图表
Python PCA 降维可视化分析:从Excel数据到多维度图表
本文将使用 Python 的 PCA 算法对 Excel 数据进行降维,并通过多种可视化方法展现降维后的数据特征,同时分析主成分的方差贡献率和累计贡献率,以及各影响因素的重要性。
1. 导入库和读取数据
import pandas as pd
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np
# 读取Excel表格
data = pd.read_excel('C:\Users\lenovo\Desktop\HIV\GSE6740GSE50011基因降低\data1.xlsx')
X = data.iloc[:, 1:].values # 影响因素
y = data.iloc[:, 0].values # 因变量
2. 进行主成分分析
# 主成分分析算法
pca = PCA(n_components=10)
pca.fit(X)
X_pca = pca.transform(X)
3. 可视化降维后的数据
3.1 散点图
# 散点图
plt.scatter(X_pca[:, 0], X_pca[:, 1])
plt.title('PCA Scatter Plot')
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.show()
3.2 热力图
# 热力图
corr = np.corrcoef(X_pca.T)
plt.imshow(corr, cmap='hot', interpolation='nearest')
plt.title('PCA Heatmap')
plt.colorbar()
plt.show()
3.3 3D 图
# 3D图
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()
ax = Axes3D(fig)
ax.scatter(X_pca[:, 0], X_pca[:, 1], X_pca[:, 2])
ax.set_xlabel('PC1')
ax.set_ylabel('PC2')
ax.set_zlabel('PC3')
plt.title('PCA 3D Plot')
plt.show()
3.4 折线图
# 折线图
plt.plot(X_pca)
plt.title('PCA Line Plot')
plt.xlabel('Samples')
plt.ylabel('Feature Values')
plt.show()
3.5 柱状图
# 柱状图
plt.bar(range(len(pca.explained_variance_ratio_)), pca.explained_variance_ratio_)
plt.title('PCA Explained Variance Ratio')
plt.xlabel('Principal Component')
plt.ylabel('Variance Ratio')
plt.show()
4. 分析主成分信息
# 输出方差贡献率和累计贡献率
print('Explained Variance Ratio:')
print(pca.explained_variance_ratio_)
print('Cumulative Explained Variance Ratio:')
print(np.cumsum(pca.explained_variance_ratio_))
# 绘制累计贡献率的折线图
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.title('PCA Cumulative Explained Variance Ratio')
plt.xlabel('Principal Component')
plt.ylabel('Cumulative Variance Ratio')
plt.show()
5. 分析影响因素的重要性
# 输出影响因素的重要性
important_features = pd.DataFrame(pca.components_, columns=data.columns[1:])
important_features = important_features.abs().sum(axis=0).sort_values(ascending=False)
print('Feature Importance:')
print(important_features)
6. 解释 n_components 参数
'n_components=10' 表示将原始数据降维到 10 个主成分。PCA 算法的本质是将高维数据降维到低维,通过选择保留的主成分数量,可以控制降维后数据的维度。选择合适的主成分数量可以在降维的同时保留尽可能多的原始数据的信息。
原文地址: https://www.cveoy.top/t/topic/l1lo 著作权归作者所有。请勿转载和采集!