Python读取Excel数据并分类统计及PCA可视化

Python读取Excel数据并进行分类统计及PCA可视化

本文将介绍如何使用Python读取Excel文件中的某一列数据，进行分类统计，并使用PCA算法对数据进行降维，最后绘制散点图进行可视化展示。

代码示例：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# 读取Excel文件
data = pd.read_excel('data.xlsx')

# 提取目标列数据
column_name = 'category'
column_data = data[column_name]

# 分类统计
categories = np.unique(column_data)
counts = [len(column_data[column_data == category]) for category in categories]

# 打印分类统计结果
print('Categories:', categories)
print('Counts:', counts)

# 使用PCA算法降维
pca = PCA(n_components=2)
data_pca = pca.fit_transform(data)

# 绘制散点图
plt.scatter(data_pca[:, 0], data_pca[:, 1], c=column_data)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA Scatter Plot')
plt.colorbar(label='Category')
plt.show()

代码解释：

导入必要的库：pandas用于读取Excel文件，numpy用于数值计算，matplotlib.pyplot用于绘图，sklearn.decomposition中的PCA类用于进行主成分分析。
使用pd.read_excel()函数读取Excel文件。
使用列名提取目标列的数据。
使用np.unique()函数获取类别，并使用列表推导式计算每个类别的数量。
使用PCA()类创建一个PCA对象，并使用fit_transform()方法对数据进行降维。
使用plt.scatter()函数绘制散点图，并使用c参数指定颜色映射到类别。

安装依赖库：

如果你的环境中缺少所需的库，可以使用以下命令安装：

pip install pandas
pip install scikit-learn

希望这个示例代码能够帮助你使用Python读取Excel数据、进行分类统计和PCA可视化分析。