Python读取Excel列数据、分类统计及PCA散点图绘制教程

Python读取Excel列数据、分类统计并绘制PCA散点图

本文将介绍如何使用Python读取Excel文件中某一列的数据，并对该列数据进行分类统计，最后使用PCA算法对数据进行降维并绘制散点图。

1. 读取Excel数据并进行分类统计

以下代码展示了如何使用Pandas库读取Excel文件中的指定列数据，并统计每个类别的数量：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 选择需要统计的列
column_name = '类别'
data = df[column_name]

# 统计每类数量
counts = data.value_counts()
print(counts)

其中，'data.xlsx'需要替换为实际的Excel文件名，'类别'需要替换为需要统计的列名。

2. 使用PCA算法绘制散点图

以下代码展示了如何使用PCA算法对数据进行降维，并使用Matplotlib库绘制散点图：

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 选择需要绘制的列
x_column_name = '列1'
y_column_name = '列2'
data = df[[x_column_name, y_column_name]]

# 使用pca算法降维
pca = PCA(n_components=2)
pca.fit(data)
data_pca = pca.transform(data)

# 绘制散点图
plt.scatter(data_pca[:, 0], data_pca[:, 1])
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.show()

其中：

'data.xlsx'需要替换为实际的Excel文件名，
'列1'和'列2'需要替换为需要绘制的两列数据的列名，
n_components表示降维后的维度，这里选择了2维。

绘制出的散点图中，PC1和PC2分别表示第一维和第二维的主成分。

总结

本文介绍了如何使用Python读取Excel数据、进行分类统计以及使用PCA算法绘制散点图。这些操作在数据分析和可视化中非常常见，希望本文能帮助您更好地理解和应用这些技术。