Python读取Excel列数据、分类统计及PCA散点图绘制教程
Python读取Excel列数据、分类统计并绘制PCA散点图
本文将介绍如何使用Python读取Excel文件中某一列的数据,并对该列数据进行分类统计,最后使用PCA算法对数据进行降维并绘制散点图。
1. 读取Excel数据并进行分类统计
以下代码展示了如何使用Pandas库读取Excel文件中的指定列数据,并统计每个类别的数量:
import pandas as pd
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 选择需要统计的列
column_name = '类别'
data = df[column_name]
# 统计每类数量
counts = data.value_counts()
print(counts)
其中,'data.xlsx'需要替换为实际的Excel文件名,'类别'需要替换为需要统计的列名。
2. 使用PCA算法绘制散点图
以下代码展示了如何使用PCA算法对数据进行降维,并使用Matplotlib库绘制散点图:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 选择需要绘制的列
x_column_name = '列1'
y_column_name = '列2'
data = df[[x_column_name, y_column_name]]
# 使用pca算法降维
pca = PCA(n_components=2)
pca.fit(data)
data_pca = pca.transform(data)
# 绘制散点图
plt.scatter(data_pca[:, 0], data_pca[:, 1])
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.show()
其中:
- 'data.xlsx'需要替换为实际的Excel文件名,
- '列1'和'列2'需要替换为需要绘制的两列数据的列名,
n_components表示降维后的维度,这里选择了2维。
绘制出的散点图中,PC1和PC2分别表示第一维和第二维的主成分。
总结
本文介绍了如何使用Python读取Excel数据、进行分类统计以及使用PCA算法绘制散点图。这些操作在数据分析和可视化中非常常见,希望本文能帮助您更好地理解和应用这些技术。
原文地址: https://www.cveoy.top/t/topic/f0bb 著作权归作者所有。请勿转载和采集!