Python读取Excel列数据:分类统计及PCA散点图
Python读取Excel列数据:分类统计及PCA散点图
本文将介绍如何使用Python读取Excel文档中的某一列数据,对其进行分类统计,并使用PCA算法绘制散点图进行可视化展示。
代码示例:
import pandas as pd
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 获取需要统计的列数据
col_data = df['列名']
# 分类并统计数量
count_dict = {}
for data in col_data:
if data in count_dict:
count_dict[data] += 1
else:
count_dict[data] = 1
# 显示统计数据
for key, value in count_dict.items():
print(key, value)
# 使用PCA算法做散点图
pca = PCA(n_components=2)
pca_data = pca.fit_transform(df)
plt.scatter(pca_data[:,0], pca_data[:,1])
plt.show()
代码说明:
- 导入库: 首先,需要导入必要的库:pandas用于读取Excel文件,sklearn.decomposition中的PCA用于降维,matplotlib.pyplot用于绘制散点图。
- 读取数据: 使用pandas库的
read_excel()函数读取Excel文件,将'data.xlsx'替换为实际文件名,并将需要统计的列名赋给col_data变量。 - 分类统计: 使用字典
count_dict记录每个数据出现的次数。遍历col_data,如果数据已存在于字典中,则计数加1;否则,将数据添加到字典中,并将计数初始化为1。 - 显示统计结果: 遍历字典
count_dict,打印每个数据及其出现的次数。 - PCA降维及可视化: 使用PCA算法将数据降维至二维,以便在散点图中展示。使用
fit_transform()方法对数据进行降维,并将结果存储在pca_data中。最后,使用plt.scatter()函数绘制散点图,并使用plt.show()函数显示图像。
注意事项:
- 将代码中的'data.xlsx'替换为实际的Excel文件名。
- 将代码中的'列名'替换为需要统计的列的列名。
希望本文能够帮助你快速了解如何使用Python读取Excel列数据、进行分类统计以及使用PCA算法创建可视化散点图。
原文地址: https://www.cveoy.top/t/topic/f0aI 著作权归作者所有。请勿转载和采集!