Python Excel数据分析:分类统计与PCA可视化
Python Excel数据分析:分类统计与PCA可视化
本示例演示如何使用Python读取Excel文件,对指定列数据进行分类统计,并利用PCA算法实现数据降维及可视化。
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 选择需要分析的列
column_name = 'Category'
data = df[column_name]
# 统计不同类别的数量
count_dict = {}
for d in data:
if d in count_dict:
count_dict[d] += 1
else:
count_dict[d] = 1
# 输出统计结果
print('统计结果:')
for k, v in count_dict.items():
print(k, v)
# 使用PCA算法将数据降维至二维
pca = PCA(n_components=2)
X = pca.fit_transform(df.values)
# 绘制散点图
plt.scatter(X[:, 0], X[:, 1], c=data.cat.codes)
plt.xlabel('主成分 1')
plt.ylabel('主成分 2')
plt.title('PCA散点图')
plt.show()
代码解析:
- 数据读取与准备: 使用pandas读取Excel文件,并提取目标列数据。
- 分类统计: 遍历目标列数据,统计每个类别出现的次数。
- PCA降维: 应用PCA算法将数据降至二维,方便可视化。
- 散点图绘制: 使用matplotlib绘制散点图,不同类别用不同颜色区分,直观展示数据分布。
本示例可帮助您:
- 了解如何使用Python进行Excel数据分析。
- 学习如何对数据进行分类统计。
- 掌握PCA算法进行数据降维和可视化。
原文地址: https://www.cveoy.top/t/topic/f0at 著作权归作者所有。请勿转载和采集!