Python读取Excel数据并进行分类统计及PCA可视化

本文将介绍如何使用Python读取Excel文件中的某一列数据,进行分类统计,并使用PCA算法对数据进行降维,最后绘制散点图进行可视化展示。

代码示例:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# 读取Excel文件
data = pd.read_excel('data.xlsx')

# 提取目标列数据
column_name = 'category'
column_data = data[column_name]

# 分类统计
categories = np.unique(column_data)
counts = [len(column_data[column_data == category]) for category in categories]

# 打印分类统计结果
print('Categories:', categories)
print('Counts:', counts)

# 使用PCA算法降维
pca = PCA(n_components=2)
data_pca = pca.fit_transform(data)

# 绘制散点图
plt.scatter(data_pca[:, 0], data_pca[:, 1], c=column_data)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA Scatter Plot')
plt.colorbar(label='Category')
plt.show()

代码解释:

  1. 导入必要的库:pandas用于读取Excel文件,numpy用于数值计算,matplotlib.pyplot用于绘图,sklearn.decomposition中的PCA类用于进行主成分分析。
  2. 使用pd.read_excel()函数读取Excel文件。
  3. 使用列名提取目标列的数据。
  4. 使用np.unique()函数获取类别,并使用列表推导式计算每个类别的数量。
  5. 使用PCA()类创建一个PCA对象,并使用fit_transform()方法对数据进行降维。
  6. 使用plt.scatter()函数绘制散点图,并使用c参数指定颜色映射到类别。

安装依赖库:

如果你的环境中缺少所需的库,可以使用以下命令安装:

pip install pandas
pip install scikit-learn

希望这个示例代码能够帮助你使用Python读取Excel数据、进行分类统计和PCA可视化分析。

Python读取Excel数据并分类统计及PCA可视化

原文地址: https://www.cveoy.top/t/topic/f0a6 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录