Python读取Excel列数据:分类统计及PCA散点图

本文将介绍如何使用Python读取Excel文档中的某一列数据,对其进行分类统计,并使用PCA算法绘制散点图进行可视化展示。

代码示例:

import pandas as pd
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 获取需要统计的列数据
col_data = df['列名']

# 分类并统计数量
count_dict = {}
for data in col_data:
    if data in count_dict:
        count_dict[data] += 1
    else:
        count_dict[data] = 1

# 显示统计数据
for key, value in count_dict.items():
    print(key, value)

# 使用PCA算法做散点图
pca = PCA(n_components=2)
pca_data = pca.fit_transform(df)

plt.scatter(pca_data[:,0], pca_data[:,1])
plt.show()

代码说明:

  1. 导入库: 首先,需要导入必要的库:pandas用于读取Excel文件,sklearn.decomposition中的PCA用于降维,matplotlib.pyplot用于绘制散点图。
  2. 读取数据: 使用pandas库的read_excel()函数读取Excel文件,将'data.xlsx'替换为实际文件名,并将需要统计的列名赋给col_data变量。
  3. 分类统计: 使用字典count_dict记录每个数据出现的次数。遍历col_data,如果数据已存在于字典中,则计数加1;否则,将数据添加到字典中,并将计数初始化为1。
  4. 显示统计结果: 遍历字典count_dict,打印每个数据及其出现的次数。
  5. PCA降维及可视化: 使用PCA算法将数据降维至二维,以便在散点图中展示。使用fit_transform()方法对数据进行降维,并将结果存储在pca_data中。最后,使用plt.scatter()函数绘制散点图,并使用plt.show()函数显示图像。

注意事项:

  • 将代码中的'data.xlsx'替换为实际的Excel文件名。
  • 将代码中的'列名'替换为需要统计的列的列名。

希望本文能够帮助你快速了解如何使用Python读取Excel列数据、进行分类统计以及使用PCA算法创建可视化散点图。

Python读取Excel列数据:分类统计及PCA散点图

原文地址: https://www.cveoy.top/t/topic/f0aI 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录