一实验目的1掌握Series和DataFrame的创建;2熟悉pandas数据清洗和数据分析的常用操作;3掌握使用matplotlib库画图的基本方法。二实验平台1操作系统:Windows系统;2Python版本:387三实验步骤1 基础练习1根据列表PythonCScalaJavaGOScalaSQLPHPPython创建一个变量名为language的Series;2创建一个由随机整型组成的Se
- 基础练习
导入必要的库
import pandas as pd import numpy as np
创建language和score的Series
language = pd.Series(["Python","C","Scala","Java","GO","Scala","SQL","PHP","Python"]) score = pd.Series(np.random.randint(0, 101, len(language)))
创建DataFrame
df = pd.DataFrame({"language": language, "score": score})
输出前4行数据
print(df.head(4))
输出language字段为Python的行
print(df[df["language"] == "Python"])
对DataFrame按照score字段进行升序排序
df = df.sort_values(by="score")
统计language字段中每种编程语言出现的次数
print(df["language"].value_counts())
- 酒类消费数据
导入必要的库
import pandas as pd import numpy as np
读取酒类消费数据表
df = pd.read_csv("drinks.csv")
输出包含缺失值的行
print(df[df.isnull().any(axis=1)])
将continent字段中的NaN全部替换为字符串NA
df["Continent"].fillna("NA", inplace=True)
分别输出各个大洲的平均啤酒、烈酒和红酒的消费量
print(df.groupby("Continent").agg({"beer_servings": "mean", "spirit_servings": "mean", "wine_servings": "mean"}))
分别输出啤酒、烈酒和红酒消费量最高的国家
print(df.loc[df["beer_servings"].idxmax(), "Country"]) print(df.loc[df["spirit_servings"].idxmax(), "Country"]) print(df.loc[df["wine_servings"].idxmax(), "Country"])
- 狗狗币的历史价格
导入必要的库
import pandas as pd import numpy as np import matplotlib.pyplot as plt
读取历史价格表
df = pd.read_csv("DOGE-USD.csv")
查看各个列的数据类型,将Date列转换为日期类型
print(df.dtypes) df["Date"] = pd.to_datetime(df["Date"])
判断是否存在缺失值,输出数据缺失的日期,并用前一交易日的数据填充缺失值
if df.isnull().values.any(): print(df[df.isnull().any(axis=1)]["Date"]) df.fillna(method="ffill", inplace=True)
分别输出狗狗币价格的最高值与最低值,并分别输出达到最高值与最低值的日期
max_price = df["High"].max() min_price = df["Low"].min() max_date = df.loc[df["High"].idxmax(), "Date"] min_date = df.loc[df["Low"].idxmin(), "Date"] print("最高价:{},日期:{}".format(max_price, max_date)) print("最低价:{},日期:{}".format(min_price, min_date))
画出狗狗币每天最高价格的折线图
plt.plot(df["Date"], df["High"]) plt.xlabel("Date") plt.ylabel("Price") plt.title("Dogecoin Highest Price") plt.show()
画出狗狗币成交量的折线图(取对数)
plt.plot(df["Date"], np.log(df["Volume"])) plt.xlabel("Date") plt.ylabel("Volume (log)") plt.title("Dogecoin Volume") plt.show(
原文地址: http://www.cveoy.top/t/topic/hui8 著作权归作者所有。请勿转载和采集!