您可以使用以下代码来实现您的需求:

import pandas as pd

# 读取文件
df = pd.read_csv('results-20230630t1147-processing.csv')

# 将createdAt列转换为时间戳格式
df['createdAt'] = pd.to_datetime(df['createdAt'], unit='s')

# 创建一个新的DataFrame用于存储重复打印的行
df_repeated = pd.DataFrame()

# 遍历每一行
for _, row in df.iterrows():
    n = int(row[3])  # 获取第4列的数字数N
    repeated_rows = pd.concat([row] * n, ignore_index=True)  # 将当前行重复打印N次
    df_repeated = df_repeated.append(repeated_rows, ignore_index=True)  # 将重复打印的行添加到新的DataFrame中

# 重新设置createdAt列的值为递增的时间戳
df_repeated['createdAt'] = pd.date_range(start=df_repeated['createdAt'].min(), periods=len(df_repeated), freq='s')

# 输出到文件
df_repeated.to_csv('training-data-prd-process-by-python.csv', index=False)

请确保脚本文件与results-20230630t1147-processing.csv位于同一目录下,并将生成的结果保存为training-data-prd-process-by-python.csv文件

写一个python脚本使用pandas库不使用循环实现以下功能:读取results-20230630t1147-processingcsv文件将文件中的每行按该行第4列的数字数N重复打印N次results-20230630t1147-processingcsv文件中createdAt列为UNIX时间戳格式将重复打印的行的createdAt列递增。最后输出到training-data-prd-pro

原文地址: https://www.cveoy.top/t/topic/hGt2 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录