写一个python脚本使用pandas库将第3列的日期格式2023-06-11T042056007Z替换为UNIX时间戳将qat-training-data-middlecsv文件中的每行按该行第4列的数字数N打印N次且时间戳递增。最后输出到outputcsv
以下是实现该功能的Python脚本:
import pandas as pd
import time
# 读取CSV文件
df = pd.read_csv('qat-training-data-middle.csv')
# 将第3列的日期格式替换为UNIX时间戳
df['date'] = pd.to_datetime(df['date']).astype(int) // 10**9
# 创建输出DataFrame
output_df = pd.DataFrame(columns=['date', 'text'])
# 遍历每行数据
for index, row in df.iterrows():
text = str(row['text'])
n = int(row['n'])
# 按第4列的数字数N打印N次
for i in range(n):
# 生成递增的时间戳
timestamp = row['date'] + i
# 添加到输出DataFrame
output_df = output_df.append({'date': timestamp, 'text': text}, ignore_index=True)
# 输出到output.csv
output_df.to_csv('output.csv', index=False)
请确保脚本文件与qat-training-data-middle.csv在同一目录下,并且已经安装了pandas库。运行脚本后,将会生成一个名为output.csv的文件,其中包含按要求生成的数据
原文地址: http://www.cveoy.top/t/topic/hDKE 著作权归作者所有。请勿转载和采集!