Python Pandas 脚本:将日期格式转换为UNIX时间戳并重复数据行
以下是一个 Python 脚本,使用 Pandas 库,将第 3 列的日期格式 '2023-06-11T04:20:56.007Z' 替换为 UNIX 时间戳,并将 qat-training-data-middle.csv 文件中的每行按该行第 4 列的数字数 N 打印 N 次,且时间戳递增。最后输出到 output.csv。
import pandas as pd
import time
# 读取 CSV 文件
df = pd.read_csv('qat-training-data-middle.csv')
# 将第 3 列的日期格式替换为 UNIX 时间戳
df['date'] = pd.to_datetime(df['date']).astype(int) // 10**9
# 创建输出 DataFrame
output_df = pd.DataFrame(columns=['date', 'text'])
# 遍历每行数据
for index, row in df.iterrows():
    text = str(row['text'])
    n = int(row['n'])
    
    # 按第 4 列的数字数 N 打印 N 次
    for i in range(n):
        # 生成递增的时间戳
        timestamp = row['date'] + i
        
        # 添加到输出 DataFrame
        output_df = output_df.append({'date': timestamp, 'text': text}, ignore_index=True)
# 输出到 output.csv
output_df.to_csv('output.csv', index=False)
请确保脚本文件与 qat-training-data-middle.csv 在同一目录下,并且已经安装了 Pandas 库。运行脚本后,将会生成一个名为 output.csv 的文件,其中包含按要求生成的数据。
原文地址: https://www.cveoy.top/t/topic/o6uh 著作权归作者所有。请勿转载和采集!