该 Python 脚本使用 pyhdfs 库将 data/logs 目录下的 access.log 文件(以日期为后缀并压缩为 .gz 格式)上传至 HDFS 上的特定目录。

脚本根据主机名将文件推送到不同主机名的 HDFS 目录,并使用 cron 定时运行。

相应的 HDFS 命令是 hdfs dfs -put

要查询并显示上传的文件列表,可以使用以下 HDFS 命令:

  1. 查询指定目录下的文件列表:

    hdfs dfs -ls '<目录路径>'
    
  2. 查询指定目录下的所有文件及子目录中的文件列表:

    hdfs dfs -ls -R '<目录路径>'
    

在脚本中,可以使用以下命令来显示上传的文件列表:

hdfs dfs -ls '<目录路径>'

其中 <目录路径> 是上传文件的 HDFS 目录路径。

Python脚本实现文件上传至HDFS及HDFS命令查询

原文地址: https://www.cveoy.top/t/topic/qjFc 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录