Python脚本实现文件上传至HDFS及HDFS命令查询
该 Python 脚本使用 pyhdfs 库将 data/logs 目录下的 access.log 文件(以日期为后缀并压缩为 .gz 格式)上传至 HDFS 上的特定目录。
脚本根据主机名将文件推送到不同主机名的 HDFS 目录,并使用 cron 定时运行。
相应的 HDFS 命令是 hdfs dfs -put。
要查询并显示上传的文件列表,可以使用以下 HDFS 命令:
-
查询指定目录下的文件列表:
hdfs dfs -ls '<目录路径>' -
查询指定目录下的所有文件及子目录中的文件列表:
hdfs dfs -ls -R '<目录路径>'
在脚本中,可以使用以下命令来显示上传的文件列表:
hdfs dfs -ls '<目录路径>'
其中 <目录路径> 是上传文件的 HDFS 目录路径。
原文地址: https://www.cveoy.top/t/topic/qjFc 著作权归作者所有。请勿转载和采集!