使用 Dask 高效读写 HDF5 文件：案例分析 (shape 为 7600, 7600, 300)

首先需要安装 Dask 和 h5py 库：

!pip install dask h5py

然后可以使用 dask.array 来读写 HDF5 文件：

import dask.array as da
import h5py

# 读取 HDF5 文件
with h5py.File('data.hdf5', 'r') as f:
    dset = f['S']
    shape = dset.shape

    # 创建 Dask 数组，使用块大小为 1000
    S = da.from_array(dset, chunks=(1000, 1000, 300))

# 对 S 进行操作
S_mean = S.mean(axis=0)

# 写入 HDF5 文件
with h5py.File('result.hdf5', 'w') as f:
    dset = f.create_dataset('S_mean', shape=S_mean.shape, dtype=S_mean.dtype)
    da.store(S_mean, dset)

以上代码中，我们使用了 h5py 库来读取和写入 HDF5 文件，使用了 dask.array 来处理数据。在读取 HDF5 文件时，我们通过 from_array 方法创建了一个 Dask 数组，并指定了块大小为 1000，这意味着数据被分成了 (8, 8, 1) 个块，每个块的大小为 (1000, 1000, 300)。在对 S 进行操作时，Dask 会自动将操作应用于每个块，最终返回结果。在写入 HDF5 文件时，我们使用了 store 方法将 Dask 数组的结果写入 HDF5 文件中。

使用 Dask 高效读写 HDF5 文件：案例分析 (shape 为 7600, 7600, 300)