IC 云平台架构设计:基于资源隔离与集中控制实现加速芯片多平台兼容

本文介绍了一种基于资源隔离与集中控制的 IC 云平台架构设计,旨在加速芯片方面,实现对 GPU、FPGA、ASIC 等异构加速芯片的多平台兼容,并支持 GPU 多实例的灵活划分和动态算力组合调整。

该平台具备以下关键特性:

  • 多平台兼容: 基于标准规范实现对 GPU、FPGA、ASIC 等异构加速芯片的兼容,为用户提供统一的访问接口。
  • 灵活划分: 支持 GPU 多实例的灵活划分,可以根据用户需求进行单卡多实例的细粒度划分,也可以进行多机多卡的大规模并行计算。
  • 动态算力组合: 平台支持通过管理界面动态调整 GPU 算力组合,满足不同用户或任务的需求。
  • 资源隔离: 实现细粒度的资源隔离,支持对每个用户或每个任务的资源进行隔离,包括 CPU、内存、存储等。同时,还需要支持对 GPU 等加速芯片的资源隔离,确保每个用户或任务获得足够的加速资源。
  • 集中控制: 实现集中控制功能,包括管理界面、API 接口等形式,支持对整个平台的资源进行统一管理和调度。通过管理界面,可以实现对 GPU 算力组合的动态调整,从而满足不同用户或任务的需求。同时,还需要支持 API 接口,方便用户通过编程的方式进行资源调度和管理。

该平台已完成发明专利申请 4 项。

具体技术指标

  1. 资源隔离粒度: 实现细粒度的资源隔离,支持对每个用户或每个任务的资源进行隔离,包括 CPU、内存、存储等。同时,还需要支持对 GPU 等加速芯片的资源隔离,确保每个用户或任务获得足够的加速资源。

  2. 集中控制功能: 实现集中控制功能,包括管理界面、API 接口等形式,支持对整个平台的资源进行统一管理和调度。通过管理界面,可以实现对 GPU 算力组合的动态调整,从而满足不同用户或任务的需求。同时,还需要支持 API 接口,方便用户通过编程的方式进行资源调度和管理。

IC 云平台架构设计:基于资源隔离与集中控制实现加速芯片多平台兼容

原文地址: https://www.cveoy.top/t/topic/lEeF 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录