IC 云平台架构设计:基于资源隔离与集中控制实现加速芯片多平台兼容
IC 云平台架构设计:基于资源隔离与集中控制实现加速芯片多平台兼容
本文介绍了一种基于资源隔离与集中控制的 IC 云平台架构设计,旨在加速芯片方面,实现对 GPU、FPGA、ASIC 等异构加速芯片的多平台兼容,并支持 GPU 多实例的灵活划分和动态算力组合调整。
该平台具备以下关键特性:
- 多平台兼容: 基于标准规范实现对 GPU、FPGA、ASIC 等异构加速芯片的兼容,为用户提供统一的访问接口。
- 灵活划分: 支持 GPU 多实例的灵活划分,可以根据用户需求进行单卡多实例的细粒度划分,也可以进行多机多卡的大规模并行计算。
- 动态算力组合: 平台支持通过管理界面动态调整 GPU 算力组合,满足不同用户或任务的需求。
- 资源隔离: 实现细粒度的资源隔离,支持对每个用户或每个任务的资源进行隔离,包括 CPU、内存、存储等。同时,还需要支持对 GPU 等加速芯片的资源隔离,确保每个用户或任务获得足够的加速资源。
- 集中控制: 实现集中控制功能,包括管理界面、API 接口等形式,支持对整个平台的资源进行统一管理和调度。通过管理界面,可以实现对 GPU 算力组合的动态调整,从而满足不同用户或任务的需求。同时,还需要支持 API 接口,方便用户通过编程的方式进行资源调度和管理。
该平台已完成发明专利申请 4 项。
具体技术指标
-
资源隔离粒度: 实现细粒度的资源隔离,支持对每个用户或每个任务的资源进行隔离,包括 CPU、内存、存储等。同时,还需要支持对 GPU 等加速芯片的资源隔离,确保每个用户或任务获得足够的加速资源。
-
集中控制功能: 实现集中控制功能,包括管理界面、API 接口等形式,支持对整个平台的资源进行统一管理和调度。通过管理界面,可以实现对 GPU 算力组合的动态调整,从而满足不同用户或任务的需求。同时,还需要支持 API 接口,方便用户通过编程的方式进行资源调度和管理。
原文地址: https://www.cveoy.top/t/topic/lEeF 著作权归作者所有。请勿转载和采集!