OpenHPC
主流的Linux基金会旗下 HPC/AI 基础架构软件套件
OpenHPC是Linux基金会针对采用Linux系统搭建的 HPC/AI 平台而成立的开源项目。
- CPU类型: x86_64和aarch64 处理器架构
- 操作系统: 主流的Linux发行版,包括Redhat, SUSE, OpenEuler等。
- 软件包括:
- Warewulf
- Slurm or OpenPBS
- Apptainer
- EasyBuild
- ...
DAOS
采用新一代存储介质和架构,全新设计的分布式异步对象存储
DAOS 基金会,在创始成员阿贡国家实验室 (ANL)、Enakta Labs、Google Cloud、HPE 和 Intel 的广泛支持下,朝着以前所未有的性能加速下一代高性能计算 (HPC) 以及人工智能和机器学习 (AI/ML) 迈出了重要一步。
DAOS (分布式异步对象存储) 是一种开源软件定义的高性能可扩展存储系统,它重新定义了广泛的 AI 和 HPC 工作负载的性能。
DAOS 支持多种用户使用场景,主要包括:文件系统、块设备、支持MPI-IO、HDF5、Python、Spark and Hadoop 和 Tensorflow-IO。
HPC NFS 网络存储
针对 HPC 提供高性价比的共享网络文件系统存储
采用通用的服务器和存储硬件产品,并配置Linux操作系统的NFS软件,提供极高性价比的共享文件系统。推荐的硬件配置:
- 2台 NFS 服务器: Intel CPU,256+GB 内存,2x 480GB SSD
- 高速SSD缓存: 2块x 960GB SSD
- 磁盘阵列: 每10盘配置一个RAID6 磁盘组,两块热备盘
- 多路径: 磁盘阵列配置多路径连接2台NFS服务器
Lustre
历久弥坚的并行文件系统
Lustre 是一种并行分布式文件系统,有着悠久的历史和广泛的用户。
2023 年,全球前 100 台超级计算机中约有三分之二使用 Lustre。
这种高采用率得益于其开源性质、性能和可扩展性,使其成为高性能计算 (HPC) 环境的理想选择。 Lustre 不仅支持大型科学研究系统,还支持较小的 HPC 设置,并且在云服务中越来越受欢迎。
easyHPC Web 图形界面
采用直观的图形界面来管理和使用 HPC/AI 平台
可以通过PC端、移动端无需下载额外客户端软件即可对 HPC/AI 平台进行远程监控、管理和使用。
功能包括:
- OpenHPC 开源软件的安装
- Warewulf HPC 集群管理软件的图形化管理
- HPC 集群硬件的监控
- Slurm 作业的监控和管理
- Slurm 作业的提交和删除
Web 应用定制开发
按照用户要求,定制开发Web APP
采用主流的 Web 技术和后台 API 接口,对 HPC/AI 系统和用户数据实现直观图形化的显示和交互。
主要内容包括:
- 系统管理
- 数据库管理
- 用户管理
- CMS (内容管理系统、博客)
- 前端图表展示