现代NVIDIA gpu具有三种不同类型的处理核心:
计算统一设备架构(CUDA)是一个并行计算平台,建立在专用硬件和NVIDIA指令集的应用程序编程接口(API)上。CUDA核心是离散的处理器,通常在单个GPU芯片上枚举数千个,允许数据在这些核心之间并行处理。
CUDA核心是通用GPU计算的主力组件。它们提高了无数科学工作负载并行处理的性能和成本效益。当它们与其他专业GPU核心类型互补时,工作负载性能进一步加快。
张量是一种数据类型,可以表示几乎任何类型的有序或无序数据。它可以被认为是一个可以存储多维数据集的容器。用最简单的术语来说,它可以被认为是一个矩阵的扩展。例如,矩阵是包含数字的二维结构,但张量是数字的多维集合。
张量内核支持混合精度计算,动态调整计算以加速吞吐量,同时保持准确性。最新一代将这些加速扩展到各种工作负载。例如,在人工智能(AI)、机器学习(ML)和深度学习(DL)工作负载中,高达10倍的加速是常见的,而在一般HPC工作负载中,高达2.5倍的加速是常见的。
张量核的计算速度比CUDA核快。主要是因为CUDA内核每个时钟周期执行一个操作,而张量内核每个时钟周期可以执行多个操作。对于ML和DL模型,CUDA内核在成本和计算速度方面不如Tensor内核有效,但它们仍然提高了它们的生产力。
光线追踪核心是NVIDIA RTX显卡所独有的。RTX技术为3D设计和渲染以及逼真的物理世界模拟(包括视觉效果)提供了细节和准确性。生成的仿真和可视化功能不仅限于事物的外观,还包括其行为。CUDA内核和api与RTX内核的结合使现实世界对象的行为和粒度数据可视化功能的精确建模成为可能。
HOME文件系统(/ HOME)用于存储作业提交脚本、小型应用程序、数据库和其他用户文件。当登录到任何集群系统时,所有用户都将看到一个主目录。用户主目录的内容在集群系统之间是相同的。
所有用户的主目录都有20GB的配额。
SCRATCH文件系统(/ SCRATCH)是一个容量大、性能高的并行文件系统,用于计算作业。SCRATCH文件系统被认为是临时存储。
LOCAL SCRATCH文件系统(/lscratch或/tmp)是一个性能合理但容量较小的共享文件系统,位于每个计算节点的本地,也用于计算作业。LOCAL SCRATCH文件系统也被认为是临时存储。
WORK文件系统(/ WORK)用于存储跨用户或计算作业的共享数据。WORK文件系统可以被集群中的计算节点读取,但不能写入。因此,它被称为“近线存储”。
所有组工作目录都有500GB的配额。
PROJECT文件系统(/ PROJECT)用于活动作业数据的长期用户或共享组存储。如果当前或正在进行的计算作业需要计算项目数据,则将其视为活动数据。PROJECT文件系统不是遗留作业数据的存档,它被称为“脱机存储”,因为计算节点无法访问它。
所有组项目目录都有1TB的配额。
作业提交节点允许用户对集群进行身份验证,有时称为“登录节点”。它们还提供编写脚本、提交和管理批处理计算作业所需的应用程序。批量计算任务提交到集群工作队列。然后,用户等待调度作业,并在请求的计算资源可用时运行作业。
用户需要一个为AUHPCS配置的AU NetID和一个为Duo双因素身份验证配置的设备来访问作业提交节点。
数据传输节点提供对集群中用户文件系统的访问。它们的作用是促进集群内这些文件系统之间的高速数据传输。这些节点还可用于在集群内外传输数据。
用户需要一个已经为AUHPCS配置的AU NetID,以及一个配置为Duo双因素身份验证的设备来访问数据传输节点。
通用Intel计算节点:
这些节点是生物信息学、基因组学、人口科学、数学、化学和物理工作负载的候选者,资源需求最适度。
中间内存Intel计算节点:
这些节点是生物信息学、基因组学、人口科学、数学、化学、物理和一些具有额外资源需求的建模工作负载的候选节点。这些节点也可能适用于制药、分子生物学和模拟工作负载。
高内存Intel计算节点:
这些节点是具有最大资源需求的生物信息学、基因组学、人口科学、数学、化学、物理、建模、制药、分子生物学和模拟工作负载的候选者
NVIDIA Quadro RTX - Intel计算节点:
这些节点是数据科学、物理和生命科学建模、人工智能、推理和具有适度资源需求的仿真工作负载的候选节点。这些系统还包括硬件功能,可用于加速物理世界的复杂模拟,例如用于科学和数据可视化的粒子或流体动力学。它们还可以用于电影、视频和图形渲染,甚至是特效工作负载。
NVIDIA Tesla T4 - Intel计算节点:
这些节点是数学、数据科学、人工智能、推理、机器学习、深度学习和具有适度资源需求的仿真工作负载的候选节点。
NVIDIA A100 - AMD计算节点:
该节点提供集群中最大的端到端高性能计算平台性能。它提供了许多增强功能,为大规模人工智能、推理、深度学习、数据分析和数字取证工作负载提供了显著的加速。
Research Technology系统管理人员可以协助大多数Red Hat Linux操作系统、应用程序和系统实用程序支持。如果需要,对Red Hat Linux的企业支持可以扩展到专业服务。然而,由于许多Linux发行版之间通常存在共性,Research Technology也可以帮助支持其他发行版上的应用程序和实用程序。
研究技术高性能计算系统工程和应用人员可以协助许多工作提交脚本组成和故障排除任务。然而,立即博的是要理解作业提交脚本问题和调试可能很复杂,并且支持通常需要用户和工作人员之间的合作。
将使用以下方法向集群提供软件。
要访问AUHPCS研究人员,教师或工作人员必须满足以下要求:
一旦授予已批准的计算项目访问权限,遵守AUHPCS治理策略就是一个持续的需求。