华为云 GPU 服务器主要包括图形加速型(G 系列)和计算加速型或推理加速型(P 系列)。部分常见华为云 GPU 服务器的详细配置:
图形加速型
- G6v
- GPU:NVIDIA T4(vGPU 虚拟化),单卡有 2560 个 Cuda Core,单精度浮点计算能力为 8.1TFLOPS,130INT8 TOPS,260INT4 TOPS。
- 规格举例:g6v.2xlarge.2 有 8 个 vCPU,16GB 内存,最大带宽 / 基准带宽为 6/2Gbps,网卡多队列数为 4,配有 1/8×T4 的 GPU,2GB 显存。
- G6
- GPU:NVIDIA T4(GPU 直通),单卡 Cuda Core 数量 2560,单精度浮点计算 8.1TFLOPS,130INT8 TOPS,260INT4 TOPS。
- 规格举例:g6.xlarge.4 有 4 个 vCPU,16GB 内存,最大带宽 / 基准带宽 6/2Gbps,最大收发包能力 200 万 PPS,网卡多队列数 8,1 个 T4 GPU,16GB 显存。
- G5
- GPU:NVIDIA V100(GPU 直通),5120 个 Cuda Core,单精度浮点计算 14TFLOPS,双精度浮点计算 7TFLOPS,Tensor Core 深度学习加速能力 112TFLOPS。
- 规格举例:通常搭配 32 核 vCPU,128GB 内存,适用于对 CPU 和 GPU 资源要求都高的场景。
- G3
- GPU:NVIDIA M60(GPU 直通),单卡含两颗 M60 GPU,每个 M60 GPU 有 2048 个 CUDA 核心和 8GB 显存,单精度浮点计算 4.8TFLOPS。
- 规格举例:g3.4xlarge.4 有 16 个 vCPU,64GB 内存,最大带宽 / 基准带宽 8/2.5Gbps,配有 1×M60 核心,8GB 显存。
- G1
- GPU:NVIDIA M60(GPU 虚拟化),2048 个 CUDA 核心,单精度浮点计算 4.8TFLOPS。
计算加速型
- P2vs
- GPU:NVIDIA V100 NVLink(GPU 直通),5120 个 Cuda Core,单精度浮点计算 15.7TFLOPS,双精度浮点计算 7.8TFLOPS,Tensor Core 深度学习加速 125TFLOPS,NVLINK 带宽 300GiB/s。
- 适用场景:机器学习、深度学习、训练推理、科学计算、地震分析、计算金融学、渲染、多媒体编解码等。
- P2s
- GPU:NVIDIA V100,5120 个 Cuda Core,单精度浮点计算 14TFLOPS,双精度浮点计算 7TFLOPS,Tensor Core 深度学习加速 112TFLOPS。
- 适用场景:AI 深度学习训练、科学计算、计算流体动力学、计算金融、地震分析、分子建模、基因组学等。
- P1
- GPU:NVIDIA P100(GPU 直通),2584 个 Cuda Core,单精度能力 9.3TFLOPS,双精度能力 4.7TFLOPS。
- 规格举例:p1.2xlarge.8 有 8 个 vCPU,64GB 内存,最大带宽 / 基准带宽 5/1.6Gbps,配有 1×P100,16GB 显存,800GB 本地盘。
推理加速型
- Pi2
- GPU:NVIDIA T4(GPU 直通),2560 个 Cuda Core,单精度浮点计算 8.1TFLOPS,130INT8 TOPS,260INT4 TOPS。
- 规格举例:通常搭配 8/16/32 核 vCPU,32/64/128GB 内存,适用于深度学习推理等场景。
- Pi1
- GPU:NVIDIA P4(GPU 直通),2560 个 Cuda Core,单精度浮点计算 5.5TFLOPS。