深度解析：华为云 GPU 服务器详细配置全览

华为云 GPU 服务器主要包括图形加速型（G 系列）和计算加速型或推理加速型（P 系列）。部分常见华为云 GPU 服务器的详细配置：

G6v
- GPU：NVIDIA T4（vGPU 虚拟化），单卡有 2560 个 Cuda Core，单精度浮点计算能力为 8.1TFLOPS，130INT8 TOPS，260INT4 TOPS。
- 规格举例：g6v.2xlarge.2 有 8 个 vCPU，16GB 内存，最大带宽 / 基准带宽为 6/2Gbps，网卡多队列数为 4，配有 1/8×T4 的 GPU，2GB 显存。
G6
- GPU：NVIDIA T4（GPU 直通），单卡 Cuda Core 数量 2560，单精度浮点计算 8.1TFLOPS，130INT8 TOPS，260INT4 TOPS。
- 规格举例：g6.xlarge.4 有 4 个 vCPU，16GB 内存，最大带宽 / 基准带宽 6/2Gbps，最大收发包能力 200 万 PPS，网卡多队列数 8，1 个 T4 GPU，16GB 显存。
G5
- GPU：NVIDIA V100（GPU 直通），5120 个 Cuda Core，单精度浮点计算 14TFLOPS，双精度浮点计算 7TFLOPS，Tensor Core 深度学习加速能力 112TFLOPS。
- 规格举例：通常搭配 32 核 vCPU，128GB 内存，适用于对 CPU 和 GPU 资源要求都高的场景。
G3
- GPU：NVIDIA M60（GPU 直通），单卡含两颗 M60 GPU，每个 M60 GPU 有 2048 个 CUDA 核心和 8GB 显存，单精度浮点计算 4.8TFLOPS。
- 规格举例：g3.4xlarge.4 有 16 个 vCPU，64GB 内存，最大带宽 / 基准带宽 8/2.5Gbps，配有 1×M60 核心，8GB 显存。
G1
- GPU：NVIDIA M60（GPU 虚拟化），2048 个 CUDA 核心，单精度浮点计算 4.8TFLOPS。

P2vs
- GPU：NVIDIA V100 NVLink（GPU 直通），5120 个 Cuda Core，单精度浮点计算 15.7TFLOPS，双精度浮点计算 7.8TFLOPS，Tensor Core 深度学习加速 125TFLOPS，NVLINK 带宽 300GiB/s。
- 适用场景：机器学习、深度学习、训练推理、科学计算、地震分析、计算金融学、渲染、多媒体编解码等。
P2s
- GPU：NVIDIA V100，5120 个 Cuda Core，单精度浮点计算 14TFLOPS，双精度浮点计算 7TFLOPS，Tensor Core 深度学习加速 112TFLOPS。
- 适用场景：AI 深度学习训练、科学计算、计算流体动力学、计算金融、地震分析、分子建模、基因组学等。
P1
- GPU：NVIDIA P100（GPU 直通），2584 个 Cuda Core，单精度能力 9.3TFLOPS，双精度能力 4.7TFLOPS。
- 规格举例：p1.2xlarge.8 有 8 个 vCPU，64GB 内存，最大带宽 / 基准带宽 5/1.6Gbps，配有 1×P100，16GB 显存，800GB 本地盘。

Pi2
- GPU：NVIDIA T4（GPU 直通），2560 个 Cuda Core，单精度浮点计算 8.1TFLOPS，130INT8 TOPS，260INT4 TOPS。
- 规格举例：通常搭配 8/16/32 核 vCPU，32/64/128GB 内存，适用于深度学习推理等场景。
Pi1
- GPU：NVIDIA P4（GPU 直通），2560 个 Cuda Core，单精度浮点计算 5.5TFLOPS。