华为云 GPU 服务器通过多种方式助力企业突破计算瓶颈:
- 提供强大算力:在大模型训练和推理方面,华为云 GPU 服务器拥有强大的计算能力,例如其 CloudMatrix 架构中的分布式 Qingtian,把传统的主从式架构升级为对等架构,实现计算资源、存储资源及网络资源的统一池化管理和动态分配,单节点算力提升 50 倍,NPU 算力有效利用率提升到 60%,大模型训练效率提升 68%,能轻松驾驭各类复杂大模型的训练需求。
- 优化网络架构:Matrixlink 网络技术为突破网络瓶颈而生,实现了算力资源的全面池化与对等互联,凭借自定义的矩阵拓扑结构和秒级的网络状态感知能力,将大模型训练集群的线性度提升至 95%,网络故障分钟级恢复,网络扩展模式由单纯的 Scale out(横向扩展)进化到 Scale up + Scale out 相结合,使大规模模型训练运行效率更高,还能灵活适配中小型推理应用。
- 智能算力调度:瑶光智慧云脑能实现资源的按需组合,匹配最优算力组合以满足百亿到万亿级模型训练所需资源,通过智能调度充分发挥算力性价比与资产最大价值。同时,通过 XPU 池化的切分复用,将 CPU、GPU 等异构计算资源精细化分割,让同一 XPU 能服务于多个计算任务,使 XPU 的利用率从 40% 提升到 80%,集群可用性提升至 95%。
- 降低运维成本:以云容器实例为例,华为云 GPU 加速型云容器实例无需客户维护集群、考虑集群升级等问题,直接购买和管理 GPU 容器实例即可,还提供可视化监控功能,极大简化运维成本。另外,FunctionGraph 函数工作流计算服务能根据业务需求按需定制弹性资源,让企业无需再为复杂的服务器部署和优化而烦恼,降低运维管理成本,避免资源浪费。
- 灵活计费方式:华为云 GPU 加速型云容器实例提供按需按秒计费模式,让企业能真正按业务计算时长进行消费,避免包年包月带来的高成本,有效控制计算成本,尤其适合高性能计算中时长灵活、需要快速多次迭代计算的场景,如 AI 训练。
- 端云协同创新:华为云将端侧的 AI 算力需求通过光纤和无线网络释放到云上,通过端云协同获得无缝的 AI 算力,大大释放了对端侧算力和功耗的压力,在云办公、云设计、云拍照、云手机、云游戏等方面进行了实践,既保持了丰富的功能,又降低了功耗以及对芯片的依赖,充分释放 AI 价值。