为全面提升突发故障处置能力,保障人工智能算力服务的高效稳定,2025年4月19日,广州人工智能公共算力中心(以下简称“广州算力中心”)联合华为技术有限公司、广电运通等生态合作伙伴,开展了以"秒级响应,筑牢防线"为主题的六场景联动应急演练。此次应急演练由数据集团副总经理、广州算力中心主任李学军带队,演练通过实战化模拟六大核心故障场景,全面检验广州算力中心基础设施的灾备能力和技术团队的应急处置水平。
多场景联动 构建安全防护网
本次演练聚焦算力基础设施全链条环节,设置以下演练项目:空调主机主备切换、全域安全巡检、互联网出口中断、样本面交换机冗余、计算节点断电、Atlas900液冷故障。运维团队通过系统实时监控设备状态,动态调配应急资源,实现跨部门高效协同响应。
持续优化机制 夯实算力基座
演练结束后,广州算力中心立即启动复盘改进计划,针对网络切换时延、虚拟机快速迁移与重建机制的有效性、故障精准定位及高效处理等3项技术指标制定优化方案,通过持续改进,确保算力中心在面对同类故障时,实现 "零业务中断、零数据丢失、零决策失误" 的应急处置目标,为 AI 计算业务的稳定运行提供坚实保障。未来将持续开展常态化演练,并重点发力攻关算力调度、跨域容灾等前沿课题。
作为广州乃至粤港澳大湾区的人工智能算力重要枢纽,广州人工智能公共算力中心此次演练验证了其应急管理体系的有效性,为数字经济关键基础设施的稳定运行提供了有效可行的解决方案。广州算力中心将持续完善"预防-监测-处置-优化"的全生命周期管理体系,以"永远在线"的AI算力服务赋能千行百业智能化转型。
电话:15078300275
邮件:aipcc-gz@grg.net.cn
地址:广东广州市天河区平云路163号