大模型训练的加速和智能化生产力的蓄势待发,AI基础设施的投资不断加码,算力服务成为新的热点。网络和算力的协同建设为商业闭环夯实了基础,如中国移动通过建设多级智算中心和九州算力网络,实现了算力的广泛覆盖。
几个关键趋势,包括智算集群步入超十万卡时代,弹性无损入算网络建设提速,数字孪生和AI融合发展使网络加速迈向L4高阶自动驾驶,以及网络安全进入AI对抗时代。这些趋势表明,网络不仅是数据传输的通道,更是智能化服务的支撑平台。
在智算集群方面,大模型参数的增长,集群规模迅速扩大,对算内网络的质量更高要求。高质量的网络需要无阻塞、低时延,以满足十万卡级高线性度的算力利用率。网络的稳定性和可靠性也至关重要,因为大模型训练是一个复杂的系统工程,网络基础设施的稳定性直接影响训练的效率和成功率。
网络级负载均衡的重要性,通过端、网和协议的深度协同适配,实现整网负载均衡和高吞吐性能,从而提升通信效率。跨数据中心(DC)协同训练的需求日益增长,需要DCI网络实现“0”丢包,以确保协同计算的高效运行。
在AI改变网络方面,白皮书指出AI技术的发展为网络创新注入了新的生命力。AI可以在网络的规划、建设和运维阶段发挥重要作用,如流量数据进行需求预测、指导扩容,以及进行应用体验分析和安全防护。特别是大模型中的思维链技术,有望加速网络体验优化和故障排除。
三层智能架构,包括“脑”(网络大模型)、“图”(网络数字孪生)和“网”(智能网元),以实现端到端的融合感知、智能推理分析和可靠执行。这种架构将重塑系统能力,实现网安一体的网络智能化发展。
来源:华为
