24页|2024年EMS弹性内存存储技术白皮书

2024-11-02 科技教育

华为云发布的《EMS弹性内存存储技术白皮书》介绍了弹性内存存储服务(EMS),这是一种以内存为主要存储介质的云基础设施服务。EMS的推出旨在解决云计算基础设施中存在的持久化存储性能不足、DRAM利用率低和HBM内存墙等问题,通过将传统的计算-存储两层架构升级为计算-内存-存储三层架构,提升了资源的弹性、利用率和性能。

 

EMS通过内存池化技术,将AI服务器中的DRAM资源解耦并形成内存池,实现了资源的按需分配和高效利用。在AI推理场景中,EMS通过以存代算、显存扩展和计算卸载技术,降低了首字时延,提升了解码吞吐量,并支持了更长的序列长度。在AI训练场景中,EMS通过并行训练拓扑感知的检查点保存、基于NPU通信的检查点恢复和选择性检查点持久化技术,实现了极低的检查点操作时延。

 

此外,EMS还针对推荐模型场景提供了Embedding池化存储、Embedding均衡打散和增量检查点等加速技术,实现了高性能访问。EMS的软件架构由分布式内存池、领域专用服务SDK和管理控制面三部分组成,具备易用性、弹性扩展和高可用性。

 

白皮书总结指出,EMS将不断演进并扩展至更多通用计算场景,如在线事务处理数据库、混合事务/分析处理数据库、向量数据库、Redis缓存系统和大数据分析等应用领域,以支持更广泛的业务需求。

来源:华为

知识星球.jpg

欢迎加入圣香智库,下载所有精华报告。

1、请用微信扫描左侧二维码;
2、知识星球用于圣香所有报告分享平台,加入后即可下载;
3、加入后免费提问、免费下载所有报告,无任何限制;
4、越早加入福利越多。