381页|2024年SRE实践白皮书v1.0.3

2024-08-09 科技教育

SRE实践白皮书(2024年)》提供了对当前SRESite Reliability Engineering,网站可靠性工程)实践的全面介绍和深入分析。

 

SRE整体介绍:

- SRE起源于Google,目的是通过软件工程方法提高应用系统的可靠性。

- SRE的核心目标包括可靠性、可扩展性、性能、自动化、监控和告警以及故障恢复。

 

SRE组织架构:

- SRE团队在组织中扮演着确保系统可靠性和高效运行的角色。

- 存在多种形式的SRE团队,包括中心化、嵌入式和混合模式。

 

SRE职能:

- 包括可靠性架构设计、研发保障、入网控制、变更管理、故障应急、上线后持续优化等。

- 详细讨论了应用韧性架构、基础设施保障、数据灾备、代码可靠性、代码仓库可靠性、构建可靠性和制品可靠性。

 

变更管理:

- 变更管理是SRE的重要组成部分,目的是控制变更风险,降低由变更导致的故障率。

- 包括变更体系设计、变更管理案例、发布管理案例和变更的工程体系设计。

 

故障应急:

- 详细描述了故障发现、诊断、恢复和复盘的过程。

- 强调了监控发现、巡检发现、人工上报和故障定界的重要性。

 

持续优化工作:

- 包括用户体验优化、重大技术保障、运维琐事的日常管理及优化、业务全生命周期工具建设、运营成本分析及优化、混沌工程和应用服务SLI/SLO

 

平台工程:

- 讨论了标准应用平台工程和异构应用平台工程建设。

- 包括应用元信息平台、统一资源供给、持续集成、持续部署、部署编排、可观测、成本管理、服务管理和安全与审计。

 

报告还提供了SRE实践的案例分析、故障管理策略、自动化和工具化的方法,以及对未来SRE实践的展望。通过这些内容,读者可以获得关于如何在不同企业中实施SRE的深入见解。

来源:SRE精英联盟

知识星球.jpg

欢迎加入圣香智库,下载所有精华报告。

1、请用微信扫描左侧二维码;
2、知识星球用于圣香所有报告分享平台,加入后即可下载;
3、加入后免费提问、免费下载所有报告,无任何限制;
4、越早加入福利越多。