2018年双11技术战役复盘与总结¶
状态: 🚀 进行中
1. 核心目标与挑战¶
2018年的双11战役,在明确的业务指标(DAU KPI 4亿)驱动下,技术团队的核心目标是保障绝对的稳定性,并攻坚数个重大技术改造项目。
- 稳定性目标 (Stability Goals):
- 核心指标: 无P1/P2等级故障,零资金损失。
- 客户端: 手淘 Crash 率 < 0.12%, ANR 率 < 0.2%;猫客 Crash 率 < 0.15%。
- 服务端: 交易链路性能提升20%。
【证据】:
2018/双11/淘宝周会/0814周会纪要.md
- 核心技术挑战 (Core Technical Challenges):
- 应用架构升级: 包括“去Atlas”和引入“回压”机制在内的大规模客户端与服务端架构改造,风险高,需在双11进行大流量验证。
- 资源布局与混部: 导购业务进入混合部署(在线与离线业务共用服务器)的比例从20%激增至45%,带来了巨大的不确定性和稳定性风险。
- 高复杂度业务: “互动”玩法规则复杂,对数据一致性要求高;“猫晚”直播对带宽(预估6.8T)、码率切换体验、内存消耗都是巨大考验。
- 多系统快速接管: 千牛团队新接手20个系统,且多数未经历过双11考验,保障压力巨大。
【证据】:
2018/双11/历史参考/2018双十一.md,2018/双11/技术部/中期技术汇报/技术中期汇报0913.md,2018/双11/淘宝周会/0823业务方案摸底.md
2. 项目管理与运行机制¶
为应对上述挑战,PMO建立了一套清晰、高效的运行机制。
- 项目分级管理: 整体战役被划分为“战役-项目集-项目”三级,所有项目需在Aone系统完成线上立项,并关联至“2018淘宝双十一项目集”。
- 沟通与决策节奏: - 周会: 每周二下午14:00-16:00召开PMO、PTM及各业务线接口人周会,同步进展、对齐风险。 - 周报: 各项目集负责人每周四24:00前提交标准模板的周报。 - 专项会议: - 业务方案摸底会 (8/23): 在项目早期介入,从稳定性、安全角度评估业务方案的可行性。 - 中期技术汇报会 (9/13): 在项目中期,对核心技术方案进行深度Review,识别深层风险并制定Action。
- 风险与Action闭环: 所有会议的讨论都产出明确的Action Item,并指定负责人和截止日期,在后续会议中持续跟进闭环。
【证据】:
2018/双11/淘宝周会/0814周会纪要.md,2018/双11/技术部/中期技术汇报/技术中期汇报0913.md
3. 关键技术攻坚与风险管理¶
各核心技术域均识别出具体风险,并制定了针对性策略。
- 互动玩法: - 风险: 能量兑换阶段QPS预估高达70-90W,远超能量系统30W的承载能力;数据一致性问题可能导致客诉和舆情。 - 对策: 能量提前导入缓存用于开奖兑换;在规则和产品层面限制“用户同时加入多个群”等行为;细化数据出错的重算预案,评估恢复时长。
- 猫晚直播: - 风险: 带宽预估6.8T,成本高;为保开播率,需在不同码率间切换,可能导致用户体验(黑屏/卡顿)下降。 - 对策: 优先保障低码率(500K)开播成功率,再尝试提升码率;测试码率切换的用户体感;规划H.265编码以降低带宽。
- 应用架构升级: - 风险: “回压”等新架构特性风险大,全量上线可能引发未知问题。 - 对策: 采取保守策略,双11期间仅在“我的淘宝”等二线场景进行大流量验证,手淘首页等核心场景不上线新架构,确保核心稳定。
- 资源与部署:
- 风险: 45%的混合部署为全新挑战,缺乏已验证的压测模型。
- 对策: 在全链路压测中重点关注混合部署场景的性能和稳定性;与CDN团队重新预估量级,制定详细的资源保障和降级预案,优先保图片等核心业务。
【证据】:
2018/双11/技术部/中期技术汇报/技术中期汇报0913.md,2018/双11/淘宝周会/0823业务方案摸底.md
4. 项目里程碑与高级别关注点¶
- 8月 (启动规划): 明确技术目标与口径,建立项目运作机制,完成业务方案风险摸底。
- 9月 (技术攻坚): 召开中期技术汇报,对核心技术方案进行评审和挑战,明确风险应对策略。
- 10月 (压测预演): 进入密集的压测和预演阶段。例如10月16日的进展显示,互动业务正在扩容DB,会场在做性能优化,猫晚在与导演组联调。
- 11月 (决战保障): 预热期开始,所有团队按值班表进入战时状态,严格执行变更管控,保障线上稳定。
【证据】:
2018/双11/淘宝周会/0814周会纪要.md,2018/双11/技术部/中期技术汇报/技术中期汇报0913.md,2018/双11/淘宝周会/10.16.html