江苏长田信息科技有限公司是一家专注智慧校园建设领域的服务型企业,打造覆盖 “教、学、考、评、管” 全场景的智慧校园一体化解决方案,构建集智慧教学、智慧管理、智慧服务、智慧安防于一体的校园数字生态,打通校园各系统数据壁垒,实现资源共享、业务协同与数据互通。
一、测试准备阶段
确认测试范围
核心系统:统一平台、教务、学工、一卡通、门禁、网络、数据中心
自愈对象:服务进程、数据库、网络、硬件、接口、业务
准备环境与工具
搭建测试环境或在试运行环境开展
准备:监控平台、日志工具、压力工具、网线 / PDU、终端设备
制定判定标准
自愈时间:服务≤3 分钟,数据库切换≤5 分钟
数据要求:不丢失、不重复、不脏数据
业务要求:自动恢复,无需人工干预
备份数据测试前全量备份,避免影响正式业务。
二、基线检查阶段
检查所有系统正常运行
监控各项指标:CPU、内存、连接数、服务状态
记录正常业务访问结果(登录、查询、刷卡、考勤等)
确认监控告警、日志可正常采集
三、故障模拟阶段(按场景依次执行)
1. 应用服务异常自愈
停止 / 杀死应用服务进程
观察是否自动重启、重新上线
记录自愈时长、业务是否恢复
2. 数据库异常自愈
主库停机 / 断开
观察是否自动主从切换
检查应用是否无感知、数据一致
3. 网络异常自愈
拔插核心交换机 / 链路
模拟弱网、闪断、丢包
检查重连后会话保持、业务续传
4. 硬件 / 供电异常自愈
单服务器宕机 / PDU 断电
检查集群负载漂移、服务不中断
重启后数据完整、服务自动拉起
5. 高并发 / 资源耗尽自愈
压测至 CPU / 内存 / 连接池满
观察系统是否限流、降级、自我保护
压力解除后是否自动恢复
6. 业务接口异常自愈
第三方接口超时 / 阻塞
检查熔断、重试、降级机制
不雪崩、不拖垮整体平台
四、观察与验证阶段
每个故障模拟后,统一做三件事:
看监控
服务是否自动恢复
指标是否回到正常区间
有无持续报错
查日志
有无崩溃、死锁、数据异常
有无自愈动作记录
验业务
登录、查询、操作是否正常
刷卡 / 考勤 / 消费不重复、不丢单
数据前后一致
五、恢复与清理阶段
停止所有故障模拟
手动恢复环境至正常状态
检查无残留异常、无脏数据
记录所有故障点、自愈结果、耗时
六、输出报告阶段
统计自愈成功率
列出自愈时长、是否达标
标注问题项、整改建议
形成《异常自愈能力测试报告》
极简流程版(可直接用于 PPT)
准备环境与标准
基线检查
分场景模拟故障(服务 / 库 / 网络 / 硬件 / 压力)
监控自愈过程
验证业务与数据
恢复环境
输出测试结论
本文章来自:江苏长田信息科技有限公司
编辑人:任女士
联系
VX:TRENDY_001
转发请注明