Disaster Recovery (DR) - texniki fəlakətdən sonra sistemi bərpa etmək planı. Hər ciddi biznesdə yazılı DR planı olmalıdır - "ola biləcək" deyil "olacaq" hadisələrə hazırlıq.
Mümkün fəlakətlər
Texniki
- Server hardware failure
- Data center yangın/sel
- DDoS hücumu
- Ransomware
- DB corruption
- Software bug
İnsani
- Admin səhvi (DROP DATABASE)
- Pis niyyətli insider
- Şifrə oğurluğu
RTO və RPO
RTO (Recovery Time Objective)
Maksimum bərpa vaxtı. "Saytımız 4 saatdan çox açıq olmamalıdır."
RPO (Recovery Point Objective)
Maksimum data itkisi. "Son 1 saatlıq data itə bilər."
Düz seçim
- Bloq: RTO 24 saat, RPO 24 saat
- E-commerce: RTO 1 saat, RPO 15 dəqiqə
- Bank: RTO 5 dəqiqə, RPO 0 (heç data itki)
DR strategiyaları
Cold standby
Backup-lar var, lakin server hazır deyil. Fəlakət olarsa yeni server qurulur. RTO: 8-24 saat. Ucuz.
Warm standby
Hazır server, lakin trafik almır. Fəlakət olarsa DNS dəyişdirilir. RTO: 30 dəqiqə-2 saat.
Hot standby
Active-active - hər iki server trafik alır. Birinin çöküşü heç hiss olunmur. RTO: 0. Ən bahalı.
Backup strategiyaları
3-2-1
- 3 nüsxə
- 2 fərqli media
- 1 off-site
Versioning
30 daily + 12 monthly + 7 yearly backup. Köhnə data lazım gəlsə də.
Hot standby implementation
Load balancer
2 web server qarşısında - sağlam serverə yönləndirir. Cloudflare Load Balancer, AWS ELB.
Database replication
MySQL master-slave. Master çökərsə slave master olur (failover).
DNS failover
Multi-A records
2 IP qeydli A qeydi - brauzer biri işləməsə digərinə cəhd edir.
Cloudflare Load Balancer
Health check + DNS routing. Pulsuz tarifdə yoxdur, paid plan-larda.
Tam DR test
Quarter DR drill
Hər kvartalda DR planı test edin - real fəlakət simulate edin. Restore vaxtı ölçün.
Tabletop exercise
Komanda toplaşır, ssenariləri müzakirə edir - nə edəcəyik, kim hansı işdə.
Incident response plan
Roles
- Incident Commander - qərarlar verir
- Communication Lead - müştərilərə yazır
- Technical Lead - texniki həll
- Customer Support - sorğulara cavab
Communication template
Hörmətli müştərilər, Saytımızda texniki problem yaşanır. Komandamız işləyir. Yenilənmə hər 30 dəqiqədə.
Status page
Public şəffaflıq
status.sayt.az - real-time status. Atlassian Statuspage, Better Stack.
Post-mortem
Hər incident-dən sonra
- Timeline (nə vaxt nə oldu)
- Root cause analysis
- What went well, what went wrong
- Action items (önləmə tədbirləri)
Blameless culture
"Kim günahkar?" yox, "Necə qaçınmaq?" Səhvlər təlim imkanlarıdır.
Compliance tələbləri
ISO 27001
Information security management - DR planı məcburi.
SOC 2 Type II
SaaS şirkətlər üçün - audit DR test-ləri tələb edir.
Insurance
Cyber insurance
Ransomware, data breach maddi zərərini ödəyir. Aylıq $50-500.
Yangın və daşqın
Geographic redundancy
Fərqli ölkələrdə server. Cloudflare Workers, multi-region AWS.
Hostinq.az DR
Backup B2-də
Mx01 server gündəlik Backblaze B2-yə backup. Server tamamilə pozulsa belə data təhlükəsizdir.
Hardware redundancy
RAID, hot-swap PSU, redundant network - hardware failure-də sayt davam edir.
24/7 monitoring
Texniki komanda - real-time monitoring, dərhal müdaxilə.
Hostinq.az hosting - DR planı standart.