Disaster recovery: fəlakətdən sonra bərpa

Disaster Recovery (DR) - texniki fəlakətdən sonra sistemi bərpa etmək planı. Hər ciddi biznesdə yazılı DR planı olmalıdır - "ola biləcək" deyil "olacaq" hadisələrə hazırlıq.

Mümkün fəlakətlər

Texniki

  • Server hardware failure
  • Data center yangın/sel
  • DDoS hücumu
  • Ransomware
  • DB corruption
  • Software bug

İnsani

  • Admin səhvi (DROP DATABASE)
  • Pis niyyətli insider
  • Şifrə oğurluğu

RTO və RPO

RTO (Recovery Time Objective)

Maksimum bərpa vaxtı. "Saytımız 4 saatdan çox açıq olmamalıdır."

RPO (Recovery Point Objective)

Maksimum data itkisi. "Son 1 saatlıq data itə bilər."

Düz seçim

  • Bloq: RTO 24 saat, RPO 24 saat
  • E-commerce: RTO 1 saat, RPO 15 dəqiqə
  • Bank: RTO 5 dəqiqə, RPO 0 (heç data itki)

DR strategiyaları

Cold standby

Backup-lar var, lakin server hazır deyil. Fəlakət olarsa yeni server qurulur. RTO: 8-24 saat. Ucuz.

Warm standby

Hazır server, lakin trafik almır. Fəlakət olarsa DNS dəyişdirilir. RTO: 30 dəqiqə-2 saat.

Hot standby

Active-active - hər iki server trafik alır. Birinin çöküşü heç hiss olunmur. RTO: 0. Ən bahalı.

Backup strategiyaları

3-2-1

  • 3 nüsxə
  • 2 fərqli media
  • 1 off-site

Versioning

30 daily + 12 monthly + 7 yearly backup. Köhnə data lazım gəlsə də.

Hot standby implementation

Load balancer

2 web server qarşısında - sağlam serverə yönləndirir. Cloudflare Load Balancer, AWS ELB.

Database replication

MySQL master-slave. Master çökərsə slave master olur (failover).

DNS failover

Multi-A records

2 IP qeydli A qeydi - brauzer biri işləməsə digərinə cəhd edir.

Cloudflare Load Balancer

Health check + DNS routing. Pulsuz tarifdə yoxdur, paid plan-larda.

Tam DR test

Quarter DR drill

Hər kvartalda DR planı test edin - real fəlakət simulate edin. Restore vaxtı ölçün.

Tabletop exercise

Komanda toplaşır, ssenariləri müzakirə edir - nə edəcəyik, kim hansı işdə.

Incident response plan

Roles

  • Incident Commander - qərarlar verir
  • Communication Lead - müştərilərə yazır
  • Technical Lead - texniki həll
  • Customer Support - sorğulara cavab

Communication template

Hörmətli müştərilər,
Saytımızda texniki problem yaşanır.
Komandamız işləyir. Yenilənmə hər 30 dəqiqədə.

Status page

Public şəffaflıq

status.sayt.az - real-time status. Atlassian Statuspage, Better Stack.

Post-mortem

Hər incident-dən sonra

  • Timeline (nə vaxt nə oldu)
  • Root cause analysis
  • What went well, what went wrong
  • Action items (önləmə tədbirləri)

Blameless culture

"Kim günahkar?" yox, "Necə qaçınmaq?" Səhvlər təlim imkanlarıdır.

Compliance tələbləri

ISO 27001

Information security management - DR planı məcburi.

SOC 2 Type II

SaaS şirkətlər üçün - audit DR test-ləri tələb edir.

Insurance

Cyber insurance

Ransomware, data breach maddi zərərini ödəyir. Aylıq $50-500.

Yangın və daşqın

Geographic redundancy

Fərqli ölkələrdə server. Cloudflare Workers, multi-region AWS.

Hostinq.az DR

Backup B2-də

Mx01 server gündəlik Backblaze B2-yə backup. Server tamamilə pozulsa belə data təhlükəsizdir.

Hardware redundancy

RAID, hot-swap PSU, redundant network - hardware failure-də sayt davam edir.

24/7 monitoring

Texniki komanda - real-time monitoring, dərhal müdaxilə.

Hostinq.az hosting - DR planı standart.

Paylaş: