Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Disaster Recovery Playbook

Базовый DR playbook на случай, когда штатный recovery path не закрывает инцидент. Каноничный источник: этот runbook в angarabook/src/operations/.

Scope

Покрывает минимальные сценарии:

  • повреждение WAL;
  • потеря data directory;
  • emergency-режимы с осознанным риском.

1) Corrupted WAL

Symptoms

  • ChecksumMismatch или InvalidRecord при старте.

Actions

  1. Если повреждение в tail, ожидать штатный truncate/recovery path.
  2. Если повреждение в середине:
  • приоритетно restore из валидного backup (см. Backup and restore);
  • emergency truncate допустим только как last resort с риском потери транзакций.

2) Lost data directory

Actions

  1. Восстановить data_directory из full backup (процедура — Backup and restore).
  2. Проверить, что WAL содержит непрерывную цепочку после точки backup.
  3. Запустить replay и подтвердить консистентность проверками.

3) Emergency modes (high risk)

  • Игнор/ослабление проверок целостности допустимо только как break-glass.
  • Любой такой запуск требует явного incident evidence и пост-инцидентного восстановления в штатный режим.

4) Prevention baseline

  • Регулярные проверенные backup/restore rehearsal.
  • Atomic snapshots data+txlog при использовании snapshot стратегии.
  • Наличие pinned evidence для последних упражнений DR.

Дальше