Disaster Recovery Playbook
Базовый DR playbook на случай, когда штатный recovery path не закрывает инцидент.
Каноничный источник: этот runbook в angarabook/src/operations/.
Scope
Покрывает минимальные сценарии:
- повреждение WAL;
- потеря data directory;
- emergency-режимы с осознанным риском.
1) Corrupted WAL
Symptoms
ChecksumMismatchилиInvalidRecordпри старте.
Actions
- Если повреждение в tail, ожидать штатный truncate/recovery path.
- Если повреждение в середине:
- приоритетно restore из валидного backup (см. Backup and restore);
- emergency truncate допустим только как last resort с риском потери транзакций.
2) Lost data directory
Actions
- Восстановить
data_directoryиз full backup (процедура — Backup and restore). - Проверить, что WAL содержит непрерывную цепочку после точки backup.
- Запустить replay и подтвердить консистентность проверками.
3) Emergency modes (high risk)
- Игнор/ослабление проверок целостности допустимо только как break-glass.
- Любой такой запуск требует явного incident evidence и пост-инцидентного восстановления в штатный режим.
4) Prevention baseline
- Регулярные проверенные backup/restore rehearsal.
- Atomic snapshots data+txlog при использовании snapshot стратегии.
- Наличие pinned evidence для последних упражнений DR.
Дальше
- Backup and restore (operator-level) — какие предварительные снапшоты должны быть для DR-сценариев.
- Upgrade and migration — пересечение с DR при cross-version миграции.
- Replication v2 operations guide — как DR строится поверх логической репликации.
- Troubleshooting guide — если DR-процедура застряла на конкретной фазе.