Runbook: AngarabaseDown
Source of truth:
tools/observability/alerts/angarabase_alerts.yaml. Backed by: RM-0.6.3.8 S7 (Prometheus Alert Rules v0).
Что означает
Prometheus не получает ответа от target up{job="angarabase"} дольше 30 секунд.
Сервер либо упал, либо не отвечает на /metrics, либо сетевой путь между Prometheus и instance нарушен.
Severity
critical. Затрагивает доступность сервиса для всех клиентов.
Initial response (5 минут)
# 1. Проверить процесс
systemctl status angarabase-server # или ваш service manager
ps -ef | grep angarabase-server
# 2. Проверить порт
ss -ltnp | grep -E ':(5432|9898)'
# 3. Дёрнуть метрики напрямую с хоста
curl -sf http://127.0.0.1:9898/metrics | head -5
Diagnostics
-
Лог сервера:
journalctl -u angarabase-server -n 200(или ваш log path). -
Диагностика crash (RM-0.6.5.6):
- Panic hook: при краше сервер пишет
[PANIC] thread='...' message='...' backtrace:в stderr (обычно перенаправлен вwrapper.log). Ищите backtrace для понимания причины. - Supervisor crash log:
manage.shпишет[CRASH] pid=N exit_code=Mвwrapper.log. Эта строка подтверждает факт падения процесса под управлением супервизора.
Команды для быстрой диагностики:
# Найти последний panic с backtrace (показать 20 строк контекста): grep -A 20 "\[PANIC\]" artifacts/golden_db/logs/wrapper.log | tail -40 # Найти все crash-события с exit кодами: grep "\[CRASH\]" artifacts/golden_db/logs/wrapper.log | tail -10 # Пример вывода: [CRASH] pid=18073 exit_code=101 timestamp=2026-05-07T07:03:57Z # Проверить последние 50 строк лога сервера до краша: grep -B 5 "\[CRASH\]\|\[PANIC\]" artifacts/golden_db/logs/wrapper.log | tail -30 - Panic hook: при краше сервер пишет
-
Lease: см.
crash-recovery.mdесли сервер упал из-заResourceBusy(PID файл / lease). -
Network:
ss -s,iptables -L -n, проверить firewall между Prometheus и instance.
Mitigation
| Сценарий | Действие |
|---|---|
| Процесс упал | systemctl restart angarabase-server + собрать crash dump |
| Lease stuck | ANGARABASE_FORCE_LEASE_TAKEOVER=1 + рестарт (см. troubleshooting.md) |
| Сеть | Проверить firewall, маршрут, DNS |
Перегрузка /metrics | Снизить scrape_interval; проверить timeouts в Prometheus |
Escalation
Если перезапуск не помогает > 10 минут — собрать diagnostics bundle и эскалировать по support flow.