Runbook: `AngarabaseDown`

Source of truth: tools/observability/alerts/angarabase_alerts.yaml. Backed by: RM-0.6.3.8 S7 (Prometheus Alert Rules v0).

Что означает

Prometheus не получает ответа от target up{job="angarabase"} дольше 30 секунд. Сервер либо упал, либо не отвечает на /metrics, либо сетевой путь между Prometheus и instance нарушен.

Severity

critical. Затрагивает доступность сервиса для всех клиентов.

Initial response (5 минут)

# 1. Проверить процесс
systemctl status angarabase-server   # или ваш service manager
ps -ef | grep angarabase-server

# 2. Проверить порт
ss -ltnp | grep -E ':(5432|9898)'

# 3. Дёрнуть метрики напрямую с хоста
curl -sf http://127.0.0.1:9898/metrics | head -5

Diagnostics

Лог сервера: journalctl -u angarabase-server -n 200 (или ваш log path).

Диагностика crash (RM-0.6.5.6):

Panic hook: при краше сервер пишет [PANIC] thread='...' message='...' backtrace: в stderr (обычно перенаправлен в wrapper.log). Ищите backtrace для понимания причины.
Supervisor crash log: manage.sh пишет [CRASH] pid=N exit_code=M в wrapper.log. Эта строка подтверждает факт падения процесса под управлением супервизора.

Команды для быстрой диагностики:

# Найти последний panic с backtrace (показать 20 строк контекста):
grep -A 20 "\[PANIC\]" artifacts/golden_db/logs/wrapper.log | tail -40

# Найти все crash-события с exit кодами:
grep "\[CRASH\]" artifacts/golden_db/logs/wrapper.log | tail -10
# Пример вывода: [CRASH] pid=18073 exit_code=101 timestamp=2026-05-07T07:03:57Z

# Проверить последние 50 строк лога сервера до краша:
grep -B 5 "\[CRASH\]\|\[PANIC\]" artifacts/golden_db/logs/wrapper.log | tail -30

Lease: см. crash-recovery.md если сервер упал из-за ResourceBusy (PID файл / lease).
Network: ss -s, iptables -L -n, проверить firewall между Prometheus и instance.

Mitigation

Сценарий	Действие
Процесс упал	`systemctl restart angarabase-server` + собрать crash dump
Lease stuck	`ANGARABASE_FORCE_LEASE_TAKEOVER=1` + рестарт (см. troubleshooting.md)
Сеть	Проверить firewall, маршрут, DNS
Перегрузка `/metrics`	Снизить scrape_interval; проверить timeouts в Prometheus

Escalation

Если перезапуск не помогает > 10 минут — собрать diagnostics bundle и эскалировать по support flow.

AngaraBook