Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Runbook: AngarabaseDown

Source of truth: tools/observability/alerts/angarabase_alerts.yaml. Backed by: RM-0.6.3.8 S7 (Prometheus Alert Rules v0).

Что означает

Prometheus не получает ответа от target up{job="angarabase"} дольше 30 секунд. Сервер либо упал, либо не отвечает на /metrics, либо сетевой путь между Prometheus и instance нарушен.

Severity

critical. Затрагивает доступность сервиса для всех клиентов.

Initial response (5 минут)

# 1. Проверить процесс
systemctl status angarabase-server   # или ваш service manager
ps -ef | grep angarabase-server

# 2. Проверить порт
ss -ltnp | grep -E ':(5432|9898)'

# 3. Дёрнуть метрики напрямую с хоста
curl -sf http://127.0.0.1:9898/metrics | head -5

Diagnostics

  • Лог сервера: journalctl -u angarabase-server -n 200 (или ваш log path).

  • Диагностика crash (RM-0.6.5.6):

    • Panic hook: при краше сервер пишет [PANIC] thread='...' message='...' backtrace: в stderr (обычно перенаправлен в wrapper.log). Ищите backtrace для понимания причины.
    • Supervisor crash log: manage.sh пишет [CRASH] pid=N exit_code=M в wrapper.log. Эта строка подтверждает факт падения процесса под управлением супервизора.

    Команды для быстрой диагностики:

    # Найти последний panic с backtrace (показать 20 строк контекста):
    grep -A 20 "\[PANIC\]" artifacts/golden_db/logs/wrapper.log | tail -40
    
    # Найти все crash-события с exit кодами:
    grep "\[CRASH\]" artifacts/golden_db/logs/wrapper.log | tail -10
    # Пример вывода: [CRASH] pid=18073 exit_code=101 timestamp=2026-05-07T07:03:57Z
    
    # Проверить последние 50 строк лога сервера до краша:
    grep -B 5 "\[CRASH\]\|\[PANIC\]" artifacts/golden_db/logs/wrapper.log | tail -30
    
  • Lease: см. crash-recovery.md если сервер упал из-за ResourceBusy (PID файл / lease).

  • Network: ss -s, iptables -L -n, проверить firewall между Prometheus и instance.

Mitigation

СценарийДействие
Процесс упалsystemctl restart angarabase-server + собрать crash dump
Lease stuckANGARABASE_FORCE_LEASE_TAKEOVER=1 + рестарт (см. troubleshooting.md)
СетьПроверить firewall, маршрут, DNS
Перегрузка /metricsСнизить scrape_interval; проверить timeouts в Prometheus

Escalation

Если перезапуск не помогает > 10 минут — собрать diagnostics bundle и эскалировать по support flow.

Связанные