Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Parallel Runtime Observability Runbook

Операторский runbook для диагностики регрессий в AngaraParallel. Каноничный источник: этот runbook в angarabook/src/operations/.

Goal

Быстро определить источник падения QPS/роста latency без deep-debug в коде:

  • planner/plan shape;
  • runtime/scheduler pressure;
  • storage/IO contention.

Fast triage

  1. Сверить bench-метрики и серверные метрики в одном временном окне.
  2. Проверить QPS, p95/p99, queue depth, lock waits, error-rate.
  3. Классифицировать проблему: planner vs runtime vs storage.

Required signals

  • USDT:
  • probe_parallel_query_start
  • probe_morsel_dispatched
  • probe_morsel_completed
  • Prometheus minimum:
  • angarabase_storage_io_read_duration_ms_*
  • angarabase_storage_io_write_duration_ms_*
  • angarabase_pgwire_pool_queue_depth
  • angarabase_lock_wait_duration_ms_*
  • angarabase_slow_query_total

Incident playbook

  1. Снять baseline и regression run на одном профиле.
  2. Собрать EXPLAIN ANALYZE для медленных запросов.
  3. Проверить, что используется ожидаемый parallel path: workers_planned, workers_launched, Vector* operators и reason_codes.
  4. Сопоставить dispatch/completion с tail latency.
  5. Проверить memory guardrails и деградацию вместо hard-fail.
  6. Зафиксировать short report: impact, suspect component, next action.

Дальше