Parallel Runtime Observability Runbook
Операторский runbook для диагностики регрессий в AngaraParallel.
Каноничный источник: этот runbook в angarabook/src/operations/.
Goal
Быстро определить источник падения QPS/роста latency без deep-debug в коде:
- planner/plan shape;
- runtime/scheduler pressure;
- storage/IO contention.
Fast triage
- Сверить bench-метрики и серверные метрики в одном временном окне.
- Проверить QPS, p95/p99, queue depth, lock waits, error-rate.
- Классифицировать проблему: planner vs runtime vs storage.
Required signals
- USDT:
probe_parallel_query_startprobe_morsel_dispatchedprobe_morsel_completed- Prometheus minimum:
angarabase_storage_io_read_duration_ms_*angarabase_storage_io_write_duration_ms_*angarabase_pgwire_pool_queue_depthangarabase_lock_wait_duration_ms_*angarabase_slow_query_total
Incident playbook
- Снять baseline и regression run на одном профиле.
- Собрать
EXPLAIN ANALYZEдля медленных запросов. - Проверить, что используется ожидаемый parallel path:
workers_planned,workers_launched,Vector*operators иreason_codes. - Сопоставить dispatch/completion с tail latency.
- Проверить memory guardrails и деградацию вместо hard-fail.
- Зафиксировать short report: impact, suspect component, next action.
Дальше
- How to read query plans — подробная расшифровка
workers_planned,workers_launched,Vector*и optimizer diagnostics. - Performance tuning guide — общие подходы к тюнингу под параллелизм.
- Observability metrics checklist — общие метрики, в которые встроены параллельные счётчики.