Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Runbook: WALFsyncSlow

Source of truth: tools/observability/alerts/angarabase_alerts.yaml. Backed by: RM-0.6.3.8 S7.

Что означает

P99 fsync latency для WAL превышает 50 ms на протяжении 5 минут. Каждый commit ждёт диска дольше, чем целевой бюджет — TPS падает, commit latency растёт, риск каскадного backlog.

Severity

warning. При 200 ms+ — близко к critical (рассмотреть эскалацию).

Initial response

  1. Grafana Overview v2 → row “WAL & Durability”.
  2. Проверить, не выросла ли WAL throughput rate (bytes/s) — переполнение write buffer.
  3. iostat -xm 1 5 на хосте — насыщен ли диск под WAL.

Diagnostics

curl -sf http://127.0.0.1:9898/metrics | rg transaction_log
iostat -xm 1 5
dmesg | tail -50   # ошибки I/O / SMART warnings

Mitigation

ПричинаДействие
Disk насыщенПеренести WAL на отдельный диск; SSD/NVMe вместо HDD
Group commit offВключить wal.group_commit = true в config
Network FSНЕ используйте NFS / CIFS для wal/ — fsync семантика непредсказуема
Большой wal_buffer_bytesУменьшить до разумного (16–64 MB)
Filesystem barriers offПроверить mount options (barrier=1, data=ordered)

Escalation

Если fsync > 200 ms сохраняется > 10 минут — это путь к coordinated omission и потере commit; собрать diagnostics bundle, эскалировать срочно (durability-критично).

Связанные