Детектирование аномалий для защиты торговых ботов: от Z-Score до Transformer

Каждый, кто запускал торгового бота на крипто-биржах, знает это чувство: бот работает неделю как часы, а потом за 30 секунд сливает недельную прибыль. Flash crash на одной бирже. Фейковая стена в стакане. Ликвидационный каскад. Или просто биржа вернула мусор вместо данных.

Все эти ситуации объединяет одно — это аномалии. И если ваш бот не умеет их распознавать, он рано или поздно станет их жертвой.

Что считать аномалией в крипто-трейдинге

Прежде чем ловить аномалии, нужно договориться, что мы ищем. В машинном обучении выделяют три типа, и все три встречаются на крипторынках ежедневно.

Точечные аномалии — одиночные события, резко выбивающиеся из нормы. Свеча с объёмом в 50 раз выше среднего. Спред BTC/USDT на Binance, подскочивший до 0.5%. Для market-making бота каждое такое событие — потенциальная ловушка: войти в позицию по фейковой цене или получить slippage, съедающий всю маржу.

Коллективные аномалии — серия событий, которые по отдельности выглядят нормально, но в совокупности сигнализируют о проблеме. Классический пример — spoofing: кто-то выставляет и снимает крупные лимитные ордера на протяжении нескольких минут. Каждый отдельный ордер обычный, но паттерн «выставил–снял–выставил–снял» с order-to-trade ratio 100:1 — это манипуляция, и бот, ориентирующийся на глубину стакана, будет торговать на основе несуществующей ликвидности.

Контекстуальные аномалии — нормальное значение в неправильном контексте. Объём торгов BTC, типичный для лондонской сессии, но наблюдаемый в 3 часа ночи UTC в воскресенье. Без учёта контекста такие аномалии невидимы — и именно они чаще всего пропускаются базовыми детекторами.

Типы аномалий в трейдинге Визуализация трех основных типов аномалий: точечные всплески, коллективные паттерны и контекстуальные отклонения.

Шум vs. аномалия: проблема контекста

Аномалия — это не просто «странные данные». Это отклонение, которое несет в себе информацию. Важно разделять:

Шум: случайные колебания, являющиеся частью нормального режима рынка.
Дрейф (Drift): постепенная смена рыночных условий (например, переход от ночного затишья к активному утру).
Аномалия: резкое нарушение ожидаемого паттерна.

Типы вариаций данных Определение разницы между безобидным шумом, устойчивым дрейфом и опасными аномалиями — ключевой вызов для любого детектора.

Простые методы, которые решают 80% задач

Не всё нужно забивать нейросетями. Для большинства торговых ботов хватает трёх базовых детекторов.

Z-Score: быстрый фильтр экстремумов

Z-Score показывает, на сколько стандартных отклонений текущее значение отличается от скользящего среднего. Считается за микросекунды, работает на любом таймфрейме.

Мы используем его для трёх задач: фильтра аномальных объёмов (Z-Score > 3 — сигнал расширить спреды или приостановить котирование), мониторинга спредов (аномальное расширение bid-ask часто предшествует резкому движению) и funding rate на фьючерсах (экстремальные значения предупреждают о вероятном ликвидационном каскаде).

Статистический метод Z-Score Z-Score определяет экстремальные события, измеряя, на сколько стандартных отклонений точка удалена от среднего. Значения, превышающие ±3σ, в большинстве торговых систем считаются выбросами.

Важное ограничение: крипторынки имеют «толстые хвосты» распределений. Событие, которое по нормальному распределению должно случаться раз в миллион лет (6σ), на крипте происходит раз в месяц. Поэтому Z-Score — фильтр грубых аномалий, а не финальное решение.

Level Shift Detector: когда рынок меняет режим

Берём два скользящих окна, идущих друг за другом, и сравниваем средние значения. Если разница превышает порог — произошёл сдвиг уровня. Market-making стратегии зарабатывают в стабильном рынке и теряют при резких движениях. Level Shift Detector на объёме и волатильности предупреждает о смене режима за минуты до того, как это станет очевидно по цене.

Применяем его к нескольким метрикам одновременно: средний размер сделки, глубина стакана на первых 5 уровнях, количество сделок в единицу времени. Если Level Shift сработал хотя бы по двум — бот переключается в защитный режим.

Volatility Shift Detector: предчувствие шторма

Аналогичный подход, но вместо средних сравниваются стандартные отклонения. Резкий рост волатильности — сигнал пересмотреть параметры. Интересный паттерн: аномально низкая волатильность часто предшествует взрывному движению. Volatility Shift Detector ловит оба случая — и сжатие, и расширение.

Детекторы смены режима Детекторы Level Shift и Volatility Shift являются ключевыми для идентификации «смены режима» — внезапных структурных сдвигов в поведении рынка, требующих изменения параметров торговли.

HBOS: быстрый многомерный анализ

Когда нужно мониторить 10+ показателей одновременно без затрат на сложный ML, HBOS (Histogram-Based Outlier Selection) — лучший выбор. Он предполагает независимость признаков и строит гистограмму для каждого. Оценка аномальности — произведение обратных плотностей по всем гистограммам.

Принцип алгоритма HBOS HBOS работает значительно быстрее дистанционных методов вроде LOF, что позволяет использовать его для высокочастотной фильтрации многомерных векторов состояния.

Machine Learning: когда статистики недостаточно

Базовые методы работают с одним показателем за раз. Но реальные аномалии часто проявляются как необычная комбинация показателей: объём нормальный, спред нормальный, но объём + спред + скорость изменения цены + дисбаланс стакана вместе — аномальны. Здесь нужен ML.

Иерархия методов ML для поиска аномалий Структурированный ландшафт методов поиска аномалий: от классических алгоритмов без учителя до моделей глубокого обучения.

Isolation Forest: лучший баланс для продакшена

Из всех ML-методов Isolation Forest лучше всего подходит для торговых систем. Алгоритм строит ансамбль деревьев решений, которые случайным образом разбивают пространство признаков. Аномальные точки, будучи «редкими и отличающимися», изолируются за меньшее количество разбиений.

Почему именно он? Не требует размеченных данных — разметить аномалии на крипторынке практически невозможно, каждый flash crash уникален. Быстрый inference за миллисекунды — подходит для near-real-time использования. И что критично для продакшена: предсказания объясняются через SHAP-значения — вы не просто знаете, что момент аномальный, а понимаете почему.

На данных Bitcoin Isolation Forest обнаружил не только очевидные аномалии вроде всплеска волатильности при отказе Tesla от BTC-платежей в 2021 году, но и неочевидные — периоды, когда ценовые движения не поддерживались объёмом, что указывало на манипуляции. При анализе spoofing SHAP показывает, что ключевые индикаторы — несбалансированные котировки в стакане и аномально высокая активность отмен.

Принцип Isolation Forest Алгоритм Isolation Forest работает путем случайного разбиения пространства: аномалии изолируются за значительно меньшее количество шагов, чем точки в плотных кластерах.

LOF: лучший выбор для мультибиржевого мониторинга

Local Outlier Factor оценивает аномальность точки, сравнивая её локальную плотность с плотностью соседей. Исследование (Springer, 2024), сравнивавшее LOF, Isolation Forest и One-Class SVM на криптовалютных данных, показало, что LOF оказался наиболее эффективным — он лучше находил реальные аномалии при минимуме ложных срабатываний, причём стабильно работал как на Bitcoin, так и на Dogecoin.

Почему LOF важен для мультибиржевой инфраструктуры? Данные с разных бирж имеют разную «плотность» — на Binance тысячи сделок в секунду, на нишевой бирже — десятки. Глобальные методы вроде Z-Score будут давать ложные срабатывания на нишевых биржах или пропускать аномалии на крупных. LOF адаптируется к локальному контексту.

Визуализация алгоритма LOF LOF сравнивает локальную плотность точки с её соседями. Это позволяет находить выбросы, которые являются аномальными «локально», даже если они вписываются в глобальные паттерны данных.

Ограничение — квадратичная сложность по числу точек. Для тиковых данных в реальном времени он слишком медленный, но для минутных агрегатов по 100+ биржам — идеален.

Автокодировщики: глубокий анализ стакана

Autoencoder — нейросеть, которая сжимает данные в компактное представление и восстанавливает обратно. Обучается на «нормальных» данных, после чего высокая ошибка восстановления сигнализирует об аномалии.

Для анализа orderbook это самый мощный инструмент. Стакан с 20 уровнями bid и 20 уровнями ask — это 40-мерный вектор, обновляющийся сотни раз в секунду. LSTM Autoencoder учитывает не только текущее состояние, но и динамику — как стакан менялся за последние N тиков. Гибридный подход «LSTM Autoencoder + One-Class SVM» разделяет задачи: нейросеть отвечает за feature extraction, классический ML — за принятие решения. Главный недостаток — вычислительная стоимость: для real-time inference нужен GPU.

Архитектура автокодировщика Автокодировщики обучаются сжатому «скрытому» представлению нормальных данных. Аномалии не удается восстановить точно, что приводит к высокой ошибке, используемой для детектирования.

Каскадная архитектура: как собрать всё вместе

Ни один метод не решает все задачи. Быстрые методы пропускают сложные аномалии. Точные методы слишком медленные для real-time. Решение — каскадная архитектура, где каждый следующий уровень ловит то, что пропустил предыдущий.

Каскадная архитектура защиты Многоуровневая архитектура детектирования аномалий: от миллисекундных жестких лимитов до глубокого обучения в фоновом режиме.

Первый уровень — Fast Path (менее 1 мс). Z-Score на объёме, спреде и ценовом изменении. Персистентная проверка. Жёсткие лимиты. При срабатывании — немедленная пауза торговли. Этот уровень защищает от flash crash, ошибок API и грубых манипуляций. Реализуется в основном цикле бота без внешних зависимостей.

Второй уровень — Near Real-Time (1–100 мс). Isolation Forest на комбинации признаков. Level Shift и Volatility Shift детекторы. При срабатывании — переключение торгового режима, корректировка параметров. Работает в параллельном потоке.

Третий уровень — Background Analysis (1–60 секунд). LOF на мультибиржевых данных. LSTM Autoencoder на состояниях стакана. Анализ остатков после сезонного разложения. При срабатывании — алерты, корректировка параметров стратегий.

Четвёртый уровень — Batch Analysis (ежечасно/ежедневно). DBSCAN для обнаружения wash trading. PCA для мониторинга межбиржевых корреляций. Полное переобучение моделей. Результат — отчёты, обновление моделей, корректировка пороговых значений.

Каждый уровень работает независимо. Если упал третий — первый и второй продолжают защищать бота. Отказоустойчивость и graceful degradation — обязательные свойства любой торговой инфраструктуры.

Практические рекомендации

Несколько уроков из продакшена.

Начинайте с простого. Z-Score + Level Shift + Volatility Shift можно реализовать за день. Это закроет большинство ситуаций потерь из-за аномальных рыночных условий. GPU-кластер — потом.

Contamination parameter — самый важный гиперпараметр. В Isolation Forest он определяет ожидаемую долю аномалий. Для крипторынков мы используем 0.01–0.05 в зависимости от пары и биржи. Слишком низкий — пропускаете реальные аномалии. Слишком высокий — ложные срабатывания парализуют торговлю.

Адаптивные пороги вместо фиксированных. Крипторынок нестационарен. Порог, работавший в январе, будет генерировать ложные срабатывания в марте. Используйте EWMA для обновления порогов или периодически переобучайте модели на скользящем окне.

Логируйте все аномалии. Даже если не реагируете автоматически — сохраняйте метку с контекстом. Через месяц у вас будет датасет для обучения supervised моделей и анализа, какие аномалии предшествовали убыткам.

Тестируйте на реальных инцидентах. Соберите коллекцию исторических аномалий: flash crash мая 2021, ликвидационный каскад FTX, LUNA collapse. Прогоняйте каждый новый детектор через эти сценарии. Если он не ловит известные инциденты — он бесполезен.

Что дальше

Три направления, за которыми стоит следить.

Transformer-based модели для orderbook. Свежие исследования показывают, что Transformer autoencoder + OC-SVM на данных Limit Order Book значительно превосходит все предыдущие подходы по обнаружению spoofing. Staged Sliding Window Transformer на высокочастотных EUR/USD данных (315 млн записей) показал accuracy 0.93, F1 0.91, AUC-ROC 0.95 — значительно лучше Random Forest, LSTM и CNN.

Transformer для стакана Архитектуры Transformer с механизмом multi-head attention показывают исключительную эффективность в выявлении сложных временных паттернов в высокочастотных данных Limit Order Book.

GAN для генерации синтетических аномалий. Одна из главных проблем — нехватка размеченных данных. GAN может генерировать реалистичные сценарии манипуляций для обучения supervised моделей. Уже есть архитектуры, достигающие 94.7% accuracy при latency менее 3 мс и пропускной способности 150,000 транзакций в секунду.

GAN для аномалий в трейдинге Генеративно-состязательные сети (GAN) могут использоваться для расширения датасетов путем создания реалистичных синтетических аномалий, решая проблему нехватки размеченных данных.

Change Point Detection (CPD). Вместо поиска одиночных выбросов, CPD фокусируется на определении точного момента, когда изменились статистические свойства сигнала. Это критично для переключения между режимами маркет-мейкинга (например, от mean-reversion к trend-following).

Change Point Detection Детектирование точек изменения (CPD) позволяет идентифицировать структурные сдвиги во временных рядах, обозначая границы между различными рыночными режимами.

Обнаружение аномалий — не опциональная фича. Это фундамент, без которого алготрейдинг превращается в рулетку. И чем раньше вы его построите, тем меньше дорогих уроков преподнесёт рынок.

Полезные ссылки

Цитирование

@software{soloviov2026anomalydetectionalgotrading,
  author = {Soloviov, Eugen},
  title = {Детектирование аномалий для защиты торговых ботов: от Z-Score до Transformer},
  year = {2026},
  url = {https://marketmaker.cc/ru/blog/post/anomaly-detection-algotrading},
  version = {0.1.0},
  description = {Какие методы обнаружения аномалий реально работают в крипто-алготрейдинге, как выстроить каскадную архитектуру защиты и почему это фундамент, без которого алготрейдинг превращается в рулетку.}
}

Детектирование аномалий для защиты торговых ботов: от Z-Score до Transformer