Перейти к содержимому
CloudBridge Research Team Research

AI Routing Lab: Machine Learning for Network Route Optimization

How we use Machine Learning to predict network latency and optimize routing in real-time.

#AI #Machine Learning #Routing #QUIC #Research

Поделиться:

AI Routing Lab: Машинное обучение для оптимизации сетевых маршрутов

Оригинал статьи опубликован на Хабре: https://habr.com/ru/articles/970270/

Введение

В современных сетях выбор оптимального маршрута — это не просто поиск кратчайшего пути по количеству хопов (как в RIP) или по стоимости линков (как в OSPF). В условиях глобального интернета, где задержки (latency) и джиттер (jitter) могут меняться каждую секунду, статические метрики перестают работать эффективно.

Мы в CloudBridge Research запустили проект AI Routing Lab, чтобы ответить на вопрос: можно ли с помощью машинного обучения предсказывать сетевые характеристики и выбирать маршруты лучше, чем это делают традиционные протоколы?

Проблема традиционной маршрутизации

Классические протоколы маршрутизации (BGP, OSPF) оперируют относительно статичными метриками. BGP вообще не знает о задержках — он выбирает путь по AS-PATH, что часто приводит к субоптимальным маршрутам (например, трафик из Москвы в Санкт-Петербург может пойти через Франкфурт).

SD-WAN решения пытаются решить эту проблему, активно измеряя качество каналов (Active Probing). Но это реактивный подход: мы узнаем о проблеме, когда она уже случилась.

Наша гипотеза: используя исторические данные и текущие измерения, можно обучить ML-модель предсказывать деградацию канала и переключать трафик до того, как пользователь заметит проблемы.

Архитектура AI Routing Lab

Проект состоит из нескольких компонентов:

  1. Data Collector: Сбор метрик (RTT, Jitter, Packet Loss) с реальных узлов сети CloudBridge Relay. Мы используем quic-test для генерации тестового трафика и сбора детальной статистики.
  2. Feature Engineering: Преобразование сырых метрик в признаки для модели. Мы учитываем время суток, день недели, исторические паттерны загрузки и корреляции между различными маршрутами.
  3. Model Training: Обучение моделей. Мы экспериментировали с различными алгоритмами:
    • Linear Regression: Базовый уровень, работает быстро, но плохо ловит нелинейные зависимости.
    • Random Forest: Отличные результаты, устойчивость к выбросам, хорошая интерпретируемость.
    • LSTM (Long Short-Term Memory): Рекуррентные нейросети для анализа временных рядов. Показывают лучшие результаты на длинных горизонтах планирования, но требуют больше ресурсов.
  4. Inference Engine: Компонент, который работает в реальном времени на узлах сети и принимает решения о выборе маршрута.

Результаты экспериментов

Мы провели серию экспериментов на реальной сети, сравнивая ML-маршрутизацию с традиционными подходами.

Точность предсказания (R²)

МодельLatency (RTT)Jitter
Linear Regression0.720.65
Random Forest0.940.89
LSTM0.920.88

Random Forest показал лучший баланс между точностью и скоростью работы.

Влияние на пользовательский опыт

Внедрение ML-маршрутизации позволило:

  • Снизить среднюю задержку (Average RTT) на 15-20% в часы пик.
  • Уменьшить джиттер на 30-40%, что критично для VoIP и видеоконференций.
  • Предотвратить 85% случаев кратковременных обрывов связи (micro-bursts), заранее переключая трафик на резервные каналы.

Почему Random Forest?

Несмотря на популярность нейросетей, мы остановились на Random Forest (случайный лес) для продакшн-решения по нескольким причинам:

  1. Скорость инференса: Решение нужно принимать за микросекунды. Random Forest работает очень быстро.
  2. Интерпретируемость: Мы можем понять, почему модель приняла то или иное решение (feature importance), что критично для отладки сети.
  3. Устойчивость: Алгоритм менее склонен к переобучению на шумных данных, чем сложные нейросети.

Связь с другими исследованиями

Наши результаты коррелируют с мировыми исследованиями в этой области.

  • Google’s Espresso: Google использует SDN и глобальную информацию о сети для оптимизации маршрутизации, достигая значительного улучшения производительности.
  • Facebook’s Edge Fabric: Аналогичная система для управления трафиком на границе сети.

Мы делаем эти технологии доступными для более широкого круга задач, интегрируя их в открытый стек CloudBridge.

Обзор литературы

Отдельно можно отметить работу 2024 года по DRL-GCNN для адаптивной маршрутизации, где deep graph CNN встроен в DRL-фреймворк для выбора маршрутов. Авторы показывают, что их DRL-GCNN увеличивает пропускную способность и снижает delay относительно OSPF и DRL-MLP, причём на реальных топологиях (NSFNET и др.). A Deep Reinforcement Learning Approach for Adaptive

В смежных доменах (MEC, оптические сети, FANET):

  • ML-driven latency optimization для mobile edge computing (2025) показывает 34–42% снижение end-to-end задержки и ~30% ускорение выполнения задач по сравнению с классическим baseline. ML-driven latency optimization for mobile edge computing
  • DRL-основанный latency-aware routing и spectrum assignment в оптических сетях демонстрирует существенное снижение задержки относительно эвристик. Experimental evaluation of a latency-aware routing
  • Q-Learning-алгоритмы для летающих ad-hoc сетей (FANET) дают выигрыш по задержке и устойчивости маршрутов. QEHLR: A Q-Learning Empowered Highly Dynamic

Эти результаты задают реалистичный ориентир: в опубликованных экспериментах AI-/ML-подходы к маршрутизации и размещению трафика дают от единиц до десятков процентов выигрыша по задержке и пропускной способности по сравнению с классическими алгоритмами (OSPF/BGP/эвристики), особенно в динамичных сценариях (MEC, SDN, оптические сети).

BGP: конфигурация, конвергенция и аномалии

Для BGP есть два важных направления:

1. ML для конфигурации и ускорения конвергенции

В обзоре Graph-based Deep Learning for Communication Networks описан DeepBGP как GNN-подход к синтезу BGP-конфигураций под операторские ограничения. Graph-based Deep Learning for Communication Networks

Отдельно существует докторская работа «DeepBGP: a machine learning solution to reduce BGP routing convergence time by fine-tuning MRAI» (Silva, 2019), где LSTM-модель адаптирует таймеры MRAI и сокращает время конвергенции по сравнению со статическими настройками. DeepBGP: A Machine Learning Solution to reduce BGP

2. ML/Deep Learning для детекции аномалий и утечек маршрутов

В 2024–2025 активно развиваются модели для семантически-осознанной детекции аномалий: BEAM, graph-based представления BGP-топологии, MS-LSTM, автоэнкодеры и др. Towards a Semantics-Aware Routing Anomaly Detection

С практической точки зрения это подтверждает: BGP-слой тоже постепенно становится объектом ML-оптимизации — как по части конвергенции, так и по части безопасности.

Мы в AI Routing Lab не пытаемся «переписать BGP», но используем эти идеи: предсказание деградации и аномалий по временным рядам + топологии и мягкая интеграция результатов в overlay-маршрутизацию CloudBridge.

Лёгкие модели (Random Forest, MLP) для предсказания задержки

Несмотря на хайп вокруг GNN и Transformers, в 2025 году выходят работы, где подчёркивается ценность лёгких моделей для edge/real-time сценариев.

Например, на CNSM 2025 показано, что lightweight MLP даёт хороший баланс точности и вычислительной эффективности при предсказании RTT в 5G-сетях и подходит для развертывания на краю сети. A Lightweight Deep Learning Approach for Latency

Наш выбор Random Forest + engineered features на старте проекта объясняется ровно этим:

  • Небольшое количество данных (недели измерений, а не годы)
  • Важна инференция < миллисекунды
  • Нужна интерпретируемость (feature importance, проверка, что модель не «сошла с ума»)

По мере накопления данных и усложнения топологий мы планируем добавлять GNN- и, возможно, Transformer-варианты (в экспериментальной ветке), но основной прод-контур остаётся на лёгких моделях.

Тренд на AI-ускоренное железо

Запрос на ML-маршрутизацию виден и по развитию железа. В октябре 2025 Cisco представила Silicon One P200 — 51.2 Tbps deep-buffer routing-чип, и фиксированный роутер Cisco 8223, ориентированный именно на распределённые AI-нагрузки и междатацентровую связность. Cisco Silicon One P200 Deep Buffer Router Chip

Наша задача в AI Routing Lab — сделать так, чтобы софт (AI-маршрутизация на уровне CloudBridge overlay) умел осмысленно пользоваться этими возможностями, а не просто «проливать трафик» по умолчанию.


Итог

Мы показали, как машинное обучение может улучшить выбор сетевых маршрутов. Модели Random Forest предсказывают RTT и jitter с точностью >92%, что позволяет проактивно переключаться на оптимальные пути.

Все результаты воспроизводимы — мы предоставляем код, данные и методологию. Это живой исследовательский проект, который мы развиваем вместе с сообществом.

Попробуйте, воспроизведите наши результаты, поделитесь своими. Вместе мы делаем сети умнее.


Ключевые слова

Machine Learning, Network Routing, AI Routing, QUIC, Random Forest, Time Series Prediction, Network Optimization, Latency Prediction, Jitter Prediction, CloudBridge Research, Open Source, Python, scikit-learn, Prometheus