[4/4] Митап AI Dev Days от Yandex

Последний по порядку, но не по значимости, доклад с митапа, который мне понравился - доклад Руководителя службы надежности в Городских сервисах Яндекса Александра Фишера. Он был даже не совсем про программирование с ИИ - скорее про применение ИИ в разгребании последствий программирования с помощью ИИ.

Когда в алертницу падает сообщение об упавшем проде, инженеры подрываются и бегут его чинить. Основная проблема здесь всегда - найти root cause (корневую причину). Особенно сложно это, если у тебя на поддержке микросервисная система, в которой десятки или сотни связанных между собой сервисов и ты не знаешь, кто именно из них изволил отказать. Хорошо если сейчас разгар рабочего дня, и можно поднять на уши разработчиков всех сервисов в цепочке (которую ещё нужно восстановить). А если сейчас 3 утра воскресенья?

Вот здесь Яндекс и нашёл прекрасную точку приложения ИИ. Специально обученный "робот" читает алерт и идёт самообразовываться в логи, трассировку, метрики, репозиторий. Конечно же, всё это должно уже быть, и ко всему этому у SRE-сервиса должен быть доступ хотя бы на чтение. Дальше на основе анализа машина выдаёт свои предположения о root cause - что это такое и как это починить. После чего дежурный инженер делает фикс и катит его на прод. В результате такого подхода команда Александра стремится прийти к тому чтобы ИИ разбирал инцидент за 5 минут (при средней продолжительности этого процесса у человека 30-40 минут). Тогда это будет иметь смысл.

При этом Александр упомянул в своём докладе, что в Google система не просто находит причину аварии, но ещё и делает сама PR на её исправление. И после прохождения - катит на прод. Если я правильно понял Александра, то это то, к чему стремится и его команда. При обязательном ручном контроле PR дежурным инженером (или экстренно разбуженным разработчиком) это действительно может стать прекрасным подходом к обработке инцидентов на проде.

Начать дискуссию