Кластеровыжималка. Автотюнинг параметров сложной системы на примере Spark
DS/ML/AI

Тезисы

Пусть есть система, в которой множество вариативных процессов появляются без вашего контроля и конкурируют за ограниченный ресурс. Это могут быть деплойменты в kubernetes-кластере или, как у нас — сотни и тысячи расчётов на Apache Spark в кластере Hadoop. И при высокой нагрузке мы столкнулись с недоутилизацией ресурсов.

В разных сценариях это может решаться по-разному, но наша конфигурация (и некоторые ограничения Spark) подтолкнули нас к созданию автотюнинга. Это система, которая постоянно мониторит регулярные процессы и сама правит их параметры — например, использование RAM. Мы использовали ML для обслуживания своего ML и встроили это всё в продакшн-цикл.

На основе этого опыта я покажу принцип создания такой системы, который можно применить практически ко всему, что пишет логи. Я расскажу, как простыми средствами мы сделали свою «кластеровыжималку», а также как её можно развить и применить конкретно к вашему случаю.

Аудитория

Analyst, data-scientist, ml-engineer.

Уровень сложности

Any-level.



Оцените доклад

Презентация (на Я.Диске)

Записи выступлений доступны платным участникам CodeFest
В свободном доступе появятся через пол года

Залогиниться

Uzum

Валерия Дымбицкая

8 лет разработки на Scala, делала CRM в виде телеграм-бота, пока в 2019 году не пришла в BigData и 1F, где занимается разработкой платформы машинного обучения.

8 лет разработки на Scala, делала CRM в виде телеграм-бота, пока в 2019 году не пришла в BigData и 1F, где занимается разработкой платформы машинного обучения.

Еще на тему DS/ML/AI