Тезисы
YTsaurus — платформа для хранения и обработки больших данных Яндекса, adhoc аналитики, построения ETL задач и регулярных батч процессов. Первый кластер YTsaurus состоял из 200 хостов. Сегодня это гетерогенные кластера, доходящие в размере до 20К+ хостов и обрабатыващие данные самых разных сервисов — от поиска до погоды, и от такси до яндекс.облака.
Мастер-сервер YTsaurus является сердцем кластера и выполняет целый ряд ключевых функций: обслуживание дерева метаинформации, авторизация, генерация таймстемпов, управление репликацией чанков. В докладе я расскажу про архитектурные решения, которые позволили мастеру не стать узким местом, несмотря на рост кластеров.
Аудитория
Backend-developer, system-administrator, devops-engineer, team-lead, data-scientist, engineers.
Уровень сложности
Middle.
Работает в Яндексе 15 лет, в проекте YTsaurus с момента его начала (2010 год).
Занимался разными частями системы: логикой Map-Reduce операций, форматами хранения данных, механикой запуска пользовательского кода в контейнерах. В последние годы много занимается вопросами эксплуатации, руководит командой Ops — автоматизацией регламентных работ, управлением кластерами, планированием нагрузки.Несколько лет вёл в ШАД курс по распределённым системам.
Пишет на С++, Python и Go.