Какие вопросы задают на собеседовании в X5 Tech (ml, middle)?

Question

Маяк · Accepted Answer

1. Расскажи, чем ты в целом занимался в последнее время — что самое интересное, сложное или полезное ты сделал за последние год-два-три?
2. Как ты думаешь, применим ли твой опыт с задачей геолокации к рекомендательным системам?
3. Расскажи, как формулировалась задача отправки пушей как задача машинного обучения: какие были ограничения, какие метрики выбирали?
4. Что подаётся модели на вход — это просто пользователь или ещё что-то? Это модель внутри бэкенда? Вы создавали её с нуля или улучшали существующую?
5. Какие у вас были метрики и какие модели вы решили использовать?
6. Почему вы использовали логлосс, а не что-то другое?
7. Можешь рассказать, как работает этот модифицированный (query-wise) логлосс — за счёт чего происходит поправка?
8. Почему катбуст — почему это стандартное решение для задачи такого типа?
9. Почему не обучили нейронку или не воспользовались алгоритмами линейной оптимизации, которые тоже могут решать эту задачу?
10. Расскажи, как ты тюнил катбуст и как определял, что он не переобучается?
11. Назови три важных гиперпараметра, которые могут сильно влиять на качество работы катбуста (или других бустингов)?
12. Что будет, если глубины дерева не хватает, и как ты поймёшь, что её не хватает?
13. У вас очень много данных — как вы обучаете модель на таком большом количестве данных, если они не влезают в одну машину? Используется ли распределённое обучение?
14. Если данные сильно неоднородны (поведение пользователей в Москве отличается от Санкт-Петербурга) — ты бы всё ещё использовал рандомное разбиение? Стоит ли обучать отдельные модели для разных городов?
15. Задача про Spark: есть таблица данных, её нужно поджойнить с витриной по ключу. Ты запускаешь джойн, и все вычисления падают — не хватает памяти. На что смотреть в первую очередь, где искать проблему и как решать?
16. Мы знаем, что распределение данных по партициям неравномерно — одна партиция в 10–100 раз больше остальных. Как можно полечить такой перекос данных при джойне?
17. В чём разница между реплицированием и шардированием?
18. System design: у нас есть мобильное приложение, в котором мы хотим сделать рекомендательную ленту товаров — бизнес хочет нарастить товарооборот. Что бы ты спросил и как бы приступил к задаче?
19. Какие компоненты ты видишь у такого решения, если такой системы нет и её надо создать с нуля?
20. Какая база данных подходит для in-memory хранения топ-10 рекомендаций на пользователя — например, подходит ли ClickHouse, и почему Redis?
21. Как проводить A/B-эксперименты с новой версией модели — кто должен владеть экспериментом и как разделить ответственность между бэкендом и системой экспериментов?
22. Внезапно пришла промо-акция и нагрузка резко выросла — база не успевает отскейлиться, запросы пропадают или их надо ретраить. Как сделать систему устойчивее к такому всплеску нагрузки?
23. Как такая система должна масштабироваться — допустим, ты знаешь, что у тебя будет тысяча или десять тысяч RPS?
24. Как бы ты предложил перейти от ежедневного батч-расчёта рекомендаций к онлайн-прогнозированию?
25. Был ли у тебя реальный опыт, когда бустинг работал не очень, ты покрутил гиперпараметры и он заработал хорошо?