Какие вопросы задают на собеседовании в Сбер (data, middle)?

Question

Маяк · Accepted Answer

1. Мы подбрасываем кубик, видим количество очков и либо забираем выигрыш, либо подбрасываем второй раз (тогда выигрыш уже зафиксирован). Предложите стратегию: при выпадении какого количества очков в первый раз нужно перебрасывать кубик, чтобы максимизировать выигрыш?
2. Что такое декоратор в Python?
3. Что такое итератор в Python?
4. Чем отличается итератор от генератора в Python?
5. Какие алгоритмы классификации знаешь / использовал?
6. В чём главное отличие градиентного бустинга от случайного леса?
7. Ситуация: ты строишь модель бинарной классификации и у тебя очень много признаков (порядка 20 тысяч). Какая твоя стратегия, что будешь с этим делать?
8. Какие методы отбора признаков знаешь?
9. Какие методы борьбы с переобучением знаешь?
10. Какие виды регуляризации знаешь?
11. Чем L1-регуляризация отличается от L2-регуляризации?
12. Первая задача на лайвкодинг (формулировка в транскрипте не озвучена).
13. Вторая задача на лайвкодинг, посложнее первой (формулировка в транскрипте не озвучена).
14. Какой твой любимый инструмент для работы с табличками в Python?
15. Знаешь ли Spark (pandas vs Spark)?
16. Хотим построить рекомендательную систему: есть данные (цена, канал продажи и т.п.), нужно прогнозировать топ-20 айтемов, которые человек просмотрит/купит завтра. С каких бейзлайнов ты бы начал решать задачу?
17. Реализуй этот бейзлайн (топ популярных товаров, взять топ-20) кодом.
18. Выведи для каждого юзера его последние пять айтемов (артиклов).
19. Как сделать то же самое (последние 5 айтемов для каждого юзера) без цикла, средствами pandas?
20. Как ты бы оценивал качество рекомендательной системы? Какие метрики для рекомендательных систем знаешь (замер на отложенном дне, спрогнозировали топ-20 айтемов)?
21. Сконвертируй данные в спарс-матрицу, обучи TF-IDF и посчитай его.