Какие вопросы задают на собеседовании в Яндекс (ml, middle)?

Question

Маяк · Accepted Answer

1. Случайный лес и градиентный бустинг над деревьями: что они из себя представляют, чем отличаются, какие у них особенности?
2. Почему в градиентном бустинге берётся именно антиградиент функции потерь? По какой переменной дифференцируется функция потерь и как это устроено на практике?
3. Как думаешь, почему вообще придумали такую конструкцию с антиградиентом функции потерь?
4. В случайном лесе — почему усреднение большого числа решающих деревьев (бэггинг) даёт что-то хорошее? Почему ответ стремится к матожиданию?
5. В чём выгода усреднять тысячу деревьев в случайном лесе, кроме более точного попадания в матожидание?
6. Если на одной и той же выборке подбирать гиперпараметры для случайного леса и градиентного бустинга — что можно сказать про оптимальную глубину деревьев? Будет ли она одинаковой или у одного всегда больше, чем у другого?
7. Что такое p-value в стат-тестах: откуда он берётся, что означает по смыслу, и как на пальцах работают статистические тесты?
8. Кейс: Яндекс Лавка (сервис быстрой доставки продуктов) хочет на экране корзины показывать блок рекомендаций «может, тебя ещё заинтересует» (3–10 товаров). Как бы ты подошёл к этой задаче, если есть несколько месяцев: какие модели, данные, этапы?
9. Зачем вообще можно было бы сделать такие рекомендации на экране корзины? Какую цель преследуем?
10. Ты предложил несколько подходов (популярность, сопокупаемость, история покупок пользователя) — как объединить их все в одну модель, чтобы модель сама решила, что важнее?
11. Матричное разложение не учитывает реалтайм-факторы, например что на товар сегодня скидка. Как передать модели дополнительные handcrafted-фичи, не перезапуская разложение матрицы на каждую скидку?
12. Что выбрать в качестве таргета для этой рекомендательной модели?
13. Каталог большой — нельзя прогонять тяжёлую модель по всем товарам. Как организовать отбор кандидатов перед ранжированием?
14. Как будем оценивать качество рекомендаций перед внедрением и после: какие оффлайн и онлайн метрики использовать?
15. Корзина пользователя фактически совпадает с заказом. Если обучать модель предсказывать, что купит пользователь, с учётом содержимого корзины — непонятно, что предсказывать. Как построить таргет и обучение, как обойти эту проблему?
16. Проблема: модель выучит рекомендовать товары, за которыми человек и так сам бы пришёл (молоко, макароны) — рекомендовать их бессмысленно. Как решить эту проблему?
17. Как сделать так, чтобы модель рекомендовала товары, которые заинтересуют пользователя именно из рекомендаций (например, мороженое в жару, новинки, товары со скидкой), а не то, что он и так купил бы сам?
18. Как информация о показах рекомендаций (порекомендовали — купил / не купил) добавляется в обучение: как формируются таргет и лосс?