Какие вопросы задают на собеседовании в Яндекс (ml, middle)?

Question

Маяк · Accepted Answer

1. Случайный лес и градиентный бустинг над деревьями: что они из себя представляют, чем отличаются, какие у них особенности?
2. Почему в градиентном бустинге берётся именно антиградиент функции потерь и по какой переменной происходит дифференцирование?
3. Как думаешь, почему вообще придумали такую конструкцию с антиградиентом функции потерь в бустинге?
4. Почему в случайном лесе усреднение большого числа деревьев (бэггинг) даёт улучшение? В чём выгода усреднения тысячи деревьев?
5. Если сравнивать случайный лес и градиентный бустинг на одной выборке при подборе гиперпараметров — что можно сказать про оптимальную глубину деревьев: она будет одинаковой, разной, или у одного всегда больше?
6. Что такое p-value в статистических тестах: откуда он берётся, что означает по смыслу и как на пальцах работают стат-тесты (при проверке гипотез / A/B-тестах)?
7. Кейс: Яндекс Лавка (сервис быстрой доставки продуктов) хочет показывать на экране корзины блок рекомендаций «может тебя ещё заинтересует» (3–10 товаров). Как бы ты подошёл к этой задаче, если на неё есть несколько месяцев? Зачем такое делать и как строить решение?
8. Ты предложил несколько подходов (популярные товары, сопокупаемость, история покупок пользователя, похожесть корзин) — как объединить всё это в одну модель, чтобы модель сама решила, что важнее?
9. Матричное разложение не учтёт реалтайм-факторы (например, что на товар сегодня скидка) — ты же не будешь заново запускать разложение на каждую скидку. Как добавить в модель такие данные?
10. Что будем выбирать в качестве таргета для этой модели рекомендаций?
11. Допустим, модель разработана и даёт разумные предсказания — что будем делать дальше? Как применять её на большом каталоге (отбор кандидатов, инференс)?
12. Как будем оценивать и проверять это решение перед внедрением — какие онлайн- и оффлайн-метрики будем использовать?
13. Проблема таргета: корзина пользователя фактически совпадает с заказом — если учить модель предсказывать, что человек купит, по содержимому корзины, непонятно, в чём разница. Как построить таргет и метрики, если хотим учитывать, что у пользователя уже есть в корзине?
14. Можно ли как-то обойти проблему того, что корзина — это и есть фактический заказ (мы не знаем, что человек купил бы ещё)?
15. Проблема такого обучения: модель выучит рекомендовать товары, за которыми человек и так бы сам пришёл (молоко, макароны), хотя рекомендовать их бессмысленно. Как решить эту проблему?
16. Как сделать так, чтобы модель рекомендовала товары, о которых человек сам не думал, но которые могут его заинтересовать (мороженое в жару, новинки, товары со скидкой), а не просто то, что он и так купит?