Какие вопросы задают на собеседовании в Билайн (ml, junior)?

Question

Маяк · Accepted Answer

1. Есть задача предсказания дефолта: датасет на 2 миллиона строк за несколько лет и около 5000 признаков. Как построить конвейер разработки модели, чтобы правильно отобрать лучшие фичи и прийти к этапу тюнинга модели?
2. Допустим, описанными методами удалось сократить список признаков с 5000 до 3000 — но 3000 всё ещё много. Как сокращать дальше до приемлемого числа?
3. А как вообще происходит выбор модели?
4. Модель оптимизирована, переходим к валидации: как проанализировать, что модель со временем не «плывёт», не деградирует, нет дрифта? Видим, что средний скор на важной подгруппе клиентов растёт/падает — что нужно сделать, чтобы это исправить, и на что обратить внимание?
5. Представим, что мы выкинули деградирующие фичи, но дрифт всё равно остался. Каким способом можно выявить причину и избежать этого?
6. Смотрим медиану — там то же самое; PSI тоже «едет» и со временем достигает пограничного значения стабильности модели. Как это можно исправить?
7. Ты говорил про Information Value — расскажи, что это такое и как считается?
8. Ты часто упоминал недообучение и переобучение модели. Как ты как специалист понимаешь, что произошло переобучение?
9. А как с помощью какого-то метода — эвристики или параметрического теста — проверить, произошло переобучение или нет (учитывая, что выборка могла быть плохой изначально)?
10. Я так понимаю, у тебя есть опыт написания объектно-ориентированного кода — расскажи, чем пользовались в компании?
11. У тебя в резюме написано, что на последнем месте работы ты занимался генерацией признаков — расскажи про этот опыт.