На чём валятся на собесе на аналитика — данные 2500 человек и 70000 ответов
Я разрабатываю Карьерник – тренажёр для подготовки к собесам на аналитика в формате Duolingo. За последние месяцы через него прошло 2500 пользователей, которые оставили 70.000 ответов. Все устроено просто: вопросы из реальных собесов, ты отвечаешь, видишь где ошибся, разбираешь объяснение, идёшь дальше. Подготовил для вас интересную статистику
Вот что данные показывают: у людей стабильные слепые зоны. Они уверены, что знают SQL — но валятся на датах. Думают, что Python — это легко — а comprehensions решают на 61%. Про теорвер говорят "в работе не пригодится" — и не готовятся, хотя это один из главных фильтров на собесах.
Ниже — конкретные области, где ошибаются чаще всего. Каждая из них — это то, что тренажёр подсветит тебе до собеса, а не на нём.
SQL: работа с датами (72% правильных)
Все знают SELECT и GROUP BY. Но стоит добавить даты — начинаются проблемы.
Типичная ошибка: путают DATE_TRUNC('month', created_at) с EXTRACT(MONTH FROM created_at). Первый возвращает дату, второй — число. В GROUP BY это критично — один даёт '2026-01-01', другой — просто 1.
Ещё одна ловушка — интервалы. created_at + INTERVAL '1 month' работает не так, как вы думаете, если created_at = '2026-01-31'. Попробуйте — и поймёте, почему 28% ошибаются.
На тренажёре после неправильного ответа показывается разбор с примером запроса. Следующий раз на эту тему — уже отвечаешь правильно.
Python: list comprehensions (61%)
result = [x**2 for x in range(10) if x % 2 == 0] — 90% отвечают правильно.
А вот это: result = [x*y for x in range(3) for y in range(3) if x != y] — уже 61%. Вложенные циклы в comprehensions путают порядок итерации.
На собесе просят написать dict comprehension с фильтрацией на доске — и в голове начинается каша. Потому что ты это читал, но не тренировал.
Тренажёр даёт 15-20 таких вопросов подряд. После пятого — паттерн начинает укладываться.
Теория вероятностей: дискретные распределения (53%)
"В среднем 3 бага в день. Какова вероятность, что завтра не будет ни одного бага?"
Распределение Пуассона, P(X=0) = e^(-3) ≈ 0.05.
53% ошибаются. Половина. Либо не узнают Пуассона, либо путают формулу, либо не помнят, что e^(-3) — это примерно 0.05.
На собесах в Яндекс и Тинькофф вопросы на распределения — обычное дело. "Мне в работе это не нужно" — не аргумент. Нужно на собесе, а значит нужно подготовиться.
Тренажёр гоняет по всем основным распределениям: Пуассон, биномиальное, геометрическое. Через 20 вопросов начинаешь узнавать задачу с первой строчки.
numpy: broadcasting и оси (67%)
a = np.array([[1, 2], [3, 4]])
print(a.sum(axis=0))
Правильный ответ: [4, 6]. axis=0 — сумма вниз по столбцам. 33% отвечают [3, 7] — путают направление оси.
Broadcasting ещё сложнее:
a = np.array([1, 2, 3])
b = np.array([[1], [2], [3]])
print((a + b).shape)
Ответ: (3, 3). Правила broadcasting неинтуитивные — их нужно один раз прогнать на 10 примерах, и потом уже не путаешь.
Статистика: множественное тестирование
Формулы знают. "p-value < 0.05 → отвергаем H0" — это все помнят.
Но: "У вас p-value = 0.04 для основной метрики и p-value = 0.03 для двух вспомогательных. Какие выводы?"
Три теста = inflated false positive rate. Нужна поправка Бонферрони или FDR. На квизе — когда есть варианты ответа — большинство выбирает правильно. Но на собесе вариантов нет, и нужно самому вспомнить, что проблема существует.
Поэтому квиз — это первый шаг. Он фиксирует знание: ты видишь вопрос, узнаёшь паттерн, вспоминаешь ответ. На собесе этот паттерн всплывёт.
Главный вывод из данных
Слабые места предсказуемы. Теорвер, даты в SQL, numpy, comprehensions — это не "сложные темы для продвинутых". Это базовые вещи, которые все пропускают, потому что кажется, что и так знаешь.
Карьерник работает бесплатно и действует как диагностика: проходишь 5-10 вопросов по теме, видишь реальный процент правильных, разбираешь ошибки. Лучше узнать про слепую зону за неделю до собеса, чем на нём.
А изучить теорию поглубже можно в блоге Карьерника