No Data No Growth | Pavel Bukhtik
11.9K subscribers
603 photos
16 videos
1 file
244 links
О карьерном росте при работе с данными и развитии аналитической культуры в компаниях. РКН: №5218310250

Менторю специалистов и руководителей продуктовых компаний.

Для связи: @pbukhtik
Download Telegram
Написать один и тот же запрос на SQL можно различными способами. Но часто важно чтобы этот запрос был написан еще и оптимально.

Как вы считаете, какой из этих запросов выполнится быстрее всего? Есть ли какие-то нюансы, связанные c используемым СУБД? А с наполнением таблиц? А может эти запросы и вовсе не вернут один и тот же результат? И может можно написать запрос еще оптимальнее? Поделитесь своими мыслями в комментариях.

#задачи
🤔82👍1🔥1
Помогают ли онлайн-курсы устроиться на первую работу?

Прохождение онлайн-курсов по интересующей специальности будет недостаточным для трудоустройства. Курсы не помогут тем, что будут указаны как единственный «опыт работы» в резюме.

Я собеседовал 200+ аналитиков и инженеров данных. Отсмотрел 1000+ резюме. Фигурирование курсов в резюме для меня показывает то, что человек мотивирован совершенствовать знания и навыки. Но это только один пункт, по которому я и HR’ы оцениваем кандидата.

Когда я искал первое место работы, у меня тоже имелась пачка сертификатов о пройденных специализациях на Coursera, которыми я гордился. Но у меня было расплывчатое понимание специальности и слабоватые навыки. И тем более я не подходил сразу по всем пунктам из вакансий. А также у меня не было знакомых, которые направили бы меня и оценили мои знания.

Дилемма первой работы заключается во фразе: «Нужен опыт, чтобы трудоустроиться, но нужно трудоустройство, чтобы получить опыт».

Что помогло найти работу мне? Целеустремлённое превращение знаний из курсов в опыт. Брал этот опыт везде, где только мог до него дотянуться. Например, участвовал в соревнованиях, хакатонах, брал релевантные задания в университете, фрилансил и вписывался в проекты с друзьями. На pet-project’ы даже не оставалось времени.

На удивление, мне удалось выделиться среди остальных кандидатов за счёт победы на хакатоне (в кейсе Huawei на SignalNeuroHack в 2019 году). И наличия списка соревнований, в которых я участвовал. На эти заслуги обратил внимание основатель компании, в которую я впоследствии и трудоустроился.

Шансы трудоустройства увеличит то, что человек не бездумно «прокликает» задания, сделав по предлагаемому шаблону, а вникнет в то, чему его стараются научить. Важно самостоятельно и с нуля воспроизвести предлагаемые шаблоны, дополнительно изучить, как и для чего это применяется и так далее. После этого – применить знания на прикладных задачах. Этот опыт с большей вероятностью и поможет найти заветную первую работу.

А помогли ли вам онлайн-курсы? Что стало для вас решающим фактором, благодаря которому вы устроились на первую работу?

#карьерныйрост
🔥13👍32
Держитесь подальше от Excel

Или топ-3 темы, на которые начинающему аналитику не стоит тратить время. Часть 2.

Как говорил мой лектор по информатике: “Excel — это очень мощный и гибкий инструмент”.

На нем действительно возможно делать поразительно впечатляющие вещи и решать разносторонние задачи.

Я не говорю, что он не нужен. Компании активно используют его в работе, даже если не указывают его в вакансии.

Хотя на практике чаще всего используется Google Sheets.

Но если компания в вакансии аналитика указывает Excel — это должно стать тревожным звоночком для вас.

Почему?

Обильное наличие Excel’а в работе свидетельствует о слабо развитой аналитической инфраструктуре и культуре тоже.

Работа над задачами в такой компании и с их стеком будет сильно вредить росту, в отличие от работы в другой компании с более привлекательным стеком.

Попасть в хорошую компанию, с хорошей организационной структурой, стеком, задачами и коллективом – это 80% успеха для начинающего аналитика.

#продуктоваяаналитика
👍273🙈1
Что случилось с метрикой?

На скриншоте представлена метрика музыкального стримингового сервиса. Пусть этим сервисом будет Яндекс Музыка. Метрика показывает количество прослушиваний в динамике по дням.

Как считаете, что с ней могло произойти?

P. S. эта задача взята из тестового задания компании. Сохранены оригинальные формулировки.

Подобные задачи на канале помечаются хештегом: #задачиссобеседований

Разбор задачи
🔥112👍1🤔1
Правильный ответ к задаче «Что случилось с метрикой?»

Если еще не пробовали решить задачу, рекомендую это сделать до прочтения поста.

От кандидата ожидается не то, что он угадает с первой попытки что произошло с метрикой на самом деле. Ожидается, что кандидат набросает исчерпывающее количество конкретных гипотез, которые впоследствии будут проверены на практике.

Из моего опыта, падение метрик часто происходит по причинам:

📍 Поломки логирования на клиенте или в доставке логов на бекенде

📍 Возникновения бага в некотором разрезе (типе устройства, стране, локализации, источнике трафика) в результате выкладки новой версии продукта;

📍 Внешнего фактора или сезонности.

От этих причин можно отталкиваться для генерации более конкретных гипотез.

В случае с задачей, могла бы оказаться правдивой гипотеза о том, что на рынок РФ вышел Spotify, и пользователя Яндекс Музыки побежали пробовать триал.

Но источники сообщают, что случилась банальная потеря данных (сломалось логирование). Так что никаких интриг и заговоров, лишь человеческий фактор.

А звездочка за количество гипотез достается @maxlukyanenko 🎉

#задачиссобеседований
🔥11👍7😁4
Не уделяйте много времени инструментам визуализации…

…если только не хотите быть BI-аналитиком.

Или топ-3 темы, на которые начинающему аналитику не нужно тратить время. Часть 3.

На рынке множество инструментов визуализации – Redash, Metabase, Superset, Tableau, PowerBI. Каждый инструмент с особенностями в работе.

Фундаментально – они похожи, и не требуют много времени на изучение, если вы уже знакомы хотя бы с одним.

Если взглянуть на вакансии, используемые решения настолько разнятся, что сложно выделить с каким прийдется работать.

По моему опыту, на них мало смотрят на собеседованиях. Потому начинающему аналитику не стоит изучать десятки решений. А как только вы устроитесь на работу и начнете использовать конкретный инструмент – быстро в него втянитесь.

Если и выбирать инструмент для освоения, то советую обратить внимание на Tableau / PowerBI / Qlik Sense и подобных, вместо open source решений. Они раскроют большее количество доступных в визуализациях фич.

#продуктоваяаналитика
👏9👍6🔥4
~80% начинающих аналитиков не знают порядок выполнения SQL запроса на собеседовании.

Это число я получил на основе проведения 200+ собеседований кандидатов на позицию продуктового аналитика и mock-интервью со своими менти.

Задумайтесь на минутку об одном из последних своих запросов. В каком порядке у него выполняются операторы SELECT, FROM, WHERE, GROUP BY, HAVING, ORDER BY и LIMIT?

Правильный порядок будет следующим:

1. FROM (а не SELECT) — так как сначала “машине” нужно определить из какой таблицы брать данные. Без этого, остальные операторы не имеют никакого смысла: над какими данными тогда проводить дальнейшие манипуляции?

2. WHERE — ведь зачем тянуть и выполнять вычисления над записями, которые не релевантны? Можем сразу же их отфильтровать;

3. GROUP BY – сгруппируем релевантные записи;

4. HAVING – исключим группы, которые не релевантны.

5. SELECT – и только теперь выберем поля, которые выведем на экран. Лишние, опять же, ни к чему;

6. ORDER BY – упорядочим результат для наглядности;

7. LIMIT – выведем только N первых строк, если не нужны сразу все.

Зачем знать порядок SQL запроса?

Понимание того, как и в каком порядке выполняются запросы, помогает отлаживать случаи, когда запрос выдает не то, что ожидалось. А также оптимизировать скорость их работы.

А теперь вопрос знатокам. Как в этот порядок вписываются: (a) JOIN, (b) UNION, (c) DISTINCT, (d) оконная функция, (e) агрегационная функция, (f) WITH CUBE?
👍246🤔2
Если оператор SELECT выполняется после HAVING, а ORDER BY — после SELECT, почему тогда запрос на картинке выполнится корректно?

В прошлом посте я рассказал о порядке выполнения SQL запросов.

Напомню, что порядок выполнения операторов в SQL следующий: FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY → LIMIT.

Да, существуют СУБД, для которых выполнение запроса на картинке вернет ошибку (например, в старых версиях MySQL). Но есть и те, для которых эти запросы будут корректными, и для них будут возвращены адекватные результаты (например, в ClickHouse).

Как считаете, за счет чего это возможно и как это работает?

#задачи #sql
🔥8🤔4👍2
4 этапа развития а/б экспериментов в компаниях. Введение.

Эта серия постов базируется на опыте мирового эксперта – Рона Кохави. Он 20+ лет работал в Amazon, Microsoft и Airbnb, где занимался преимущественно построением платформ для а/б экспериментов.

Разработанная им платформа в Microsoft по сей день используется для проведения 25 000+ а/б тестов в год (до 100 новых каждый день).

В своей книге «Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing» Рон выделяет 4 этапа развития а/б экспериментов:

1. Подготавливаются инструменты, и создаются необходимые условия для проведения экспериментов. Результаты по экспериментам обсчитываются вручную. Компания проводит ~1 А/Б тест в месяц (~10 в год).

2. Начинают появляться стандартизированные метрики. А/А тесты и анализ статистической мощности становятся нормой. Компания начинает использовать готовые решение для автоматизации проведения А/Б или появляются зачатки самописного решения. Тесты проводятся каждую неделю (~50 в год)

3. Имеется исчерпывающий набор и понимание метрик. Также они становятся более абстрактными: появляются метрики “лояльности”, “успеха” и другие. Завершенные А/Б тесты начинают использоваться для извлечения знаний из них. Появляются автоматические алерты на инциденты. Ведется работа над созданием общего критерия оценки экспериментов – единой составной метрики, которая учитывает в себе компромиссные взаимосвязи метрик. Эксперименты запускаются каждый день (~250 в год)

4. Обнаружение влияния одного эксперимента на некоторый другой происходит автоматически. Остановка а/б теста в случае инцидента также автоматизирована и происходит в реальном времени. Общий критерий оценки экспериментов стабилен и лишь периодически дорабатывается. На этом этапе проводится 1000+ экспериментов в год.

В следующих постах я остановлюсь и расскажу детальнее о каждом из этапов.

Кто не готов довольствоваться выжимкой из книги Рона и статей, на которую она ссылается, крайне рекомендую книгу к самостоятельному ознакомлению.

#продуктоваяаналитика #абтесты
🔥17👍3
Эту задачу HR’ы социальной сети задают на телефонном интервью.

Времени размышлять нет, ответ ожидается сходу.

В коробке 7 красных, 14 зеленых и 21 синий носков.

1. Какое минимальное количество носков нужно вытянуть наугад чтобы гарантированно образовалась одна пара одного цвета?

2. Какое минимально количество носков нужно вытягуть наугад чтобы в итоге гарантированно получилось три разных?

Попробуйте справиться с задачей самостоятельно перед просмотром решения.

В обеих задачах нужно отталкиваться от худшего случая.

1. Мы можем сначала вытянуть 3 разных носка. 4-ый гарантированно будет уже имеющегося цвета.

2. Аналогично, можем вытянуть 14 зеленых и 21 синий. Следующий носок – уже красный. Итого: 36.


#задачиссобеседований
👍402🔥2
Как перестать путать ошибку I и II рода?

На вопрос “что такое ошибка I и II рода”, 80% кандидатов начинают ответ с “Я их постоянно путаю”.

Наверняка вы видели схему ошибок (рис. 1). Она не запоминающаяся. Особенно когда у схем отличается порядок True / False и Accept / Reject 🤯

Перестать путаться помогают мнемоники – способы запомнить информацию путем смены типа информации. Вместо зазубривания – запомнить ситуацию.

Популярная мнемоника для ошибок – это мем о беременном мужчине (рис. 2). Хоть мем и наглядный, он тоже не решает проблему.

В мире для этого лучшей считается мнемоника о волке (рис. 3):

Когда мальчик закричал «волк!», деревня совершила ошибки I и II рода, именно в таком порядке.

Когда мальчик закричал «волк!» – жители поверили ему, хотя волка не было. Следовательно, false positive – Type I error. После этого, жители больше не верили мальчику, даже когда волк на самом деле пришел в деревню, false negative - Type II error.


Надеюсь, она поможет вам не путаться.)

#продуктоваяаналитика
🔥37👍2
Почему А/Б эксперименты важны для бизнеса?

На днях общался с клиентом. Он владеет компанией, которая занимается разработкой мобильных игр. Всего игр 5: 2 уже закрылись, 2 в магазинах и 1 ещё создается.

Со мной поделились болью о том, что каждая третья выкладка крупных изменений в их играх драматически влияют на экономику. Речь идет о просадках в 10-15% от общей выручки. После каждого такого удара приходится восстанавливаться серией обновлений.

По этой причине закрылось уже 2 игры.

На вопрос «проводите ли вы а/б тесты?», я получил следующий ответ: «мы считаем, что они нам не нужны».

А/Б тесты – единственный надежный способ оценки эффекта и целесообразности изменений. Только с их помощью возможно зафиксировать то, сколько в среднем раз мы готовы ошибаться. Другие статистические методы таким свойством не наделены. Куда уж интуиции.

#абтесты
🔥142
📌 В какое время вам было бы удобнее читать посты канала?

Я публикую 1 (максимум 2) поста каждый будний день. Время указано по Москве.
Anonymous Poll
13%
8-12
9%
12-16
15%
16-20
19%
20-24
53%
В любое
2%
Напишу свой вариант
🔥1
Первый этап развития А/Б тестов в компаниях по опыту Рона Кохави.

Кто такой Рон Кохави я уже рассказал в ознакомительном посте. Если еще не читали – вот он.

Первый этап развития называется Crawl, что с английского означает – ползать.

На этом этапе продуктовые команды подготавливают инструменты и создают необходимые условия к проведению экспериментов.

Для этого создается система логирования, позволяющая анализировать поведение пользователей: клики, показы экранов, свайпы.

На основе созданной системы логирования, проводятся первые эксперименты. В среднем это ~1 А/Б тест в месяц (~10 в год). Результаты по ним подводятся вручную.

А/Б тесты проводятся для тех изменений, где сразу же доступно несколько вариантов реализации, а также априори не очевидно, какой вариант лучше.

Вся работа по зарождению экспериментов инициируется и ведется отдельной командой data scientist’ов, поскольку у продуктовых команд для этого нет необходимой экспертизы.

Цель этапа: получить одобрение от бизнеса, необходимое для дальнейшего развития платформы, экспериментов и data-driven культуры в компании.

В эту пятницу я расскажу о втором этапе развития А/Б экспериментов.

Интересно и ждешь следующую часть? Поставь 🔥!

#продуктоваяаналитика #абтесты
🔥411👍1
Задание из тестового в интернет-сервис объявлений.

Перед вами шахматная доска размером NxN. В верхнем левом углу находится шашка.

Шашка может двигаться только вправо или вниз (вверх или влево двигаться не может).

Сколькими различными путями шашка может прийти в нижний правый угол?

Как всегда, через 24 часа выложу разбор задачи. А кто первым верно решит задачу в комментариях – тому звездочка.

Разбор задачи

#задачиссобеседований
👍10🔥3🤩2
Разбор задачи про шахматную доску из тестового в интернет-сервис объявлений.

Чтобы добраться до нижнего правого угла, независимо от выбранного пути, шашке нужно совершить N-1 шагов вправо и N-1 шагов вниз. Итого, 2*(N-1) шагов.

Пусть 0 и 1 – шаги вниз и вправо соответственно.

Рассмотрим ленту из 2*(N-1) ячеек, содержащие 0.

(0 0 0 0 0 0 для N=4)

Теперь задача сводится к количеству вариантов замены 0 для N-1 ячеек на 1.

(0 0 1 0 0 1 1 для N=4 )

Т. е., условно, есть 2*(N-1) ячеек, сколько есть вариантов выбрать N-1 из них?

Получаем через количество сочетаний – C(2*(N-1), N-1).

Если N было бы задано в виде конкретного числа, то задачу можно было бы также решить с помощью
треугольника паскаля. Центральное значение из нижней строки треугольника с глубиной 2*(N-1) и было бы искомым значением.

Быстрее всех ответ на задачу дал @art290790. Спасибо @maxlukyanenko за самое развернутое решение. @AlexeyMalafeev – отдельное спасибо за альтернативное решение. Молодцы 🔥

Остались вопросы или что-то непонятно? Спрашивайте в комментариях или л. с.)

#задачиссобеседований
🔥15👏2👍1😁1
Второй этап развития А/Б тестов в компаниях по опыту Рона Кохави.

Он называется Walk, что с английского означает – ходить.

Инструменты настроены, одобрение бизнеса получено. Фокус смещается к определению метрик и экспериментальной платформе.

Начинают определяться стандартизированные продуктовые метрики: кроме примитивных кликов и просмотров появляются, например, среднее количество кликов на пользователя или среднее время сессии.

Также выделяются четыре типа метрик:

📍 метрики успеха – над улучшением которых работает продукт;

📍 оградительные метрики – ограничения, которые нежелательно нарушать;

📍 метрики качества данных — гарантируют, что эксперименты будут проведены корректно;

📍 метрики отладки – помогают глубже детализировать метрики успеха и оградительные метрики.

Поскольку тесты проводятся теперь каждую неделю (~50 в год), появляется потребность в платформе для экспериментов. Для этого компании либо начинают использовать готовые инструменты (Optimizely, Mixpanel, Oracle Maxymiser), либо работают над созданием собственного решения.

Независимо от выбранного пути, у платформы на этом этапе должны быть реализованы расчет размера выборки и А/А тестирование. Взаимное влияние между экспериментами отслеживается вручную.

Ответственность в планировании экспериментов переходит на продуктового менеджера. Проведение, мониторинг и анализ экспериментов остается на Data Scientist’ах.

Цель этапа: масштабирование количества экспериментов за счет платформы.

Во вторник я расскажу о третьем этапе развития А/Б тестов.

А у меня на этой неделе на этом все. Хороших всем выходных! До встречи в понедельник.)

#продуктоваяаналитика #абтесты
👍14🔥72
Почему работодателю выгодно предоставлять плюшки сотрудникам?

В описаниях IT-вакансий всегда упоминаются плюшки компании. Компенсации английского, спорта, питания, психолога, страховки, наличие настольного футбола или тенниса, печенья на кухне.

Тони Шварц в книге «То, как мы работаем, - не работает» объясняет, зачем нужны плюшки в корпоративной культуре.

Если коротко: работодатель выигрывает от того, что заботится о восстановлении энергии сотрудников. Считается, что сотрудники работают эффективнее, если есть политика отдыха, провизия для приготовления здоровых перекусов, гибкий график...

На своем опыте могу сказать, что приятно, когда корпоративный спорт вшит в распорядок работы. Уже 2 года я занимаюсь йогой перед работой в 8 утра прямо в офисе. В такие дни я чувствую себя куда более энергичным и что не мало важно – продуктивным, ведь еще до работы удается взбордриться телом и духом.

А какая у вас любимая плюшка? Видите ли вы связь между классными плюшками в компании и эффективностью?
👍19🔥12