No Data No Growth | Pavel Bukhtik

Написать один и тот же запрос на SQL можно различными способами. Но часто важно чтобы этот запрос был написан еще и оптимально.

Как вы считаете, какой из этих запросов выполнится быстрее всего? Есть ли какие-то нюансы, связанные c используемым СУБД? А с наполнением таблиц? А может эти запросы и вовсе не вернут один и тот же результат? И может можно написать запрос еще оптимальнее? Поделитесь своими мыслями в комментариях.

#задачи

🤔8❤2👍1🔥1

1.39K viewsПавел Бухтик, 08:43

No Data No Growth | Pavel Bukhtik

Помогают ли онлайн-курсы устроиться на первую работу?

Прохождение онлайн-курсов по интересующей специальности будет недостаточным для трудоустройства. Курсы не помогут тем, что будут указаны как единственный «опыт работы» в резюме.

Я собеседовал 200+ аналитиков и инженеров данных. Отсмотрел 1000+ резюме. Фигурирование курсов в резюме для меня показывает то, что человек мотивирован совершенствовать знания и навыки. Но это только один пункт, по которому я и HR’ы оцениваем кандидата.

Когда я искал первое место работы, у меня тоже имелась пачка сертификатов о пройденных специализациях на Coursera, которыми я гордился. Но у меня было расплывчатое понимание специальности и слабоватые навыки. И тем более я не подходил сразу по всем пунктам из вакансий. А также у меня не было знакомых, которые направили бы меня и оценили мои знания.

Дилемма первой работы заключается во фразе: «Нужен опыт, чтобы трудоустроиться, но нужно трудоустройство, чтобы получить опыт».

Что помогло найти работу мне? Целеустремлённое превращение знаний из курсов в опыт. Брал этот опыт везде, где только мог до него дотянуться. Например, участвовал в соревнованиях, хакатонах, брал релевантные задания в университете, фрилансил и вписывался в проекты с друзьями. На pet-project’ы даже не оставалось времени.

На удивление, мне удалось выделиться среди остальных кандидатов за счёт победы на хакатоне (в кейсе Huawei на SignalNeuroHack в 2019 году). И наличия списка соревнований, в которых я участвовал. На эти заслуги обратил внимание основатель компании, в которую я впоследствии и трудоустроился.

Шансы трудоустройства увеличит то, что человек не бездумно «прокликает» задания, сделав по предлагаемому шаблону, а вникнет в то, чему его стараются научить. Важно самостоятельно и с нуля воспроизвести предлагаемые шаблоны, дополнительно изучить, как и для чего это применяется и так далее. После этого – применить знания на прикладных задачах. Этот опыт с большей вероятностью и поможет найти заветную первую работу.

А помогли ли вам онлайн-курсы? Что стало для вас решающим фактором, благодаря которому вы устроились на первую работу?

#карьерныйрост

🔥13👍3❤2

1.48K viewsПавел Бухтик, edited 08:25

No Data No Growth | Pavel Bukhtik

Держитесь подальше от Excel

Или топ-3 темы, на которые начинающему аналитику не стоит тратить время. Часть 2.

Как говорил мой лектор по информатике: “Excel — это очень мощный и гибкий инструмент”.

На нем действительно возможно делать поразительно впечатляющие вещи и решать разносторонние задачи.

Я не говорю, что он не нужен. Компании активно используют его в работе, даже если не указывают его в вакансии.

Хотя на практике чаще всего используется Google Sheets.

Но если компания в вакансии аналитика указывает Excel — это должно стать тревожным звоночком для вас.

Почему?

Обильное наличие Excel’а в работе свидетельствует о слабо развитой аналитической инфраструктуре и культуре тоже.

Работа над задачами в такой компании и с их стеком будет сильно вредить росту, в отличие от работы в другой компании с более привлекательным стеком.

Попасть в хорошую компанию, с хорошей организационной структурой, стеком, задачами и коллективом – это 80% успеха для начинающего аналитика.

#продуктоваяаналитика

👍27❤3🙈1

1.82K viewsПавел Бухтик, 08:20

No Data No Growth | Pavel Bukhtik

Что случилось с метрикой?

На скриншоте представлена метрика музыкального стримингового сервиса. Пусть этим сервисом будет Яндекс Музыка. Метрика показывает количество прослушиваний в динамике по дням.

Как считаете, что с ней могло произойти?

P. S. эта задача взята из тестового задания компании. Сохранены оригинальные формулировки.

Подобные задачи на канале помечаются хештегом: #задачиссобеседований

Разбор задачи

🔥11❤2👍1🤔1

2.06K viewsПавел Бухтик, edited 08:13

No Data No Growth | Pavel Bukhtik

Правильный ответ к задаче «Что случилось с метрикой?»

Если еще не пробовали решить задачу, рекомендую это сделать до прочтения поста.

От кандидата ожидается не то, что он угадает с первой попытки что произошло с метрикой на самом деле. Ожидается, что кандидат набросает исчерпывающее количество конкретных гипотез, которые впоследствии будут проверены на практике.

Из моего опыта, падение метрик часто происходит по причинам:

📍 Поломки логирования на клиенте или в доставке логов на бекенде

📍 Возникновения бага в некотором разрезе (типе устройства, стране, локализации, источнике трафика) в результате выкладки новой версии продукта;

📍 Внешнего фактора или сезонности.

От этих причин можно отталкиваться для генерации более конкретных гипотез.

В случае с задачей, могла бы оказаться правдивой гипотеза о том, что на рынок РФ вышел Spotify, и пользователя Яндекс Музыки побежали пробовать триал.

Но источники сообщают, что случилась банальная потеря данных (сломалось логирование). Так что никаких интриг и заговоров, лишь человеческий фактор.

А звездочка за количество гипотез достается @maxlukyanenko 🎉

#задачиссобеседований

🔥11👍7😁4

2.03K viewsПавел Бухтик, 08:21

No Data No Growth | Pavel Bukhtik

Не уделяйте много времени инструментам визуализации…

…если только не хотите быть BI-аналитиком.

Или топ-3 темы, на которые начинающему аналитику не нужно тратить время. Часть 3.

На рынке множество инструментов визуализации – Redash, Metabase, Superset, Tableau, PowerBI. Каждый инструмент с особенностями в работе.

Фундаментально – они похожи, и не требуют много времени на изучение, если вы уже знакомы хотя бы с одним.

Если взглянуть на вакансии, используемые решения настолько разнятся, что сложно выделить с каким прийдется работать.

По моему опыту, на них мало смотрят на собеседованиях. Потому начинающему аналитику не стоит изучать десятки решений. А как только вы устроитесь на работу и начнете использовать конкретный инструмент – быстро в него втянитесь.

Если и выбирать инструмент для освоения, то советую обратить внимание на Tableau / PowerBI / Qlik Sense и подобных, вместо open source решений. Они раскроют большее количество доступных в визуализациях фич.

#продуктоваяаналитика

👏9👍6🔥4

1.75K viewsПавел Бухтик, 09:45

No Data No Growth | Pavel Bukhtik

~80% начинающих аналитиков не знают порядок выполнения SQL запроса на собеседовании.

Это число я получил на основе проведения 200+ собеседований кандидатов на позицию продуктового аналитика и mock-интервью со своими менти.

Задумайтесь на минутку об одном из последних своих запросов. В каком порядке у него выполняются операторы SELECT, FROM, WHERE, GROUP BY, HAVING, ORDER BY и LIMIT?

Правильный порядок будет следующим:

1. FROM (а не SELECT) — так как сначала “машине” нужно определить из какой таблицы брать данные. Без этого, остальные операторы не имеют никакого смысла: над какими данными тогда проводить дальнейшие манипуляции?

2. WHERE — ведь зачем тянуть и выполнять вычисления над записями, которые не релевантны? Можем сразу же их отфильтровать;

3. GROUP BY – сгруппируем релевантные записи;

4. HAVING – исключим группы, которые не релевантны.

5. SELECT – и только теперь выберем поля, которые выведем на экран. Лишние, опять же, ни к чему;

6. ORDER BY – упорядочим результат для наглядности;

7. LIMIT – выведем только N первых строк, если не нужны сразу все.

Зачем знать порядок SQL запроса?

Понимание того, как и в каком порядке выполняются запросы, помогает отлаживать случаи, когда запрос выдает не то, что ожидалось. А также оптимизировать скорость их работы.

А теперь вопрос знатокам. Как в этот порядок вписываются: (a) JOIN, (b) UNION, (c) DISTINCT, (d) оконная функция, (e) агрегационная функция, (f) WITH CUBE?

👍24❤6🤔2

1.83K viewsПавел Бухтик, 08:55

No Data No Growth | Pavel Bukhtik

Если оператор SELECT выполняется после HAVING, а ORDER BY — после SELECT, почему тогда запрос на картинке выполнится корректно?

В прошлом посте я рассказал о порядке выполнения SQL запросов.

Напомню, что порядок выполнения операторов в SQL следующий: FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY → LIMIT.

Да, существуют СУБД, для которых выполнение запроса на картинке вернет ошибку (например, в старых версиях MySQL). Но есть и те, для которых эти запросы будут корректными, и для них будут возвращены адекватные результаты (например, в ClickHouse).

Как считаете, за счет чего это возможно и как это работает?

#задачи #sql

🔥8🤔4👍2

1.8K viewsПавел Бухтик, edited 07:32

No Data No Growth | Pavel Bukhtik

О чем вам было бы интереснее узнать?

Anonymous Poll

27%

Как перестать путать ошибку первого и второго рода

38%

Этапы развития а/б тестов в компаниях

29%

Что такое кластерный и некластерный индексы в СУБД и зачем они нужны

51%

Хочу еще одну задачу с собеседования и её разбор

❤1🔥1

185 voters1.7K viewsПавел Бухтик, 13:38

No Data No Growth | Pavel Bukhtik

4 этапа развития а/б экспериментов в компаниях. Введение.

Эта серия постов базируется на опыте мирового эксперта – Рона Кохави. Он 20+ лет работал в Amazon, Microsoft и Airbnb, где занимался преимущественно построением платформ для а/б экспериментов.

Разработанная им платформа в Microsoft по сей день используется для проведения 25 000+ а/б тестов в год (до 100 новых каждый день).

В своей книге «Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing» Рон выделяет 4 этапа развития а/б экспериментов:

1. Подготавливаются инструменты, и создаются необходимые условия для проведения экспериментов. Результаты по экспериментам обсчитываются вручную. Компания проводит ~1 А/Б тест в месяц (~10 в год).

2. Начинают появляться стандартизированные метрики. А/А тесты и анализ статистической мощности становятся нормой. Компания начинает использовать готовые решение для автоматизации проведения А/Б или появляются зачатки самописного решения. Тесты проводятся каждую неделю (~50 в год)

3. Имеется исчерпывающий набор и понимание метрик. Также они становятся более абстрактными: появляются метрики “лояльности”, “успеха” и другие. Завершенные А/Б тесты начинают использоваться для извлечения знаний из них. Появляются автоматические алерты на инциденты. Ведется работа над созданием общего критерия оценки экспериментов – единой составной метрики, которая учитывает в себе компромиссные взаимосвязи метрик. Эксперименты запускаются каждый день (~250 в год)

4. Обнаружение влияния одного эксперимента на некоторый другой происходит автоматически. Остановка а/б теста в случае инцидента также автоматизирована и происходит в реальном времени. Общий критерий оценки экспериментов стабилен и лишь периодически дорабатывается. На этом этапе проводится 1000+ экспериментов в год.

В следующих постах я остановлюсь и расскажу детальнее о каждом из этапов.

Кто не готов довольствоваться выжимкой из книги Рона и статей, на которую она ссылается, крайне рекомендую книгу к самостоятельному ознакомлению.

#продуктоваяаналитика #абтесты

🔥17👍3

2.13K viewsПавел Бухтик, edited 07:02

No Data No Growth | Pavel Bukhtik

Эту задачу HR’ы социальной сети задают на телефонном интервью.

Времени размышлять нет, ответ ожидается сходу.

В коробке 7 красных, 14 зеленых и 21 синий носков.

1. Какое минимальное количество носков нужно вытянуть наугад чтобы гарантированно образовалась одна пара одного цвета?

2. Какое минимально количество носков нужно вытягуть наугад чтобы в итоге гарантированно получилось три разных?

Попробуйте справиться с задачей самостоятельно перед просмотром решения.

В обеих задачах нужно отталкиваться от худшего случая.

1. Мы можем сначала вытянуть 3 разных носка. 4-ый гарантированно будет уже имеющегося цвета.

2. Аналогично, можем вытянуть 14 зеленых и 21 синий. Следующий носок – уже красный. Итого: 36.

#задачиссобеседований

👍40❤2🔥2

2.26K viewsПавел Бухтик, edited 07:30

No Data No Growth | Pavel Bukhtik

Как перестать путать ошибку I и II рода?

На вопрос “что такое ошибка I и II рода”, 80% кандидатов начинают ответ с “Я их постоянно путаю”.

Наверняка вы видели схему ошибок (рис. 1). Она не запоминающаяся. Особенно когда у схем отличается порядок True / False и Accept / Reject 🤯

Перестать путаться помогают мнемоники – способы запомнить информацию путем смены типа информации. Вместо зазубривания – запомнить ситуацию.

Популярная мнемоника для ошибок – это мем о беременном мужчине (рис. 2). Хоть мем и наглядный, он тоже не решает проблему.

В мире для этого лучшей считается мнемоника о волке (рис. 3):

Когда мальчик закричал «волк!», деревня совершила ошибки I и II рода, именно в таком порядке.

Когда мальчик закричал «волк!» – жители поверили ему, хотя волка не было. Следовательно, false positive – Type I error. После этого, жители больше не верили мальчику, даже когда волк на самом деле пришел в деревню, false negative - Type II error.

Надеюсь, она поможет вам не путаться.)

#продуктоваяаналитика

🔥37👍2

2.04K viewsПавел Бухтик, 08:14

No Data No Growth | Pavel Bukhtik

Почему А/Б эксперименты важны для бизнеса?

На днях общался с клиентом. Он владеет компанией, которая занимается разработкой мобильных игр. Всего игр 5: 2 уже закрылись, 2 в магазинах и 1 ещё создается.

Со мной поделились болью о том, что каждая третья выкладка крупных изменений в их играх драматически влияют на экономику. Речь идет о просадках в 10-15% от общей выручки. После каждого такого удара приходится восстанавливаться серией обновлений.

По этой причине закрылось уже 2 игры.

На вопрос «проводите ли вы а/б тесты?», я получил следующий ответ: «мы считаем, что они нам не нужны».

А/Б тесты – единственный надежный способ оценки эффекта и целесообразности изменений. Только с их помощью возможно зафиксировать то, сколько в среднем раз мы готовы ошибаться. Другие статистические методы таким свойством не наделены. Куда уж интуиции.

#абтесты

🔥14❤2

1.72K viewsПавел Бухтик, edited 07:12

No Data No Growth | Pavel Bukhtik

📌 В какое время вам было бы удобнее читать посты канала?

Я публикую 1 (максимум 2) поста каждый будний день. Время указано по Москве.

Anonymous Poll