Это разве аналитика?
4.68K subscribers
977 photos
75 videos
102 files
1.48K links
Привет, я Андрей @ab0xa, bi / de / java dev

Анализ данных и визуализация, интересные ссылки, вакансии, уроки, юмор) и личный опыт

Стек технологий Python, Java, SQL, Tableau, Knime, Yandex.Облако, Yandex DataLens
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Сегодня аналитик данных — это не просто человек с Excel-отчётами, а стратегический партнер бизнес-команды, влияющий на ключевые решения. И рынок это отлично понимает!

🔍 Готовы стать востребованным специалистом? Тогда наш курс «Аналитик данных» в OTUS — ваш путь к профессии через 3 ключевых блока:

Анализ требований и понимание бизнес-запросов
Статистика без сложных теорий
BI и визуализация данных

Чему вы научитесь?
🔹 Работать с сырыми данными и строить понятные отчёты
🔹 Общаться с бизнесом и объяснять выводы
🔹 Использовать SQL и Python для анализа
🔹 Создавать и интерпретировать BI-дашборды

Курс создан практиками, отражает реальные задачи рынка. Подходит для junior-аналитиков, специалистов по отчётности, маркетологов, продакт-менеджеров и всех, кто хочет перейти от рутины к осознанной работе с данными.

Старт уже скоро! Пройдите короткое тестирование, чтобы определить свой уровень и получите спецпредложение на обучение в OTUS: https://clck.ru/3RPbJf

🔗 Не упустите шанс стать аналитиком, который влияет!

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru, erid 2VtzqvFbYmy
👍3
Forwarded from MyDB
🔥 Alibaba представила open-source интеграцию DuckDB — AP-движок для аналитических запросов прямо в MySQL

Крупнейший китайский облачный вендор Alibaba открыл исходный код глубокой интеграции аналитической СУБД DuckDB в AliSQL (форк MySQL). Это позволяет запускать аналитические запросы (OLAP) в тысячи раз быстрее, чем на InnoDB, с полным сохранением MySQL-синтаксиса.

Проект доступен полностью в open source — разработчики и компании могут использовать, модифицировать и внедрять эту технологию самостоятельно, без привязки к облачным сервисам.

🛠 Как это работает:

DuckDB встроен как плагинный storage-движок в архитектуру MySQL. Аналитические реплики синхронизируются через бинарный лог (binlog), что обеспечивает согласованность данных и отказоустойчивость. Под капотом реализованы оптимизации:
- Пакетное выполнение транзакций
- Поддержка DDL через INPLACE / INSTANT или COPY - механизмы
- Многопоточная конвертация таблиц

📊 Производительность:

На тестах TPC-H SF100 DuckDB показал впечатляющие результаты — общее время выполнения 22 запросов:
DuckDB: 15.31 сек (в 1648 раз быстрее!)
InnoDB: 25 234.31 сек

🌐 Исходный код и документация:

Решение полностью открыто и доступно в репозитории AliSQL. Сообщество может изучать, использовать и развивать эту интеграцию.

👉 Репозиторий и подробная документация

#OpenSource #AliSQL #DuckDB #MySQL #OLAP #Database #Analytics #Alibaba #GitHub
👍41🔥1
Forwarded from Бидон (BI-DONE)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8😁5💯1
Немного изучил такую модную штуку, как Starrocks - убийца кликхауса и трино в одном флаконе)

Русская справка https://docs.starrockspro.ru/docs/

Бесплатный курс на степике по самым самым азам. По сути это содержание презентации) https://stepik.org/course/267743/info

Базовая презентация из этого курса (наглядно о ключевых особенностях): https://drive.google.com/file/d/1mTPE187oK4gh17iNSbL-meBCMAQ_IFWP/view

Есть продвинутый курс:
https://stepik.org/course/StarRocks-Certified-Administrator-Preparation-Course-266678/

В целом, мне понравился этот курс. Я пошел на него в целях получить представление о возможностях starrocks в сжатые сроки и это получилось. Курс небольшой, прошел его часов за 10 суммарного времени. Содержание представляет собой перевод с китайского оригинала и иногда это сильно режет глаз (обратная связь была очень оперативно принята авторами и сделаны необходимые исправления). Охватываются основные моменты работы с starrocks - от загрузки и экспорта данных до создания таблиц и настройки ролей доступа. Есть презентации с сводной информацией по каждой теме - это плюс. Мне не хватило информации по материализованным представлениям - судя по всему это одна из фишек starrocks для построения внутренних слоев данных и etl. Также было бы удобно если бы были ссылки на документацию для каждого раздела, к тому же есть русскоязычный вариант документации, доступный тут https://docs.starrockspro.ru/docs/introduction/StarRocks_intro Цена курса для личного прохождения кусается, но со скидкой (поймал, т.к. курс только появился) терпима. В целом, курсом доволен.

Рассматривал возможность замены староксом кликхауса (а точнее многоджойновых запросов), но особо значительной разницы не увидел.

Starrocks представляет собой вариант современного модного подхода федеративных запросов к самым разным источникам данным (озеро данных), т.е. когда данных у нас настолько много, что затянуть их все в одну базу данных нецелесообразно
отличие от другого популярного движка trino заключается, что starrocks предлагает для критичных запросов перетянуть данные в свою внутреннюю колоночную базу данных.

По загрузке данных starrocks ориентирован на потоковые механизмы из внешних источников, простое выполнение insert into пусть даже и крупными батчами поддерживается, но не является рекомендуемым, т.к. деградирует внутреннюю структуру данных хранения (создается много мелких файлов, которые потом в фоне долго объединяются)

Starrocks позиционируется как универсальный комбайн с поддержкой асинхронной загрузки данных по расписанию, создания внутреннего etl с помощью материализованных представлений

В общем, как инструмент масштаба компании - интересная вещь. Как замена кликхаусу для расчета статистик - не уверен, но понаблюдать за развитием стоит.
👍51
Получил по предзаказу, планирую читать по 1 кейсу в день. Пока прям хороший перекос в гео сервисы.

Первая книжка была довольно популярной, посмотрим как эта пойдет.

В прошлом году проходил курс по system design от курсов Карпова, хочу сказать, что, судя по всему, эти две книжки точно покрывают содержание курса
7
Forwarded from Книжный куб (Alexander Polomodov)
Сайт по system design (Рубрика #Architecture)

Многие мои подписчики знают, что я планировал написать книгу ... но я не уточнял какую. Суть была в том, что я параллельно занимался работой над несколькими книгами. Ближе всего к готовности была книга по System Design (с фокусом на подготовке к интервью) - мне просто было проще всего ее собрать из своих материалов. Я работал по стартинке - сделал желаемое оглавление, собрал часть глав из своих материалов и получил большой Google Doc. Но на каникулах меня осенило, что цель-то не в книге, а в удобной компиляции моих мыслей. Поэтому я поменял подход - скормил google doc сервису Lovable для создания интерактивного сайта, а дальше инкрементально начал его дорабатывать. Я этим занимался больше месяца и получился такой вот сайт system-design.space. Конечно, нет предела совершенству и я собираюсь продолжить его наполнение, но думаю, что он уже может принести пользу тем, кто хочет прокачаться в проектировании.

Если найдете какие-то ошибки или опечатки, то пишите - я буду править их по мере своих сил. В ближайшие месяцы я планирую добавить еще рекомендованных книг, поработать над пулом задачек, чтобы тут были не только классические из других книг + сделаю побольше красивых визуализаций. На более далеком горизонте я планирую пойти в стороне не только классическо system design, но и других типов, что описаны в главе про специфику интервью.

#SystemDesign #Interview #Career #Architecture #DistributedSystems #Databases #Engineering #Software
👍6🔥4
Сегодня день рождения у Романа Бунина @revealthedata - классного профессионала, вдохновляющего наставника, создателя интересных курсов в области визуализации данных и построения дашбордов. 

С работой Романа впервые познакомился, когда изучал Табло. В его канале море всяких интересных фишек по этой программе. Потом уже сходил на курс по дашбордам на Карпов курсез (еще первую версию по табло), познакомился с фрейморками по проектированию дашбордов. Даже собеседование у него проходил) и это было очень классное собеседование похожее больше на наставничество) В общем, русской сфере bi аналитики повезло, что есть Роман)

Если вы не слышали про Романа и интересуетесь дашбордами, то вот краткий обзор его проектов, книг, курсов, видео. Рекомендую!
https://xn--r1a.website/revealthedata/987

Роман, счастья и радости, крепкого здоровья, исполнения желаний, удачи во всем и новых проектов!
🎉9👍2🔥21
📁 300+ экспертов и каналов, за которыми следят аналитики

В 2025 году мы в NEWHR завершили сбор данных для нашего ежегодного исследования рынка аналитиков. Такие исследования позволяют в динамике наблюдать за тем, как меняется профессия, задачи, зарплаты аналитиков, их амбиции, желанные и нежеланные компании для работы и многое другое.

Сейчас мы обрабатываем результаты, и уже готовы поделиться с вами первыми инсайтами. А именно — рейтингом экспертов отрасли и каналами, которые читают и смотрят наши респонденты-аналитики. Выборка респондентов в этом году — 1493 человека!

🔗 Полный список экспертов-аналитиков

Что вы найдёте на лендинге:

Рейтинги ТОП-15 экспертов и ТОП-30 Telegram-каналов, интересных аналитикам

Они разделены специализациям: отдельно для продуктовых, маркетинговых, дата-, веб- и BI-аналитиков и отдельно для системных и бизнес-аналитиков — потому что предпочтения отличаются.

Полные списки экспертов (100+), Telegram-каналов (130+), подкастов и YouTube-каналов которые аналитики находят интересными

Telegram-каналы для удобства разделены по темам: аналитика, обучение и карьера, BI/UX/Data Viz, Data Engineering и разработка, ML/DS, Product Managment, продуктовая и HR аналитика.

Отдельно мы выделили блок экспертов, которых читаем сами — именно к ним мы обратились за информационной поддержкой. Благодарим всех, кто помог собрать такую выборку 💙


Полные результаты исследования мы опубликуем весной, следите за обновлениями!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2👻1
Lakehouse для аналитиков и инженеров данных

Изучи набирающий популярность подход к построению хранилищ данных Data Lakehouse c разделенным Compute и Storage на основе Iceberg и Trino.

🌐 В программе курса:
▪️Современная архитектура аналитических систем от DWH и Data Lake до Lakehouse с разделением Compute и Storage на базе Apache Iceberg и Trino.
▪️Iceberg: управление файлами, снимками, каталогами, схемами изменений и очисткой.
▪️Практическое использование Iceberg Catalog, работа с кластером Trino (на Kubernetes), подключение данных на S3 и выполнение SQL/​Python-запросов.
▪️Работа с Iceberg+Trinо на больших масштабах: сложные запросы к датасету TPC-DS (2.8 млрд строк), интеграция с DBT, Apache Airflow, оценка производительность систем.
▪️Построение пайплайнов, инструменты для корректной поддержки, обновления и масштабирования Lakehouse-инфраструктуры на уровне предприятия.

🥸 Кто мы: R&D-центр Devhands.io, наш канал. Автор курса — Алексей Белозерский, руководитель направления Big Data Services в компании VK Tech.

🗓 Старт курса: 5 февраля, 18:00, 6 недель обучения.

Изучить программу и записаться можно здесь.

Ждем вас!

Реклама. ИП Рыбак А.А. ИНН 771407709607 Erid: 2Vtzqx9YS8B
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4
Forwarded from Reveal the Data
📘 От дашборда к системе
Вышли две следующих главы книги! 🥳

Глава 2. Типы дашбордов
В этой главе обсуждаем, что на самом деле дашборды бывают разными и стоит разделять их по типам и задачам. А ещё разбираемся почему классическая система «стратегический, аналитический, операционный» на самом деле не работает. Для каждого типа рассматриваем примеры реальных дашбордов и как они соединяются в систему.

Глава 3. Dashboard Map
В этой главе по шагам разбираем теорию как составить карту дашбордов для подразделения и подобрать необходимые типы дашбордов. В этот раз больше теория, а много примеров применения будет в следующей главе.

Ещё собрали отдельно материалы из книги на доске в miro, так как не всегда удобно смотреть скриншоты на платформе.
#книга #от_дашборд_к_системе
👍3🔥1
Залетай в AI в BI

В работе с ИИ-агентами (Cursor) есть одна проблемка: начинаешь о них рассказывать — и сначала всё идёт хорошо, а через пару минут ты уже телевизор. Вещаешь что-то в пространство, а в ответ — ни вопросов, ни комментариев. Аудитория потерялась. Ну разве что кто-нибудь начнёт теоретизировать про то, как бы придумать такой ИИ-тул, чтобы он прям всё и прям сразу решил aka «размышления про волшебный ящик».
(Каюсь, сам иногда в это скатываюсь.)

А всё почему? У агентов довольно приличный порог входа.

Во-первых, настройка агента — это по сути та же настройка рабочего окружения. С теми же самыми «да кто писал эти инструкции» и «у меня ни-че-го не работает».

Во-вторых, функционал агентов отличается от чат-ботов. Его больше, он специфичный, и в нём реально нужно ориентироваться (ну, например, режимы работы: Plan, Agent, Ask или Cursor Rules).

В-третьих, хочешь хорошо решённую задачу — правильно подготовь контекст. Не слишком мало, не слишком много.

В-четвёртых, как вообще дебажить то, что там нейронка нагенерила?

И так далее.

Пока лучшее, что я смог придумать, — это проводить человека за руку. То есть он шарит экран, и вы вместе настраиваете и решаете боевой кейс. Медленно, зато не теряешь человека на «очевидных» для тебя моментах (над которыми сам когда-то мучился).

К чему это я. В следующий четверг 05.02 19.00 [GMT+4] попробуем с @Balobanovvv провести что-то подобное: в лайв-режиме настроим ему Cursor и попробуем решить end-to-end BI-задачку (запрос → ETL → дашборд). Ну или хотя бы пройти по этому пути максимально.

Присоединяйтесь, будем учиться вместе)
2🔥2👍1
Forwarded from LEFT JOIN
СУБД made in China
Пополнение в копилку необычных СУБД — AliSQL от Alibaba Group, которая владеет известным китайским маркетплейсом. Это форк от MySQL со всевозможными улучшениями производительности и стабильности. Полный список поддерживаемых фич в официальной документации выглядит очень внушительно.

🔵На Githab отдельно подсветили то, что AliSQL использует аналитическую DuckDB в качестве подсистемы хранения и поддерживает векторный поиск. За счет этого подходит для аналитических задач и работы с ИИ.
🔵В роадмапе — оптимизация DDL, RTP и репликации.

В Alibaba Group AliSQL использовали для своих внутренних нужд, но в конце 2025 поделились исходным кодом. Так что вы можете стать контрибьютором или просто потестить, как она работает.
Please open Telegram to view this post
VIEW IN TELEGRAM
👌1🌚1
Репо со вчерашнего вебинара можно посмотреть тут!

Автоматизация через содержимое папки scripts.

https://github.com/alex-belozersky/local_lakehouse

Не забудьте поставить GitHub звездочку!
👍2🔥1
Очная программа «Дата-инженерия» от ФКН НИУ ВШЭ

Программа подготовит к профессии дата-инженера — архитектора конвейеров обработки данных и инфраструктуры работы с данными, востребованного в любой современной ИТ-компании. Обучение подойдет аналитикам, разработчикам и другим техническим специалистам, которые хотят систематизировать знания, освоить промышленные инструменты и собирать масштабируемые, отказоустойчивые системы.

Курс рассчитан на слушателей, которые уже уверенно владеют Python и SQL.

В ходе обучения вы:
🟣научитесь проектировать, собирать и оптимизировать конвейеры обработки данных (ETL)
🟣освоите хранилища данных и подходы к построению инфраструктуры работы с данными
🟣разберете обработку больших объемов данных и потоковую обработку
🟣научитесь формировать витрины данных и применять инструменты бизнес-аналитики
🟣получите базовые навыки администрирования баз данных и работы с аналитическими СУБД
🟣познакомитесь с NoSQL-системами и принципами управления данными (Data Governance)
🟣освоите применение машинного обучения на практике и работу с Apache Spark
🟣реализуете итоговый индивидуальный проект — полноценный пайплайн обработки данных для портфолио

📁Старт курса: 4 февраля, очный формат. Присоединиться можно до 11 февраля.

Узнать подробнее о программе 📍

Реклама. НИУ "ВШЭ". ИНН 7714030726. erid:2SDnjdmaL9e
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
Обновление плейлиста Lakehouse!

Выложили доклад маэстро Озерова (@cedrusdata) на Smart Data 2025.

Владимир здесь делает обзор на стейт и развитие экосистемы Iceberg. Часть материалов была здесь на канале раньше в этом перезаливе. Там же можно посмотреть и само видео от создателей и контрибьюторов Айсберга на английском с таймкодами.

Это про Variant, geo data, row lineage, row_id.

Потом Владимир идет дальше и касается уже предполагаемых фич Iceberg v4/v5.

Что есть нового:

1️⃣ Внесение вьюх в стандарт Айсберга. Сейчас вьюшка это просто хранимая строка SQL, и проблема в том, что в разных движках SQL разный. Вьюха записанная в Spark SQL не будет работать в Trino или StarRocks. Поэтому сообществу нужно изобрести промежуточный сериализованный стандарт хранения вьюхи, которая будет хранить что-то вроде плана ее выполнения.

2️⃣ Материализованные вьюшки. Тут не легче - нет способа валидировать что таблицы, от которых зависит матвью, обновились.

3️⃣ UDF. Есть гиганский документ с очень сложным пропозалом, как сделать стандартизированный вид хранимых UDF. Интересно, что в спаке-то справились с этой задачей!

4️⃣ Iceberg Wide Tables. Сейчас под айсбергом лежит одномерный массив паркетов. То есть каждый паркет содержит примерно все колонки таблицы. Но что делать, если в таблице 1000 или 10000 колонок! Такие приложения уже вполне есть, например в области фиче сторов для МЛ. Было бы неплохо уметь разбивать массив колонок таблицы на несколько логических блоков и хранить их в разных паркетах.

5️⃣❗️Транзакции! Многостейтовые и много-объектные транзакции.

6️⃣ Securable Objects или по-простому RBAC. Сейчас в стандарте Айсберга нет единого способа сделать ролевую модель, и разные движки, команды и метасторы колхозят что-то свое. Цитата: "Добавлять это в стандарт - это форма безумия. Надеюсь не сделают"

7️⃣ FGAC - Fine Grained Access Control. Маскирование, колоночные гранты и так далее. Строчные авто-фильтры - Васе можно смотреть только строки по своему региону/отделу. Идея в том, что права отправляется на движок, и движок его применяет. Или не применяет, потому что не умеет. От этого движки делятся на Trusted / Non Trusted. Ах да, снова надо придумать универсальный метод описания пермишенов.

8️⃣ Disaster Recovery на уровне логических объектов айсберга: таблиц, манифестов, снапшотов и т.д. Первое, что надо сделать - научить метадату работать по относительным путям. Здесь я вообще не понимаю, как так вышло, что я не могу перенести Айсберг таблицу в соседний бакет S3 или с S3 на папку и оно перестанет работать потому что во всей метадате прописано s3://myonebucket/

9️⃣ REST Planning. Как насчет сделать функционал в Iceberg REST каталоге для того, чтобы можно было кинуть в него запрос и получить план. Или хотя бы список паркетов которые он реально будет читать по запросу SELECT SUM(rev) FROM SALES WHERE [my-filter]. Как было бы удобно разрабатывать движки. И это почти готово!

Интересных идей, очень много, жаль, что многое находится хронически на этапе пространных обсуждений.

Из зала мой первый вопрос - что нужно сделать S3 как софту, чтобы Iceberg экосистеме было комфортно с ним общаться.
Ответ: STS, Vended Credentials.


———————————————————————-

Приглашаю ознакомиться с плейлистом по Лейкхаус на ВК, и подписаться на него. Туда я добавляю свои стримы и интересные доклады ведущих экспертов. А также на канал Архитектор Данных на ВК Видео.

———————————————————————-
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
📊 Рады представить новое исследование российского рынка ESB-решений 2025

Отчет посвящён сравнению решений для построения ESB и iPaaS в условиях растущих требований к безопасности, отказоустойчивости и работе в отечественной ИТ-инфраструктуре.

Что внутри:
➡️ Сравнение 20+ как отечественных проприетарных (1С:Интеграция КОРП, Интегра, FESB, RedMule, USEBUS AI-Code, DataReon Platform, MARS ESB, Atom.Most, Bercut ESB, Dataguru), так и open-source решений (Apache Camel, Kafka, Node-RED, n8n, Istio и др.)
➡️ Детальное сравнение платформ по критериям: от отказоустойчивости и безопасности до DevOps и Data Governance.
➡️ Практические рекомендации по выбору и внедрению ESB.
➡️ Типовые сценарии применения для госсектора, финтеха, корпоративного сегмента и SMB.

📘 Исследование основано на анализе документации и реальных кейсах внедрения решений. Полный отчёт доступен на сайте проекта «Круги Громова» – скачать бесплатно!

#кругигромова #gromovcircles
👍2🔥2
Снаряд два раза в одну воронку не падает

Интересно, что у архитектора данных вышел цикл постов о том, почему стоит ехать в облако. А тем временем в нашей вселенной идет все ускоряющийся цикл ухода от облачной инфраструктуры во внутреннюю платформу данных чисто на реализовавшихся рисках (деньги смысла считать даже нет, стоимость рисков с лихвой покрывает всё).

Про что речь? В своем докладе что на смартдате, что в остальных местах я рассказывал про блокировку аккаунта в Google BigQuery в прошлом году на время уточнения данных, и заняло это 3 недели. Что случилось 2 недели назад? Да, аккаунт опять заблокировали, опять уточнение, ну а работа - потерпите, чай не сахарные. И следом уже вчера заблокировали целый пул ip адресов европейских цодов из стран вокруг РФ - запрет на использование api своих сервисов (BQ, GCP). То есть ты находишься не в РФ, платишь не с РФ, но никого не волнует.

Итого последние 3 недели мы перевозим проекты в StarRocks днем и ночью. Но почему-то получилось, что вместо расчета их там все заехало в Spark. Причина достаточно простая - наши эксперименты с бигквери проходили на проектах малого размера, почти все модели в dbt считались на table материализации. Spark такие штуки раскладывает примерно за 10-15 секунд на витринку, нагружать же mpp бд такого рода нагрузкой кажется напрасной затеей. Ведь в чем всегда была притензия к данным в хадупе - медленное чтение, а вот витринки собираются порой быстрее вертики (да что там, кликхауз у меня тоже получалось когда-то в телекоме обогнать). В итоге пользователи, биай и сервисы читают и делают эдхоки через StarRocks, а счет идет в кластере хадупа - все по заветам современных историй лейкхаузов, правда без перекладывания данных в слой доступа.

Ну а какие выводы можно сделать за эти 2 недели? А вот такие:
* перевозить витрины можно очень быстро
* сверять результаты между системами - чудовищная по трудоемкости операция
* витрины начинают разбегаться между системами буквально на следующей недели после переноса - надо или следить, или очень быстро ехать

Даже если функции выглядят в двух системах похоже (именуются одинаково), то совсем не факт что их аргументы или возвращаемые результаты будут идентичными. И поверх накладывается проблема вскрывания ошибок во время написания витрин в исходной системе, когда мы вынуждены или переносить расчет данных и найденную ошибку, либо мы теряем возможность построчной сверки :(

Вообщем печаль, беда и разорение. Если кто знает уже готовый тулсет для сверки таблиц построчно-поколоночно на спарке - напишите в комментарии, пожалуйста. Написать свой вроде несложно, но вдруг древние уже учли все проблемы. Почему spark? Потому что можно в нем внутри сравнивать разные системы без материализации и копирования данных, а еще легко сделать select sha1(*) from...
👍31👏1
Forwarded from Делаю BI
BI стажеры и BI стажировка

Дисклеймер 1 - Мы не первый раз нанимаем стажеров, и они реально вырастают в крутых спецов
Дисклеймер 2 - Мы сейчас нанимаем стажеров BI - в том числе в мою команду. Стажировка интенсивная, задача за год вырасти intern-> junior->middle. Будем делать масштабные вещи и переворачивать BI на 360 градусов
Дисклеймер 3 - Да, у меня примерно такое чувство юмора и я не очень хорошо понимаю что такое дисклеймер

В процессе подготовки процесса специфичного BI найма для этой волны стажировок у меня возникли небольшие "философские" размышления

Кто такой идеальный стажер и как его найти? Основные критерии у меня получились вот такие:

Понимает кто такой BI разработчик и чем тот отличается от дата-аналитика.
Очень важный пункт, часто сталкивался с позицией "Биайщик это аналитик который не знает статистику" - от такого становится грустно. Как фильтровать это? Наверное только на скоринге уже спрашивать у кандидата и явно подсвечивать на входе в воронку найма

Уже работал с BI системой / делал дэши в учебных или пет проектах.
В прошлый раз когда я нанимал стажера этот пункт вызвал бурные обсуждения в некоторых профильных каналах "Почему вы требуете у стажеров опыт работы с биай системой?". Мой ответ остался тем же - это базовый навык для биайщика, человек который никогда не делал дашборды не может утверждать что он хочет этим действительно заниматься. Как проверять? Как и везде - с помощью портфолио

Знает SQL и понимает работу с табличными данными
BI разработчик в зависимости от команды и проекта от 30 до 70 процентов времени тратит на трансформацию данных в том или ином виде. Если кандидату сложно думать "таблицами" и абстрактными потоками данных, это не значит что он глупый или плохой. Просто другой склад ума. Я встречал людей, которые органически не могут понять как формируется сводная таблица в экселе, но при этом могут посмотреть на принципиальную схему платы и в уме прикинуть как она будет работать и какие токи выдавать. Проверить можно задачами на SQL, тут ничего нового

Понимает что такое хорошо и что такое плохо в визуале
Это из рубрики насмотренности и понимания восприятия визуальной информации, она развивается поэтапно. Первый этап - посмотреть на визуал и понять что он плохой. Второй этап - понимать почему он плохой. Третий - понимать почему именно эти решения не работают. Четвертый - как это исправить. Пятый этап - подбирать визуал с учетом всего бизнес и пользовательского контекста. Дальше идет дзен и отрицание визуальной кодировки данных как концепции, тут главное не проскочить (см. Дисклеймер 3) От стажера мы ожидаем хотя бы уровни 1 и 2 - осознанно различать ужасные и хорошие дэши. Проверяется это на техскоринге.

Как будто это основное и самое важное.

Если вы считаете, что вы будете крутым стажером и хотите работать в Авито - велком в наш буткемп. Стажировка оплачиваемая, задачи самые что ни на есть реальные и сложные, BI комьюнити крутое. Подробности можно посмотреть на лендинге, вопросы позадавать в комментариях
🔥2👍1
Авито ищет будущих аналитиков данных и ВІ-разработчиков

Запускаем Avito Analyst Bootcamp 2026 — годовую программу, где вы сможете вырасти от стажёра до уверенного мидла 🚀

Что такое Avito Analyst Bootcamp?

Это ваш шанс погрузиться в мир больших данных, решать реальные бизнес-задачи под руководством экспертов Авито и проходить дополнительное обучение от Академии Аналитиков Авито.

В каком направлении будете развиваться?

➡️ Продуктовая аналитика: А/В-тестирование, воронки, логирование, анализ гипотез.
➡️ ВІ-разработка: дашборды, пайплайны, метрики.

Почему стоит участвовать?

➡️ Карьерный рост по чёткому плану — с контрольными точками и прозрачными критериями.
➡️ Сильное комьюнити — общение, обмен опытом и поддержка таких же целеустремлённых ребят.
➡️ Комфортные условия — зарплата, корпоративная техника, занятость от 30 часов в неделю и возможность совмещать с учёбой.

⚡️Не упустите шанс стать частью команды Авито! Регистрация продлится до 17 февраля.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2