Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
В продолжение прошлого поста:

Внезапная смерть Сучира Балажи, известного критика OpenAI, потрясла технический мир на фоне ожесточённых дискуссий о законах об ИИ и авторских правах. За несколько месяцев до своей смерти Балажи раскрыл серьёзные этические и правовые проблемы.

Он в частности критиковал то, как компании, такие как OpenAI, собирают огромные объёмы данных из интернета для обучения своих ИИ-моделей, ставя под сомнение законность и этичность этих практик в рамках действующего законодательства об авторских правах.


Открытые данные кончаются, надо брать закрытие. Кто не согласен погибает.

Вроде с боенгом уже разобрались, претензий ни у кого не осталось. Думаю скоро на Open AI претензии тоже иссякнут🔫
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈21🫡64🌚1💘1
Databricks is Raising $10B Series J Investment at $62B Valuation - мощно!

Today’s announcement comes on the heels of Databricks’ recent momentum which includes:

Growing over 60% year-over-year in the third quarter ended October 31, 2024
Expecting to cross $3 billion revenue run-rate and be free cash flow positive in the fourth quarter ending January 31, 2025
Continuing to achieve non-GAAP subscription gross margins above 80%
Having 500+ customers consuming at over $1 million annual revenue run-rate
Achieving $600 million revenue run rate for Databricks SQL, the company’s intelligent data warehousing product, up more than 150% year-over-year



Мне кажется сотрудники Databricks уже устали ждать IPO🏃‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11
Вот еще одна стратегия быть в +. Если Databricks реально создает Инновационный, надежный продукт, в котором есть все, что нужно для data engineering, machine learning, AI, data analytics, то Microstrategy просто скупает биткойны💪


MicroStrategy обанкротится только если астероид ударит по Земле.

За 15 лет цена биткоина никогда не опускалась ниже базовой стоимости долгосрочных держателей, которая сейчас составляет $30K.

Долг MicroStrategy составляет $7 млрд, а их запасы BTC оцениваются в $46 млрд.

Основываясь только на BTC, цена ликвидации составляет $16.5K.


Не понимаю, почему 1С не скупает биткойны, вот бы хайпанули на мировом рынке)
Please open Telegram to view this post
VIEW IN TELEGRAM
💯25❤‍🔥3🙈2
Clickhouse strong💪
Please open Telegram to view this post
VIEW IN TELEGRAM
💯50👨‍💻3🙈1
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
❤️‍🩹 Пост поддержки — Кристине Уласович из нашего маленького датавиз / дата журналистского сообщества нужна помощь.

Если у вас есть связи в системе здравоохранения Москвы — напишите ей @ave_kirsten

Совместный проект Кристины и Марии Хомутовой в прошлом году вошел в шортлист Information is Beautiful Awards, на церемонии награждения которой мы и познакомились.

Ниже привожу текст от Кристины:

«Дорогие все.

Так случилось, что в моей семье ужасное горе - мама заболела раком, IV стадия.
Не передать словами, насколько ужасный был месяц: 3 недели в реанимации, опасная для жизни операция, ТЭЛА.

Она сейчас в состоянии средней тяжести после всего пережитого — у нее пневмония, нарушены двигательные функции, кислородотерапия. Но есть положительная динамика по восстановлению.

В таком состоянии, как у нее сейчас, химию делать нельзя. А ей она нужна, потому что есть метастазы. Единственный наш шанс — это чтобы мама долечилась и прошла реабилитацию. Однако наша больница долечивать ее не очень хочет и настаивает на паллиативе, но остановиться на полпути, сдать ее в хоспис и опустить руки сердце мне не позволяет.

Я обычно стараюсь все вытянуть сама, но тут мне просто не хватает собственной мощи. Если вы знаете кого-то, кто мог бы помочь в этой ситуации - может быть, маму удастся перевести лечиться в другую больницу, в реабилитационный центр, где ей можно будет дать шанс восстановиться - или знаете, что можно ещё сделать, то напишите мне или просто поделитесь моей историей.

Скоро Новый год, и моей семье очень нужно чудо. Я уже потеряла папу в 2018 году, и я должна попытаться сделать все, чтобы не потерять еще и маму.

P. S. Если вы или ваши родители знакомы с моей мамой, то пока что ей не пишите, пожалуйста. Она не знает всю полноту диагноза, сейчас ей это не нужно — иначе страх застопорит прогресс.»
❤‍🔥18😭15🗿2🍾1
Наконец привел в порядок папочку, где были решения для домашнего задания с собеседований https://github.com/dimoobraznii1986/Assignments

Тут 3 проекты/задания

1. Для EPIC (Создатели Unreal Engine) - я расписал как я бы создавал решение для Game Analytics. (Результат: мимо)
2. Для Alpaca Markets (API для трейдинга) - набор docker с dbt, airflow, Jupyter, Postgres. (Результат: работал почти год и сам ушел)
3. Для Zappier (No-code решения для автоматизации) - end-to-end решение на Databricks. Нужно было с API по футболу забирать данные и построить Delta Lake. Там же есть их фидбек. (Результат: мимо). Попросили на задачу потратить 3 часа, я потратил 15 часов минимум.

Примерно такие проекты мне нравится делать на Surfalytics, где можно использовать какой-нибудь стек и создать end-to-end решение и обосновать выбор каждого элемента.

Кстати если интересно узнать про собеседования для DE (настоящие): https://www.youtube.com/playlist?list=PLNCDg7zJiXhM5Gshe5_Q2HAZM5vIOLpI1
Про аналитика и BI и SQL mock, которые мы проводим внутри Surfalytics: https://www.youtube.com/watch?v=qUwbpgbEymE&list=PLNCDg7zJiXhPD0ethFHC-1V1pkvWhc633
2❤‍🔥64💘2🍾1🎄1
Performance Optimization в Apache Spark это лес дремучий! Но оказывается есть супер видео, которое прям хорошо объясняет: https://youtu.be/daXEp4HmS-E?feature=shared

PS Спасибо Юре, который поделился в Surfalytics Discord.
❤‍🔥35🫡8💯5🍾3
Forwarded from Грокс
Стартап Databricks, который представляет собой аналитическую платформу на базе Apache Spark поднял $10 млрд при оценке в $62 млрд (около 25 годовых выручек), что стало крупнейшим венчурным раундом в истории. Кажется, новый пузырь созрел для того, чтобы начать о нём говорить.

https://techcrunch.com/2024/12/17/databricks-raises-10b-as-it-barrels-toward-an-ipo/
🫡257🙈3🍾1
Как выглядит busy день инженера данных в рассвете сил:
1. Опубликовал новую версию Airflow Dag, которые делает feature engineering в dbt, запускает ML модель в S3 (модель от команды).
2. Использую terraform и permifrost создал новые объекты (базы данных, пользователей, роли) и раздал всем права
3. Создал OAuth 2.0 security integration в Snowflake для для внешнего подключения
4. Ревью несколько PR и backfill Azure Data Factory pipeline
5. Несколько митингов
6. Создал интеграцию Braze и Snowflake
7. Через Fivetran подключил Gladly, Zoom, Zendesk, Wallmart
8. Задеплоили и проектировали Cloud Watch Alerts и Pager Duty интеграцию для on-call
9. Troubleshooting для Azure Databricks
10. Собеседование с VP Engineering на Staff DE - отвечал на все вопросы по книжки Staff Engineer:)
11. Обсудил с Колей из @leftjoin про консалтинг в РФ и балет Щелкунчик
12. Обсудил с Андроном из @andron_233 про популярность Apache Spark и Databricks
13. Еще будет встреча с VK сегодня, чтобы попросить бесплатных кредитов для бесплатного воркшопа по на русском;)
14. Скоро будет местный балет Щелкунчик, где моя дочь выступает
15. И перед сном нужно закончить 2ою часть CI/CD workshop

PS с одной стороны это большой список, особенно для ДЕ задач. Каждая задача в отдельности сложная. Но если я потратил несколько недель на создание качественного фреймворка, то итерации будут уже очень быстрые. Например по permifrost и terraform я потратил недели 2-3 и даже грохнул прод. По OAuth2.0 я потратил неделю, чтобы понять как это работает. Зато когда pattern установлен, становится все легко и быстро. И главное более качественно.
2👨‍💻5021🍾97🗿4❤‍🔥3👾2🤷1
Forwarded from LEFT JOIN
Media is too big
VIEW IN TELEGRAM
Дмитрий Аношин про разницу между туризмом и иммиграцией, выгорание в Amazon и work-life balance
Работа в корпорации с громким названием вроде Microsoft или Amazon для кого-то может выглядеть, как мечта — ведь это большая зарплата, стабильность, интересные проекты. Но иногда реальность разочаровывает, и перестают мотивировать что статус, что деньги.

И как быть?
В новом выпуске LEFT JOIN Partners дата-инженер Дмитрий Аношин (вы наверняка знаете его по его проектам вроде Surfanalytics и курсам на Data Learn), рассказал о переезде в Канаду, работе в Amazon и Microsoft и борьбе с выгоранием.

Обсудили не только трудности.

🔵 Как сегодня переехать в Северную Америку и найти работу в IT?
🔵 Сколько платят дата-инженерам в Amazon?
🔵 Что нужно, чтобы стать востребованным специалистом и построить карьеру в IT на западе?

🔜 YouTube
🔜 VK
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥479🍾5🎄32
Закончил 2ю половину workshop по CI/CD на примере контейнера с DuckDB и 1м SQL файлом.

Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.

Вы можете самостоятельно все проделать.

Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd

Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project

Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro


Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE

Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.
❤‍🔥492🗿2
Вчера написал пост как можно быстро пофиксить резюме. Через меня достаточно много проходит резюме и мы коллективно докручиваем резюме, чтобы оно было Ок и с ним можно было уже откликаться.

В статье я указал основные моменты, на которые обращаем внимание. И оно обязательно к прочтению для всех кто планирует искать работу на рынке с высокой конкуренцией (США, Канада, Европа, Австралия и тп), где на каждую вакансию по 500-1000 откликов и рекруты тратят по 5-10 секунд на ваш профиль.

В РФ все проще, можно иметь профайл на HH, в котором есть SQL, Python, Airflow, Clickhosue/Greenplum и несколько лет опыта.
❤‍🔥3614
Как ML помогает ритейлу

В продуктовом ритейле автоматизировано множество процессов, и даже у банки сгущенки есть свой цифровой след. О том, как торговые сети прогнозируют предпраздничный ажиотаж, оптимизируют HR-процессы и принимают решения о внедрении ИИ, в подкасте «Деньги любят техно» рассказали директор по управлению данными X5 Tech Тигран Саркисов и директор по развитию искусственного интеллекта Х5 Tech Михаил Неверов.

Ведущий эпизода, начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев, обсудил с гостями подходы к построению команд и процессов, роли дата-инженеров и дальнейшие перспективы развития сервисов с ИИ, актуальных для ритейла.

В предновогоднем выпуске также подвели итоги года в Data Science и попробовали заглянуть в будущее.

Рекомендуем посмотреть эпизод или послушать его в аудиоверсии.
2
Сервис Cleve AI сделали прикольную штуку - мы даем ей ссылку на LinkedIn, а она нам создает summary за целый год.

Мне кажется я постил в этом году больше чем нас 5 лет в сумме, но когда увидел сколько другие постят (1000-1500) постов в год, понимаю, что я еще noob.

Из 3х самых популярных постов 2 было про семью и детей.

Мне кажется сейчас все стали блогерами и генерят контент и ценность LinkedIn очень сильно размывается.

Если я задам себе вопрос, чтобы изменилось, если бы не было LinkedIn? Мне кажется ничего, работу я искал через сайты для поиска работы, нетворкинг там что есть, что нет. Но альтернативы для “профессиональной” сети нет.
💯426
Финальный отзыв в этом году. Рад, что у нас получилось дожать. Когда идут отказы или еще хуже, вы прошли все собеседования и компания замораживает позицию, то очень сложно продолжать. Поэтому нужно помнить, стакан наполовину полон, а не наполовину пуст.

Ура, я получил job offer!” - Как эта фраза много значит для меня, вы наверно сможете меня понять, прочитав мою историю.

Когда-то давно я услышал пословицу: “Под лежачий камень вода не течёт”. По-английский она звучит так: “No song, no supper”. Это про меня. Я хочу управлять своей жизнью.

Мне кажется это стало гимном моего поиска работы в качестве Sr Data Engineer в Канаде.

Немного предыстории: я по образованию врач-хирург, закончил в РФ Мед Академию и 1 год отработал в больнице. Параллельно у меня всегда была тяга к IT технологиям, после появления у меня ПК в 1997 году, мой пытливый ум никогда не оставлял его.

После работы врачом я ушел на 8 лет в фармацевтический бизнес и вот тогда понял, что нужно что-то менять, мигрировать в другую страну. Я решил самостоятельно перейти в IT сектор.

Шел 2018 год. За полгода-год самостоятельного обучения фронтенду я смог устроиться на свою первую работу Frontend инженером. С этой работой в 2022 я переехал в Ванкувер, Канаду. Устроился в местную ванкуверскую компанию FE инженером. Сразу быстро стал понимать, что этого уровня недостаточно, для комфортного существования в третьем городе в мире по стоимости жилья/средней ЗП.

Захотел пойти в Data, это направление меня давно интересовало, на сегодняшний очень востребовано и с достойным уровнем компенсации труда. Стал искать больше материалов и реальные успешные истории - нашел дата сообщество Surfalytics. С ценностями, которые мне по душе - прокачка в Дате и здоровый образ жизни.

6 месяцев безостановочного стука во все двери, редактирование и рассылка резюме, мониторинг вакансий, собеседования, обучение, проекты, воркшопы, домашние задания, технические собеседования, проявление инициативы, задавание правильных вопросов. C августа 2024 мое приложение для записи собеседований (Limitless) насчитало 39 собеседований и там явно не все учтено. С января 2025 я выхожу на работу Sr Data Engineer в компанию Electronic Arts. Лучший новогодний подарок, я считаю.

Surfalytics сообщество мне дало понимание следующих вещей:

- Сориентировали по актуальным зарплатам в год или в час на контрактной основе, какие есть вилки для разных типов специалистов.
- Дали понимание, какой стек технологий актуальный сейчас на рынке и владение какими инструментами обычно хотят видеть работодатели от кандидатов в Северной Америке. Количество огромное, за что браться, что осваивать и в каком порядке - чтобы получить 80% результата при 20% фокуса на навыках.
- Кроме технических скилов (hard skills), много внимания уделяется Job Interviews Skills, Business Domain и в целом идет упор на общение с hiring manager и закрытие его pain points на примере своих “pet” проектов, которые очень приближены к реальным задачам.

Как я благодарен своему наставнику и проводнику по этому тернистому пути Дмитрию Аношину! Дмитрий создал дата комьюнити и благоприятные условия для обучения, возможностью делиться ценным опытом, помогать друг другу на этом нелегком пути. Порой когда уже теряешь веру, ты видишь на реальных примерах как у участников сообщества получается достигать результатов, прокачиваться, улучшать свои навыки как хард так и софт. Я уверен, что для нас всех стресс проходить собеседования и быть оцененным. Это опыт, который нужно пройти и получить. Но награда того стоит. Тем более для участников сообщества есть материалы, поддержка, 15 летний опыт Дмитрия в этом бизнесе.

Дальше больше! Всех обнял.


#testimmonial
283❤‍🔥57🍾30👨‍💻2🌭1🙈1
Всем привет!

В перерывах между прогулками по нарядной Москве я готовлюсь к выступлению на Data завтрак 13 января, которые мы проведем в Т-Банк.

Data завтрак: свежий старт для данных и идей!

Врываемся в 2025 год содержательно! Приглашаем вас 13 января на Data завтрак: полезные блюда помогут восстановиться после «салатной комы», а свежие Data-темы зарядят новыми знаниями о ключевых аспектах работы с данными.

Для кого это мероприятие:

Для аналитиков, инженеров данных, разработчиков и всех, кто интересуется современными подходами к работе с данными и платформами.

Что в программе:

- Дмитрий Аношин, основатель консалтинговой компании Rock Your Data в Северной Америке, специализирующейся на современной облачной аналитике. Дмитрий поделится обзором аналитических решений, инструментов и команд. Узнаем, как строить команды, справляться со сложностями и разрабатывать архитектуры аналитических решений.

- Валерий Поляков, CDO в Т-Банке: расскажет о тернистом пути платформы данных в Т-Банке — от централизованного вендорского решения до сложной экосистемы open-source компонентов. Валерий с 2011 года работает с данными в разных ролях — строил отчетность, хранилища данных, платформы данных, различные аналитические продукты на основе данных. В Т-Банке работал с 2012 по 2019 год и затем вновь в Т с 2022 года.
Нетворкинг за завтраком.


В конце мы разыграем подарки, которые я привез (на фотографии).

PS Спасибо за помощь в организации Александру Поломодову, Техническому Директору Т-Банк, автору канала Книжний Клуб @book_cube и Александре Пановой за организацию мероприятия.

Александр мне уже устроил экскурсию по шикарному офису Т-Банка. Не пропустите возможность заглянуть и познакомиться!
❤‍🔥5015💯5🌭2