Инжиниринг Данных

В продолжение прошлого поста:

Внезапная смерть Сучира Балажи, известного критика OpenAI, потрясла технический мир на фоне ожесточённых дискуссий о законах об ИИ и авторских правах. За несколько месяцев до своей смерти Балажи раскрыл серьёзные этические и правовые проблемы.

Он в частности критиковал то, как компании, такие как OpenAI, собирают огромные объёмы данных из интернета для обучения своих ИИ-моделей, ставя под сомнение законность и этичность этих практик в рамках действующего законодательства об авторских правах.

Открытые данные кончаются, надо брать закрытие. Кто не согласен погибает.

Вроде с боенгом уже разобрались, претензий ни у кого не осталось. Думаю скоро на Open AI претензии тоже иссякнут🔫

Please open Telegram to view this post

VIEW IN TELEGRAM

🙈21🫡64🌚1💘1

7.84K viewsDmitry, edited 18:50

Инжиниринг Данных

Databricks is Raising $10B Series J Investment at $62B Valuation - мощно!

Today’s announcement comes on the heels of Databricks’ recent momentum which includes:

Growing over 60% year-over-year in the third quarter ended October 31, 2024
Expecting to cross $3 billion revenue run-rate and be free cash flow positive in the fourth quarter ending January 31, 2025
Continuing to achieve non-GAAP subscription gross margins above 80%
Having 500+ customers consuming at over $1 million annual revenue run-rate
Achieving $600 million revenue run rate for Databricks SQL, the company’s intelligent data warehousing product, up more than 150% year-over-year

Мне кажется сотрудники Databricks уже устали ждать IPO🏃‍♂️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥11

7.47K viewsDmitry, 17:30

Инжиниринг Данных

Вот еще одна стратегия быть в +. Если Databricks реально создает Инновационный, надежный продукт, в котором есть все, что нужно для data engineering, machine learning, AI, data analytics, то Microstrategy просто скупает биткойны💪

MicroStrategy обанкротится только если астероид ударит по Земле.

За 15 лет цена биткоина никогда не опускалась ниже базовой стоимости долгосрочных держателей, которая сейчас составляет $30K.

Долг MicroStrategy составляет $7 млрд, а их запасы BTC оцениваются в $46 млрд.

Основываясь только на BTC, цена ликвидации составляет $16.5K.

Не понимаю, почему 1С не скупает биткойны, вот бы хайпанули на мировом рынке)

Please open Telegram to view this post

VIEW IN TELEGRAM

💯25❤‍🔥3🙈2

7.47K viewsDmitry, edited 18:43

Инжиниринг Данных

Clickhouse strong💪

Please open Telegram to view this post

VIEW IN TELEGRAM

💯50👨‍💻3🙈1

7.07K viewsDmitry, 02:09

Инжиниринг Данных

Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)

❤️‍🩹 Пост поддержки — Кристине Уласович из нашего маленького датавиз / дата журналистского сообщества нужна помощь.

Если у вас есть связи в системе здравоохранения Москвы — напишите ей @ave_kirsten

Совместный проект Кристины и Марии Хомутовой в прошлом году вошел в шортлист Information is Beautiful Awards, на церемонии награждения которой мы и познакомились.

Ниже привожу текст от Кристины:

«Дорогие все.

Так случилось, что в моей семье ужасное горе - мама заболела раком, IV стадия.
Не передать словами, насколько ужасный был месяц: 3 недели в реанимации, опасная для жизни операция, ТЭЛА.

Она сейчас в состоянии средней тяжести после всего пережитого — у нее пневмония, нарушены двигательные функции, кислородотерапия. Но есть положительная динамика по восстановлению.

В таком состоянии, как у нее сейчас, химию делать нельзя. А ей она нужна, потому что есть метастазы. Единственный наш шанс — это чтобы мама долечилась и прошла реабилитацию. Однако наша больница долечивать ее не очень хочет и настаивает на паллиативе, но остановиться на полпути, сдать ее в хоспис и опустить руки сердце мне не позволяет.

Я обычно стараюсь все вытянуть сама, но тут мне просто не хватает собственной мощи. Если вы знаете кого-то, кто мог бы помочь в этой ситуации - может быть, маму удастся перевести лечиться в другую больницу, в реабилитационный центр, где ей можно будет дать шанс восстановиться - или знаете, что можно ещё сделать, то напишите мне или просто поделитесь моей историей.

Скоро Новый год, и моей семье очень нужно чудо. Я уже потеряла папу в 2018 году, и я должна попытаться сделать все, чтобы не потерять еще и маму.

P. S. Если вы или ваши родители знакомы с моей мамой, то пока что ей не пишите, пожалуйста. Она не знает всю полноту диагноза, сейчас ей это не нужно — иначе страх застопорит прогресс.»

Behance

The air we breathe

❤‍🔥18😭15🗿2🍾1

6.89K viewsDmitry, 07:39

Инжиниринг Данных

Наконец привел в порядок папочку, где были решения для домашнего задания с собеседований https://github.com/dimoobraznii1986/Assignments

Тут 3 проекты/задания

1. Для EPIC (Создатели Unreal Engine) - я расписал как я бы создавал решение для Game Analytics. (Результат: мимо)
2. Для Alpaca Markets (API для трейдинга) - набор docker с dbt, airflow, Jupyter, Postgres. (Результат: работал почти год и сам ушел)
3. Для Zappier (No-code решения для автоматизации) - end-to-end решение на Databricks. Нужно было с API по футболу забирать данные и построить Delta Lake. Там же есть их фидбек. (Результат: мимо). Попросили на задачу потратить 3 часа, я потратил 15 часов минимум.

Примерно такие проекты мне нравится делать на Surfalytics, где можно использовать какой-нибудь стек и создать end-to-end решение и обосновать выбор каждого элемента.

Кстати если интересно узнать про собеседования для DE (настоящие): https://www.youtube.com/playlist?list=PLNCDg7zJiXhM5Gshe5_Q2HAZM5vIOLpI1
Про аналитика и BI и SQL mock, которые мы проводим внутри Surfalytics: https://www.youtube.com/watch?v=qUwbpgbEymE&list=PLNCDg7zJiXhPD0ethFHC-1V1pkvWhc633

GitHub

GitHub - dimoobraznii1986/Assignments

Contribute to dimoobraznii1986/Assignments development by creating an account on GitHub.

2❤‍🔥64💘2🍾1🎄1

8.02K viewsDmitry, edited 17:10

Инжиниринг Данных

Performance Optimization в Apache Spark это лес дремучий! Но оказывается есть супер видео, которое прям хорошо объясняет: https://youtu.be/daXEp4HmS-E?feature=shared

PS Спасибо Юре, который поделился в Surfalytics Discord.

YouTube

Apache Spark Core—Deep Dive—Proper Optimization Daniel Tomes Databricks

Optimizing spark jobs through a true understanding of spark core. Learn: What is a partition? What is the difference between read/shuffle/write partitions? How to increase parallelism and decrease output files? Where does shuffle data go between stages? What…

❤‍🔥35🫡8💯5🍾3

10.4K viewsDmitry, 01:19

Инжиниринг Данных

Forwarded from Грокс

Стартап Databricks, который представляет собой аналитическую платформу на базе Apache Spark поднял $10 млрд при оценке в $62 млрд (около 25 годовых выручек), что стало крупнейшим венчурным раундом в истории. Кажется, новый пузырь созрел для того, чтобы начать о нём говорить.

https://techcrunch.com/2024/12/17/databricks-raises-10b-as-it-barrels-toward-an-ipo/

🫡25⚡7🙈3🍾1

8.51K viewsDmitry, 16:23

Инжиниринг Данных

Как выглядит busy день инженера данных в рассвете сил:
1. Опубликовал новую версию Airflow Dag, которые делает feature engineering в dbt, запускает ML модель в S3 (модель от команды).
2. Использую terraform и permifrost создал новые объекты (базы данных, пользователей, роли) и раздал всем права
3. Создал OAuth 2.0 security integration в Snowflake для для внешнего подключения
4. Ревью несколько PR и backfill Azure Data Factory pipeline
5. Несколько митингов
6. Создал интеграцию Braze и Snowflake
7. Через Fivetran подключил Gladly, Zoom, Zendesk, Wallmart
8. Задеплоили и проектировали Cloud Watch Alerts и Pager Duty интеграцию для on-call
9. Troubleshooting для Azure Databricks
10. Собеседование с VP Engineering на Staff DE - отвечал на все вопросы по книжки Staff Engineer:)
11. Обсудил с Колей из @leftjoin про консалтинг в РФ и балет Щелкунчик
12. Обсудил с Андроном из @andron_233 про популярность Apache Spark и Databricks
13. Еще будет встреча с VK сегодня, чтобы попросить бесплатных кредитов для бесплатного воркшопа по на русском;)
14. Скоро будет местный балет Щелкунчик, где моя дочь выступает
15. И перед сном нужно закончить 2ою часть CI/CD workshop

PS с одной стороны это большой список, особенно для ДЕ задач. Каждая задача в отдельности сложная. Но если я потратил несколько недель на создание качественного фреймворка, то итерации будут уже очень быстрые. Например по permifrost и terraform я потратил недели 2-3 и даже грохнул прод. По OAuth2.0 я потратил неделю, чтобы понять как это работает. Зато когда pattern установлен, становится все легко и быстро. И главное более качественно.

2👨‍💻50⚡21🍾97🗿4❤‍🔥3👾2🤷1

9.26K viewsDmitry, edited 01:25

Инжиниринг Данных

Forwarded from LEFT JOIN

0:21

Media is too big

VIEW IN TELEGRAM

Дмитрий Аношин про разницу между туризмом и иммиграцией, выгорание в Amazon и work-life balance
Работа в корпорации с громким названием вроде Microsoft или Amazon для кого-то может выглядеть, как мечта — ведь это большая зарплата, стабильность, интересные проекты. Но иногда реальность разочаровывает, и перестают мотивировать что статус, что деньги.

И как быть?
В новом выпуске LEFT JOIN Partners дата-инженер Дмитрий Аношин (вы наверняка знаете его по его проектам вроде Surfanalytics и курсам на Data Learn), рассказал о переезде в Канаду, работе в Amazon и Microsoft и борьбе с выгоранием.

Обсудили не только трудности.
🔵 Как сегодня переехать в Северную Америку и найти работу в IT?
🔵 Сколько платят дата-инженерам в Amazon?
🔵 Что нужно, чтобы стать востребованным специалистом и построить карьеру в IT на западе?

🔜

YouTube

🔜

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥479🍾5🎄3⚡2

7.78K viewsDmitry, 17:43

Инжиниринг Данных

Закончил 2ю половину workshop по CI/CD на примере контейнера с DuckDB и 1м SQL файлом.

Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.

Вы можете самостоятельно все проделать.

Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd

Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project

Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro

Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE

Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.

❤‍🔥49⚡2🗿2

10K viewsDmitry, edited 22:05

Инжиниринг Данных

В продолжение прошлого поста - Why DataOps is a new DevOps.

YouTube

Pete DeJoy, Astronomer | Cloud AWS re:Invent Coverage

AT the Cloud AWS re:Invent, Coverage event John Furrier of theCUBE Research talks to Pete DeJoy, co-founder and SVP of product at Astronomer, as they discuss the evolving role of data infrastructure in generative AI and modern business operations. DeJoy shared…

🐳6🌚2

8.48K viewsDmitry, 05:04

Инжиниринг Данных

Вчера написал пост как можно быстро пофиксить резюме. Через меня достаточно много проходит резюме и мы коллективно докручиваем резюме, чтобы оно было Ок и с ним можно было уже откликаться.

В статье я указал основные моменты, на которые обращаем внимание. И оно обязательно к прочтению для всех кто планирует искать работу на рынке с высокой конкуренцией (США, Канада, Европа, Австралия и тп), где на каждую вакансию по 500-1000 откликов и рекруты тратят по 5-10 секунд на ваш профиль.

В РФ все проще, можно иметь профайл на HH, в котором есть SQL, Python, Airflow, Clickhosue/Greenplum и несколько лет опыта.

Surfalytics

Check list for fixing your Data Resume

Expert Tips to Tailor Your Resume for Initial Screening Success

❤‍🔥36⚡14

9.56K viewsDmitry, 17:44

Инжиниринг Данных

Как ML помогает ритейлу

В продуктовом ритейле автоматизировано множество процессов, и даже у банки сгущенки есть свой цифровой след. О том, как торговые сети прогнозируют предпраздничный ажиотаж, оптимизируют HR-процессы и принимают решения о внедрении ИИ, в подкасте «Деньги любят техно» рассказали директор по управлению данными X5 Tech Тигран Саркисов и директор по развитию искусственного интеллекта Х5 Tech Михаил Неверов.

Ведущий эпизода, начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев, обсудил с гостями подходы к построению команд и процессов, роли дата-инженеров и дальнейшие перспективы развития сервисов с ИИ, актуальных для ритейла.

В предновогоднем выпуске также подвели итоги года в Data Science и попробовали заглянуть в будущее.

Рекомендуем посмотреть эпизод или послушать его в аудиоверсии.

⚡2

9.1K viewsDmitry, 07:59

Инжиниринг Данных

Сервис Cleve AI сделали прикольную штуку - мы даем ей ссылку на LinkedIn, а она нам создает summary за целый год.

Мне кажется я постил в этом году больше чем нас 5 лет в сумме, но когда увидел сколько другие постят (1000-1500) постов в год, понимаю, что я еще noob.

Из 3х самых популярных постов 2 было про семью и детей.

Мне кажется сейчас все стали блогерами и генерят контент и ценность LinkedIn очень сильно размывается.

Если я задам себе вопрос, чтобы изменилось, если бы не было LinkedIn? Мне кажется ничего, работу я искал через сайты для поиска работы, нетворкинг там что есть, что нет. Но альтернативы для “профессиональной” сети нет.

💯42⚡6

8.64K viewsDmitry, 19:25

Инжиниринг Данных

Финальный отзыв в этом году. Рад, что у нас получилось дожать. Когда идут отказы или еще хуже, вы прошли все собеседования и компания замораживает позицию, то очень сложно продолжать. Поэтому нужно помнить, стакан наполовину полон, а не наполовину пуст.

“Ура, я получил job offer!” - Как эта фраза много значит для меня, вы наверно сможете меня понять, прочитав мою историю.

Когда-то давно я услышал пословицу: “Под лежачий камень вода не течёт”. По-английский она звучит так: “No song, no supper”. Это про меня. Я хочу управлять своей жизнью.

Мне кажется это стало гимном моего поиска работы в качестве Sr Data Engineer в Канаде.

Немного предыстории: я по образованию врач-хирург, закончил в РФ Мед Академию и 1 год отработал в больнице. Параллельно у меня всегда была тяга к IT технологиям, после появления у меня ПК в 1997 году, мой пытливый ум никогда не оставлял его.

После работы врачом я ушел на 8 лет в фармацевтический бизнес и вот тогда понял, что нужно что-то менять, мигрировать в другую страну. Я решил самостоятельно перейти в IT сектор.

Шел 2018 год. За полгода-год самостоятельного обучения фронтенду я смог устроиться на свою первую работу Frontend инженером. С этой работой в 2022 я переехал в Ванкувер, Канаду. Устроился в местную ванкуверскую компанию FE инженером. Сразу быстро стал понимать, что этого уровня недостаточно, для комфортного существования в третьем городе в мире по стоимости жилья/средней ЗП.

Захотел пойти в Data, это направление меня давно интересовало, на сегодняшний очень востребовано и с достойным уровнем компенсации труда. Стал искать больше материалов и реальные успешные истории - нашел дата сообщество Surfalytics. С ценностями, которые мне по душе - прокачка в Дате и здоровый образ жизни.

6 месяцев безостановочного стука во все двери, редактирование и рассылка резюме, мониторинг вакансий, собеседования, обучение, проекты, воркшопы, домашние задания, технические собеседования, проявление инициативы, задавание правильных вопросов. C августа 2024 мое приложение для записи собеседований (Limitless) насчитало 39 собеседований и там явно не все учтено. С января 2025 я выхожу на работу Sr Data Engineer в компанию Electronic Arts. Лучший новогодний подарок, я считаю.

Surfalytics сообщество мне дало понимание следующих вещей:

- Сориентировали по актуальным зарплатам в год или в час на контрактной основе, какие есть вилки для разных типов специалистов.
- Дали понимание, какой стек технологий актуальный сейчас на рынке и владение какими инструментами обычно хотят видеть работодатели от кандидатов в Северной Америке. Количество огромное, за что браться, что осваивать и в каком порядке - чтобы получить 80% результата при 20% фокуса на навыках.
- Кроме технических скилов (hard skills), много внимания уделяется Job Interviews Skills, Business Domain и в целом идет упор на общение с hiring manager и закрытие его pain points на примере своих “pet” проектов, которые очень приближены к реальным задачам.

Как я благодарен своему наставнику и проводнику по этому тернистому пути Дмитрию Аношину! Дмитрий создал дата комьюнити и благоприятные условия для обучения, возможностью делиться ценным опытом, помогать друг другу на этом нелегком пути. Порой когда уже теряешь веру, ты видишь на реальных примерах как у участников сообщества получается достигать результатов, прокачиваться, улучшать свои навыки как хард так и софт. Я уверен, что для нас всех стресс проходить собеседования и быть оцененным. Это опыт, который нужно пройти и получить. Но награда того стоит. Тем более для участников сообщества есть материалы, поддержка, 15 летний опыт Дмитрия в этом бизнесе.

Дальше больше! Всех обнял.

#testimmonial

2⚡83❤‍🔥57🍾30👨‍💻2🌭1🙈1

9.23K viewsDmitry, 03:06

Инжиниринг Данных

Всем привет!

В перерывах между прогулками по нарядной Москве я готовлюсь к выступлению на Data завтрак 13 января, которые мы проведем в Т-Банк.

Data завтрак: свежий старт для данных и идей!

Врываемся в 2025 год содержательно! Приглашаем вас 13 января на Data завтрак: полезные блюда помогут восстановиться после «салатной комы», а свежие Data-темы зарядят новыми знаниями о ключевых аспектах работы с данными.

Для кого это мероприятие:

Для аналитиков, инженеров данных, разработчиков и всех, кто интересуется современными подходами к работе с данными и платформами.

Что в программе:

- Дмитрий Аношин, основатель консалтинговой компании Rock Your Data в Северной Америке, специализирующейся на современной облачной аналитике. Дмитрий поделится обзором аналитических решений, инструментов и команд. Узнаем, как строить команды, справляться со сложностями и разрабатывать архитектуры аналитических решений.

- Валерий Поляков, CDO в Т-Банке: расскажет о тернистом пути платформы данных в Т-Банке — от централизованного вендорского решения до сложной экосистемы open-source компонентов. Валерий с 2011 года работает с данными в разных ролях — строил отчетность, хранилища данных, платформы данных, различные аналитические продукты на основе данных. В Т-Банке работал с 2012 по 2019 год и затем вновь в Т с 2022 года.
Нетворкинг за завтраком.

В конце мы разыграем подарки, которые я привез (на фотографии).

PS Спасибо за помощь в организации Александру Поломодову, Техническому Директору Т-Банк, автору канала Книжний Клуб @book_cube и Александре Пановой за организацию мероприятия.

Александр мне уже устроил экскурсию по шикарному офису Т-Банка. Не пропустите возможность заглянуть и познакомиться!

❤‍🔥50⚡15💯5🌭2

9.04K viewsDmitry, 06:08

About

Blog

Apps

Platform