Иметь свое мнение нынче не позволительная роскошь. Особенно для западного мира. Например, в slack Snowflake Community меня сегодня удалили навсегда, то есть я больше не часть их community и вообщем-то меня слили. Потому что, я им сказал (им это их Community Managers в общем чате для всех пользователей), что они охренели совсем, игнорят меня и даже просто не отвечают. Я предположил, что уже community не такое как было в 2018 и 2019, когда оно было отзывчивое и все вместе восхваляли снежинку. Теперь она вышла на IPO, и важна только прибыль компании. Я им тоже намекнул, что возможно они такие не разговорчивые, потому что их stock падает в цене. В общем у них разговор короткий, просто удалить меня везде и все. Так и живем, со своим мнением при себе. 😬 а иначе “давай, досвидания!”🤪
А что касается User Group, Николай классно все рассказал и мы добавим потом видео на YouTube и я скину ссылку.
А что касается User Group, Николай классно все рассказал и мы добавим потом видео на YouTube и я скину ссылку.
25 марта я обещал рассказать про Databricks и Delta Lake на Microsoft user Group. Пока у меня немного опыта, но общую идею понял. Вот ссылка на мероприятие: https://www.meetup.com/Victoria-SQL-Server-User-Group/events/276840067/
Meetup
[Online] Delta Lake as an Alternative to the Modern Data Warehouse , Thu, Mar 25, 2021, 12:00 PM | Meetup
The Victoria SQL Server User group is joining forces with other groups in the Pacific Northwest to bring you a virtual meeting option while we can't meet in person.
The me
The me
Запись митапа https://youtu.be/N1vqrRBi63w
YouTube
Analytics for a SaaS startup: first year with Snowflake
⚠️ Summary:
ManyChat is a rapidly growing SaaS startup, which reached the size, requiring high-end analytical capabilities. Starting from December 2019, ManyChat selected a cloud-based analytical database and created Data Platform around it. Given year was…
ManyChat is a rapidly growing SaaS startup, which reached the size, requiring high-end analytical capabilities. Starting from December 2019, ManyChat selected a cloud-based analytical database and created Data Platform around it. Given year was…
Еще один новый термин в мире аналитики (для меня точно новый) - Business Science.
YouTube
Introducing Tableau Business Science | A new class of AI-powered analytics
Tableau Business Science brings powerful data science capabilities to business people. Now you can make smarter decisions faster with AI-powered predictions and insights, what-if scenario planning, guided model building, and other data science techniques—all…
CEO Tableau, который в 2016 ушел из AWS и сделал довольно много, включая модель subscription по лицензиям, возвращается возглавлять AWS.
CNBC
Amazon hires former executive Adam Selipsky to run AWS
Adam Selipsky sold Tableau to Salesforce in 2019 after spending 11 years at Amazon.
Продолжение статья про input metrics по модели Amazon из книги - Working Backwards. Я считаю, что эта книга должна стать настольной для людей, которые работают с данными и принимают решения на основе метрик и фактов.
The Holistics Blog
Obsess Over Controllable Input Metrics
Why Amazon's notion of measuring controllable input metrics is a lot more profound than you might think.
И ещё новости, сегодня я переехал с острова Ванкувер, в город Ванкувер. На острове я прожил 5 лет. Я мог бы ещё 1-1,5 года быть на острове, но устал. Ковид свое дело сделал, сидеть дома практически в деревне, даже в 5 минутах от океана мы не смогли, мы поняли, что мы городские жители и нам нужны изменения. Но мы не хотели бы делать это абы как, поэтому мы сдали свой дом на острове в рент, и купили Таун Хаус рядом с Ванкувером. Это конечно рисковая комбинация, брать 2ую ипотеку за млн канадских, но где нет рисков, нет профита.
Огромная благодарность Амазону за его акции, которые мне дали 5 лет назад и которые выросли в 5-6 раз и благодаря ним можно было так сделать. И ещё на практики я узнал, что такое рефинансирование ипотеки, что такое налоги на capital gains, как можно выдернуть деньги из equity и использовать их как downpayment. Получается зарплата сама по себе это и не так важно посравнению с тем, что можно сделать с активами и инвестициями. Но это уже совсем другая тема, где я не в теме.
Наш новый адрес имеет красивую улицу Seaview Drive. А вот район - Port Moody звучит грусновато и пасмурно.
И большой респект Microsoft за переезд. Мы будем жить 2 месяца в самом центре Ванкувера с видом на Science World и я договорился, что со след недели пойду в офис, так как работать из дома 2,5 года это было чересчур.
Наверно с этим связана задержка datalearn и моя общая активность.
Огромная благодарность Амазону за его акции, которые мне дали 5 лет назад и которые выросли в 5-6 раз и благодаря ним можно было так сделать. И ещё на практики я узнал, что такое рефинансирование ипотеки, что такое налоги на capital gains, как можно выдернуть деньги из equity и использовать их как downpayment. Получается зарплата сама по себе это и не так важно посравнению с тем, что можно сделать с активами и инвестициями. Но это уже совсем другая тема, где я не в теме.
Наш новый адрес имеет красивую улицу Seaview Drive. А вот район - Port Moody звучит грусновато и пасмурно.
И большой респект Microsoft за переезд. Мы будем жить 2 месяца в самом центре Ванкувера с видом на Science World и я договорился, что со след недели пойду в офис, так как работать из дома 2,5 года это было чересчур.
Наверно с этим связана задержка datalearn и моя общая активность.
Всем привет! Вот ссылка на мою презентацию про Databricks и Delta Lake, которая будет сегодня в 12 дня PST. Там есть несколько слайдов про Apache Hudi, Iceberg и Delta Lake. Про эволюцию решения для хранения данных от базы данных к lakehouse. На последнем слайде самая ценная информация - ссылки на лабу Databricks Delta Lake Deep Dive с кодом Python. Это будет в модуле 7 de-101, но когда это будет, так что можете попробовать погонять Python.
Google Docs
032020 | Databricks and Delta Lake
Delta Lake as Alternative to the Modern Data Warehouse By Dmitry Anoshin, Analytics and Data Engineering Professional
SAP Insider Data & Analytics 2021 - конференция SAP про решения аналитики. В России и Европе очень актуально.
Sapinsiderevent
SAPinsider 2021 (SAP S/4HANA, Data & Analytics, Cloud & Admin)
Join me for SAPinsider 2021 March 9 - 11 & March 23 - 25, a virtual conference experience.
Есть возможность написать книгу для PacktPub по Microsoft Data Engineering. Дело непростое и занимает много времени. Как вы знаете я уже писал раньше книги и всегда все доводил до конца. Даже совсем недавно мы сделали книгу про Azure Data Factory. Пишите в комментах если вы прям мечтаете иметь книгу свою, знаете английский, чтобы писать и знаете Microsoft Azure или другой Cloud.
Накопилось открытых вкладок.
ML:
ML Feature Serving Infrastructure at Lyft
Flyte Joins LF AI & Data
7 steps to get started with large-scale labeling
Building Riviera: A Declarative Real-Time Feature Engineering Framework
Driving business decisions using data science and machine learning
DE:
How PayPal moves secure and encrypted data across security zones
Data Pipelines @ Samsara
Lessons Learned from Scaling Up Cloudflare’s Anomaly Detection Platform
Data movement for Google services at Netflix
Why Kafka Is so Fast
BigQuery delivers a modern view of materialized views
Прочее:
Gousto Data Team — Best of 2020
You should pick your org chart when looking at a position
ML:
ML Feature Serving Infrastructure at Lyft
Flyte Joins LF AI & Data
7 steps to get started with large-scale labeling
Building Riviera: A Declarative Real-Time Feature Engineering Framework
Driving business decisions using data science and machine learning
DE:
How PayPal moves secure and encrypted data across security zones
Data Pipelines @ Samsara
Lessons Learned from Scaling Up Cloudflare’s Anomaly Detection Platform
Data movement for Google services at Netflix
Why Kafka Is so Fast
BigQuery delivers a modern view of materialized views
Прочее:
Gousto Data Team — Best of 2020
You should pick your org chart when looking at a position
А вот визуализация от Financial Times про Суэйкций канал, который как вы знаете оказался заблокированным. https://www.ft.com/__origami/service/image/v2/images/raw/https%3A%2F%2Fd6c748xw2pzm8.cloudfront.net%2Fprod%2F8863f760-8cc9-11eb-8365-072a5bcc3510-standard.png?dpr=1&fit=scale-down&quality=highest&source=next&width=700
Последние несколько дней были посвящены - Databricks. И я хочу вам еще порекомендовать 2 инверсных видео на русском от Dodo пицца. Я знал эту компанию раньше, когда с товарищем пытался создать франчайзинг meal prep по доставке еды. У Dodo даже есть книга про их бизнес. Они не только новаторы в России и в Мире по созданию сети пиццерий, но еще и новаторы в области аналитики и инжиниринг данных, и с удовольствием делятся опытом.
-> meetup 3 - Разбор реального проекта: E2E пайплайн данных, на котором они разбирают архитектуру решения на Azure Databricks и говорят про ML, CI/CD, Delta Lake. Мне очень понравилось, так как я сейчас чувствую, что “изобретаю велосипед” для своих проектов, но уже давно все сделали. Да еще и на русском рассказали:)
-> meetup 6 - Delta Lake — table format for large scale storage and analytics. (Запись почему-то пока пропала).
В общем интересные у них митапы, может посмотреть на другие видео.
-> meetup 3 - Разбор реального проекта: E2E пайплайн данных, на котором они разбирают архитектуру решения на Azure Databricks и говорят про ML, CI/CD, Delta Lake. Мне очень понравилось, так как я сейчас чувствую, что “изобретаю велосипед” для своих проектов, но уже давно все сделали. Да еще и на русском рассказали:)
-> meetup 6 - Delta Lake — table format for large scale storage and analytics. (Запись почему-то пока пропала).
В общем интересные у них митапы, может посмотреть на другие видео.
dodobrands.io
Додо Книга - Предисловие
Оглавление Глава 0 Не читай,а слушай. Эта книга в подкасте Как прыгать выше головы, ловить волну, двигать горы и менять мир
аудио Дорогой друг!
Мы счастливы приветствовать тебя среди читателей «Додо Книги». Каждый наш сотрудник, партнер или даже гость входит…
аудио Дорогой друг!
Мы счастливы приветствовать тебя среди читателей «Додо Книги». Каждый наш сотрудник, партнер или даже гость входит…
Forwarded from Smart Data (Denis Solovyov)
Всем привет!
В прошлом посте я начал описывать путь обучения и становления data-инженера. Контент получился подробный, и я решил разделить его на 2 части. В первой части я описал базовые навыки, которыми должен обладать data engineer, чтобы выполнять большую часть бизнес-задач и мог освоить практически любую технологию, связанную с интеграцией и обработкой данных.
Сегодня я опишу, на мой взгляд, уже более специфические навыки, связанные с конкретными инструментами и необходимые для отдельных бизнес-задач.
Итак, мы освоили базовую теорию баз данных, научились писать SQL-запросы, разобрались, что такое ETL, начали кодить на Python и деплоить наш код в production.
Что дальше?
1. Cloud Computing (облачные вычисления). Сейчас очень растёт популярность облачных технологий и всё в большем количестве вакансий в качестве требований для data-инженера отмечается опыт работы с одним из крупных облачных провайдеров - Amazon Web Services, Microsoft Azure и Google Cloud. Здесь, в первую очередь, нам нужно фундаментально понимать принципы облачных вычислений и знать основные модели предоставления услуг от облачных провайдеров: IaaS, PaaS, SaaS (есть ещё производные модели, такие как KaaS и FaaS). Для каждой модели каждый провайдер предоставляет соответствующие сервисы. В первую очередь это касается сервисов из группы Compute, которая составляет костяк любого облака.
После изучения принципов облачных вычислений, понимания основных моделей предоставления услуг и базового изучения инструментов, отвечающих за вычислительные возможности облака важно изучить продукты из группы Storage - второго основного элемента любого cloud. Здесь важно понимать, какие сервисы есть для SQL и NoSQL баз данных, что можно использовать в качестве файлового хранилища (Data Lake), а что в качестве хранилища данных (Data Warehouse).
Это база, которую нужно знать, чтобы понять возможности Cloud. Дальше вы уже можете более глубоко изучать инструменты, которые необходимы для конкретного проекта или задачи.
Очень часто вижу вопрос: "Какое облако учить?"
Мой ответ: всё зависит от того, какое облако чаще используют в вашей стране или какое облако используют компании, в которых вы хотели бы работать.
Лично у меня исторически сложилось так, что я начал работать с Google Cloud, так как я работаю с маркетинговыми данными, а у GCP много удобных бесшовных интеграций с различными маркетинговыми сервисами от Google.
Если же вы работаете или планируете работать с российским рынком, то хорошим вариантом будет Yandex Cloud. Насколько я знаю, в России есть строгие ограничения по хранению данных - данные географически должны храниться в рамках РФ. Т.е. вы не можете использовать сервера, которые находятся за пределами страны, а как раз такие сервера предоставляют 3 крупных провайдера (AWS, Azure и GCP). Yandex Cloud же может предоставить сервера внутри РФ, и вы не будете нарушать закон.
* Возможно, я чего-то не учёл здесь, поэтому поправьте меня в комментариях, если что.
Нужно знать главное - принципы у всех провайдеров одни и те же. Все делают одно и то же, просто сервисы немного отличаются. Но, если вы комфортно чувствуете себя с каким-то одним облаком, вам не составит огромного труда попробовать другое, так как вы будете понимать принципы. Поэтому, это не критически важно, какое конкретное облако вы выберете для изучения. Главное, не хватайтесь за все))Толку от такого изучения будет мало.
В прошлом посте я начал описывать путь обучения и становления data-инженера. Контент получился подробный, и я решил разделить его на 2 части. В первой части я описал базовые навыки, которыми должен обладать data engineer, чтобы выполнять большую часть бизнес-задач и мог освоить практически любую технологию, связанную с интеграцией и обработкой данных.
Сегодня я опишу, на мой взгляд, уже более специфические навыки, связанные с конкретными инструментами и необходимые для отдельных бизнес-задач.
Итак, мы освоили базовую теорию баз данных, научились писать SQL-запросы, разобрались, что такое ETL, начали кодить на Python и деплоить наш код в production.
Что дальше?
1. Cloud Computing (облачные вычисления). Сейчас очень растёт популярность облачных технологий и всё в большем количестве вакансий в качестве требований для data-инженера отмечается опыт работы с одним из крупных облачных провайдеров - Amazon Web Services, Microsoft Azure и Google Cloud. Здесь, в первую очередь, нам нужно фундаментально понимать принципы облачных вычислений и знать основные модели предоставления услуг от облачных провайдеров: IaaS, PaaS, SaaS (есть ещё производные модели, такие как KaaS и FaaS). Для каждой модели каждый провайдер предоставляет соответствующие сервисы. В первую очередь это касается сервисов из группы Compute, которая составляет костяк любого облака.
После изучения принципов облачных вычислений, понимания основных моделей предоставления услуг и базового изучения инструментов, отвечающих за вычислительные возможности облака важно изучить продукты из группы Storage - второго основного элемента любого cloud. Здесь важно понимать, какие сервисы есть для SQL и NoSQL баз данных, что можно использовать в качестве файлового хранилища (Data Lake), а что в качестве хранилища данных (Data Warehouse).
Это база, которую нужно знать, чтобы понять возможности Cloud. Дальше вы уже можете более глубоко изучать инструменты, которые необходимы для конкретного проекта или задачи.
Очень часто вижу вопрос: "Какое облако учить?"
Мой ответ: всё зависит от того, какое облако чаще используют в вашей стране или какое облако используют компании, в которых вы хотели бы работать.
Лично у меня исторически сложилось так, что я начал работать с Google Cloud, так как я работаю с маркетинговыми данными, а у GCP много удобных бесшовных интеграций с различными маркетинговыми сервисами от Google.
Если же вы работаете или планируете работать с российским рынком, то хорошим вариантом будет Yandex Cloud. Насколько я знаю, в России есть строгие ограничения по хранению данных - данные географически должны храниться в рамках РФ. Т.е. вы не можете использовать сервера, которые находятся за пределами страны, а как раз такие сервера предоставляют 3 крупных провайдера (AWS, Azure и GCP). Yandex Cloud же может предоставить сервера внутри РФ, и вы не будете нарушать закон.
* Возможно, я чего-то не учёл здесь, поэтому поправьте меня в комментариях, если что.
Нужно знать главное - принципы у всех провайдеров одни и те же. Все делают одно и то же, просто сервисы немного отличаются. Но, если вы комфортно чувствуете себя с каким-то одним облаком, вам не составит огромного труда попробовать другое, так как вы будете понимать принципы. Поэтому, это не критически важно, какое конкретное облако вы выберете для изучения. Главное, не хватайтесь за все))Толку от такого изучения будет мало.