Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Bert
Data Engineer.pdf
46.5 KB
@channel Всем привет💡. Anatolii Balakiriev закончил создание видеокурса по SQL для начинающих. Это самый детальный курс для новичков.

Вот его сообщение:

Для меня это интересный опыт объяснить материал простыми словами.

Курс рассчитан на тех, кто ранее никогда не работал с базами данных и может стать дополнением к второму модулю курса Getting start with Data Engineering and Analytics
От простого к сложному 🚀
Домашних заданий не предусмотрено поскольку все примеры задач разбираются на уроке и все необходимые файлы будут прикрепляться к каждому уроку.
Курс состоит из 3 модулей (уровней) 📜, каждый модуль состоит из 10 видеоуроков:collision:. Каждый день, в этом канале, буду добавлять по одному уроку

Первый уровень курса уже доступен, переходите по ссылке:
https://github.com/Data-Learn/SQL-for-beginners/blob/main/SQL-101%20Guide.md

Полный список тем, который будут разбираться в видеокурсе:

1⃣ Уровень:
1. Первое знакомство с базами данных
2. pgAdmin, SELECT  и арифметические операции
3. Установка PostgreSQL с pgAdmin себе на компьютер
4. Выборка данных из таблиц, уникальные значения и комментарии
5. Сортировка данных, форматирование кода и ограничение выборки
6. Операторы сравнения. Практика
7. Фильтрация данных с помощью оператора WHERE, оператор BETWEEN,  логические операторы NOT, AND, OR
8. NULL значения и агрегатные функции
9. Группировка значений с помощью GROUP BY, оператор IN
10. Фильтрация агрегируемых данных с помощью HAVING и логический порядок обработки инструкций
Уровень 1. Практика

2⃣ Уровень:
11. Схема данных и руководство по стилю SQL
12. Соединения таблиц, виды соединений, синтаксис
13. Внутреннее соединение (INNER) JOIN
14. Внешнее соединение LEFT JOIN
15. Внешние соединения RIGHT JOIN и FULL JOIN. Первичные (PRIMARY) и внешние (FOREIGN) ключи
16. Перекрестное соединение CROSS JOIN
17. Объединение строк с помощью UNION и UNION ALL. Введение в подзапросы
18. Операторы EXCEPT и INTERSECT, использование USING вместо ON
19. Использование операторов LIKE и CASE, функции для работы с датой и временем, функции для работы со строками
20. Подзапросы (вложенные запросы) и общие табличные выражения (Common Table Expressions, CTE)
Уровень 2. Практика

3⃣ Уровень:
21. Оконные функции в PostgreSQL, так ли они страшны как о них говорят
22. Есть ли жизнь после PostgreSQL
23. Установка Microsoft SQL Server и импорт базы данных AdventureWorks
24. Структура SQL (DDL, DQL, DML, DCL, TCL). Работа с таблицами - создание, наполнение её данными, изменение, удаление
25. Типы данных, оператор TOP. Назад в будущее - вспомним всё
26. Ограничения SQL, ключи. Практика по созданию таблиц и их изменению. Вспоминаем оконные функции. Функции для работы с датами и строками
27. Синонимы. TOP и OFFSET-FETCH фильтры. Табличные операторы APPLY, PIVOT, UNPIVOT. Подзапросы. Рекурсивные CTE. CASE с переменными
28. Представления. Триггеры. Групповые функции
29. Хранимые процедуры. Вычисляемые столбцы. Пользовательские функции. Транзакции и обработка ошибок
30. Планы выполнения запросов. Физические соединения (nested loops, merge joins, hash joins). Индексы
Уровень 3. Завершение курса


https://youtu.be/ri__OyFKluA
❤‍🔥1
Better Data Culture:
- Data as Code
- Data is Owned
- Data Quality is Known for each dataset.
- Accelerate data productivity with data tools optimized for collaboration.
- Organize the data with local data ownership

https://eng.uber.com/ubers-journey-toward-better-data-culture-from-first-principles/
🤬
Сегодня в 12PM PST (через 45 минут) будет митап на английском, если хотите подключайтесь в zoom, Николай расскажет про свой опыт в компании на английском. https://us02web.zoom.us/j/85654558722?pwd=M2F1dzR3dk0wYXhEWDZUSmc0TS9vQT09
Легенда, Chief Evangelist Snowflake - Kent Graziano, очень заинтересовался подходом Николая про 6NF, так как Николай это первый человек, кто использовал такой подход для Snowflake😎
Иметь свое мнение нынче не позволительная роскошь. Особенно для западного мира. Например, в slack Snowflake Community меня сегодня удалили навсегда, то есть я больше не часть их community и вообщем-то меня слили. Потому что, я им сказал (им это их Community Managers в общем чате для всех пользователей), что они охренели совсем, игнорят меня и даже просто не отвечают. Я предположил, что уже community не такое как было в 2018 и 2019, когда оно было отзывчивое и все вместе восхваляли снежинку. Теперь она вышла на IPO, и важна только прибыль компании. Я им тоже намекнул, что возможно они такие не разговорчивые, потому что их stock падает в цене. В общем у них разговор короткий, просто удалить меня везде и все. Так и живем, со своим мнением при себе. 😬 а иначе “давай, досвидания!”🤪

А что касается User Group, Николай классно все рассказал и мы добавим потом видео на YouTube и я скину ссылку.
25 марта я обещал рассказать про Databricks и Delta Lake на Microsoft user Group. Пока у меня немного опыта, но общую идею понял. Вот ссылка на мероприятие: https://www.meetup.com/Victoria-SQL-Server-User-Group/events/276840067/
CEO Tableau, который в 2016 ушел из AWS и сделал довольно много, включая модель subscription по лицензиям, возвращается возглавлять AWS.
Продолжение статья про input metrics по модели Amazon из книги - Working Backwards. Я считаю, что эта книга должна стать настольной для людей, которые работают с данными и принимают решения на основе метрик и фактов.
Быть собой на собеседовании
Попалась вакансия Data Engineer в Ванкувере в Samsung. Мне очень понравились требования, прям идеально на мой взгляд, четко и понятно. На вопрос, кто такой дата инженер и что он делает, я бы показал этот список только без упоминания вендоров.
И ещё новости, сегодня я переехал с острова Ванкувер, в город Ванкувер. На острове я прожил 5 лет. Я мог бы ещё 1-1,5 года быть на острове, но устал. Ковид свое дело сделал, сидеть дома практически в деревне, даже в 5 минутах от океана мы не смогли, мы поняли, что мы городские жители и нам нужны изменения. Но мы не хотели бы делать это абы как, поэтому мы сдали свой дом на острове в рент, и купили Таун Хаус рядом с Ванкувером. Это конечно рисковая комбинация, брать 2ую ипотеку за млн канадских, но где нет рисков, нет профита.

Огромная благодарность Амазону за его акции, которые мне дали 5 лет назад и которые выросли в 5-6 раз и благодаря ним можно было так сделать. И ещё на практики я узнал, что такое рефинансирование ипотеки, что такое налоги на capital gains, как можно выдернуть деньги из equity и использовать их как downpayment. Получается зарплата сама по себе это и не так важно посравнению с тем, что можно сделать с активами и инвестициями. Но это уже совсем другая тема, где я не в теме.

Наш новый адрес имеет красивую улицу Seaview Drive. А вот район - Port Moody звучит грусновато и пасмурно.

И большой респект Microsoft за переезд. Мы будем жить 2 месяца в самом центре Ванкувера с видом на Science World и я договорился, что со след недели пойду в офис, так как работать из дома 2,5 года это было чересчур.

Наверно с этим связана задержка datalearn и моя общая активность.
Всем привет! Вот ссылка на мою презентацию про Databricks и Delta Lake, которая будет сегодня в 12 дня PST. Там есть несколько слайдов про Apache Hudi, Iceberg и Delta Lake. Про эволюцию решения для хранения данных от базы данных к lakehouse. На последнем слайде самая ценная информация - ссылки на лабу Databricks Delta Lake Deep Dive с кодом Python. Это будет в модуле 7 de-101, но когда это будет, так что можете попробовать погонять Python.
SAP Insider Data & Analytics 2021 - конференция SAP про решения аналитики. В России и Европе очень актуально.
Есть возможность написать книгу для PacktPub по Microsoft Data Engineering. Дело непростое и занимает много времени. Как вы знаете я уже писал раньше книги и всегда все доводил до конца. Даже совсем недавно мы сделали книгу про Azure Data Factory. Пишите в комментах если вы прям мечтаете иметь книгу свою, знаете английский, чтобы писать и знаете Microsoft Azure или другой Cloud.
Есть ещё возможность - технический ревьевер, просто читать главу, делать Лабы и писать потом как прошло. Для книги Spark и Delta Lake. Если интересно, можете написать aparnan@packt.com, рассказать вкратце о себе и сказать, что я дал контакт. Тут можно вообще без опыта😉