Когда проблемы обработки данных в больших масштабах были решены, появился вопрос об удобстве управления ими. lakeFS — инструмент, который упрощает версионирование данных, добавляя в Data Lake контроль версий.
Itai Admi выступит на SmartData с рассказом о lakeFS и покажет, как контроль версий упрощает эксперименты, воспроизведение и обеспечение качества данных. Еще он расскажет о модели данных graveler и рассмотрит реальный случай использования LakeFS.
Подробности и билеты: https://vk.cc/c5pR8K
Itai Admi выступит на SmartData с рассказом о lakeFS и покажет, как контроль версий упрощает эксперименты, воспроизведение и обеспечение качества данных. Еще он расскажет о модели данных graveler и рассмотрит реальный случай использования LakeFS.
Подробности и билеты: https://vk.cc/c5pR8K
TechTrain возвращается! Choo-choo!
TechTrain 2021 Autumn пройдет онлайн 18 сентября. Начало — в 11:45 по Москве (GMT+3)
По традиции, перед стартом сезона конференций мы проверим в бою все системы, а вы сможете посмотреть 8 докладов по разным технологиям и направлениям от крутых экспертов. Будет и про Java, и про Kotlin, и про DevOps, и про дата-инжиниринг, и про многое другое. Обещаем, не заскучаете!
– Сергей Платонов, «Genode — фреймворк для создания операционных систем»;
– Александр Тарасов, «Эволюционная инфраструктура: Перезагрузка»;
– Семен Осипов, «Дикий Запад: Кто такие дата-инженеры и почему они так сильно отличаются друг от друга»;
– Антон Архипов, «Мои любимые возможности в Kotlin»;
– Тагир Валеев, «Java 17 для тех, кто в танке»;
– Дмитрий Гордин, «Борьба за FPS и Android-камера»;
– Филипп Бочаров, «Зачем нам наблюдаемость IT-продуктов и как ее достичь»;
– Егор Малькевич, «Тренды Node.js для тех, кто спешит».
Участие бесплатное, нужно только зарегистрироваться: https://vk.cc/c5wGBo
TechTrain 2021 Autumn пройдет онлайн 18 сентября. Начало — в 11:45 по Москве (GMT+3)
По традиции, перед стартом сезона конференций мы проверим в бою все системы, а вы сможете посмотреть 8 докладов по разным технологиям и направлениям от крутых экспертов. Будет и про Java, и про Kotlin, и про DevOps, и про дата-инжиниринг, и про многое другое. Обещаем, не заскучаете!
– Сергей Платонов, «Genode — фреймворк для создания операционных систем»;
– Александр Тарасов, «Эволюционная инфраструктура: Перезагрузка»;
– Семен Осипов, «Дикий Запад: Кто такие дата-инженеры и почему они так сильно отличаются друг от друга»;
– Антон Архипов, «Мои любимые возможности в Kotlin»;
– Тагир Валеев, «Java 17 для тех, кто в танке»;
– Дмитрий Гордин, «Борьба за FPS и Android-камера»;
– Филипп Бочаров, «Зачем нам наблюдаемость IT-продуктов и как ее достичь»;
– Егор Малькевич, «Тренды Node.js для тех, кто спешит».
Участие бесплатное, нужно только зарегистрироваться: https://vk.cc/c5wGBo
Казалось бы, что может быть проще, чем вставить данные в БД? Но ClickHouse не так прост, и иногда данные теряются, дублируются или вообще не вставляются.
Артём Шутак выступит на SmartData 2021 с рассказом о решении этих проблем. Он рассмотрит все популярные кейсы вставки данных в ClickHouse. Доклад будет интересен всем инженерам, планирующим внедрить ClickHouse в свою экосистему, а формат Tips & Tricks подойдет для тех, кто хочет понять возможные проблемы и способы их решения.
Подробности и билеты — на сайте конференции: https://vk.cc/c5RRzY
Артём Шутак выступит на SmartData 2021 с рассказом о решении этих проблем. Он рассмотрит все популярные кейсы вставки данных в ClickHouse. Доклад будет интересен всем инженерам, планирующим внедрить ClickHouse в свою экосистему, а формат Tips & Tricks подойдет для тех, кто хочет понять возможные проблемы и способы их решения.
Подробности и билеты — на сайте конференции: https://vk.cc/c5RRzY
Запрос на интерактивную обработку данных растет, и есть ряд инструментов, которые позволяют упростить организацию этого процесса.Но аналитические запросы медленны, ETL все также занимает всю ночь и большинство данных в облаке никому не нужны. А еще они опять схему данных поменяли в источнике! Можно ничего не копировать? Да: использовать Trino или его конкурентов (Dremio, Drill).
Артем Алиев на SmartData 2021 расскажет о PrestoDB и Trino, зародившихся в Facebook для предоставления интерактивного доступа к данным, хранящимся в Hive/Hadoop. Он расскажет о скрытых возможностях этих инструментов, работе с данными из первоисточников, объединении и обогащении их, запросах с субсекундной скоростью. Доклад для инженеров и архитекторов, которым интересно узнать о новых сценариях интеграции источников данных и подробностях реализации Trino.
Подробности и билеты: https://vk.cc/c5Kzto
Артем Алиев на SmartData 2021 расскажет о PrestoDB и Trino, зародившихся в Facebook для предоставления интерактивного доступа к данным, хранящимся в Hive/Hadoop. Он расскажет о скрытых возможностях этих инструментов, работе с данными из первоисточников, объединении и обогащении их, запросах с субсекундной скоростью. Доклад для инженеров и архитекторов, которым интересно узнать о новых сценариях интеграции источников данных и подробностях реализации Trino.
Подробности и билеты: https://vk.cc/c5Kzto
Роль инженера данных важна и критична. Но какими скиллами он должен обладать, насколько хорошо знать код, алгоритмы и data science?
Дмитрий Аношин, проработав 10 лет в отрасли, выделил два типа инженеров данных — Gentle и Hardcore. О них он расскажет в своем докладе на SmartData 2021. Приходите послушать Дмитрия, если хотите лучше разобраться в значении профессии “инженер данных” или победить синдром самозванца.
Подробности и билеты: https://vk.cc/c5U9Eq
Дмитрий Аношин, проработав 10 лет в отрасли, выделил два типа инженеров данных — Gentle и Hardcore. О них он расскажет в своем докладе на SmartData 2021. Приходите послушать Дмитрия, если хотите лучше разобраться в значении профессии “инженер данных” или победить синдром самозванца.
Подробности и билеты: https://vk.cc/c5U9Eq
Сегодня каждая компания — это софтверная компания и завтра каждый сотрудник может стать дата-аналитиком! А в работе с данными всегда актуален вопрос скорости их поставки.
Виктор Кесслер на SmartData 2021 расскажет об инструменте, который позволит убрать часть лишней работы и ускорить time-to-market для данных. Его доклад посвящен концепции Data Lakehouse, её преимуществам и недостаткам, а также платформе Dremio, которая позволяет пользователям самостоятельно анализировать данные. Вы узнаете, как контролировать изменения в данных и почему для аналитики важна открытая архитектура.
Заходите за подробностями и билетами на сайт конференции: https://vk.cc/c5Gjpu
Виктор Кесслер на SmartData 2021 расскажет об инструменте, который позволит убрать часть лишней работы и ускорить time-to-market для данных. Его доклад посвящен концепции Data Lakehouse, её преимуществам и недостаткам, а также платформе Dremio, которая позволяет пользователям самостоятельно анализировать данные. Вы узнаете, как контролировать изменения в данных и почему для аналитики важна открытая архитектура.
Заходите за подробностями и билетами на сайт конференции: https://vk.cc/c5Gjpu
Евгений Ермаков и Николай Гребенщиков возвращаются на SmartData 2021 с продолжением рассказа о якорном моделировании в DWH Яндекс GO. Полтора года назад они начали создавать детальный слой, используя современный подход — Anchor Modeling. Но мечты о красивой архитектуре столкнулись с реальностью.
Спикеры осветят полуторагодовой путь перехода на Greenplum (который еще далек от завершения) и расскажут о внутренностях этой СУБД. Это первый доклад о якорном моделировании в Greenplum и он хорошо показывает, как архитектуры натягиваются на реальность.
Подробности и билеты: https://vk.cc/c5VXN9
Спикеры осветят полуторагодовой путь перехода на Greenplum (который еще далек от завершения) и расскажут о внутренностях этой СУБД. Это первый доклад о якорном моделировании в Greenplum и он хорошо показывает, как архитектуры натягиваются на реальность.
Подробности и билеты: https://vk.cc/c5VXN9
Чем заняться вечером пятницы? Разумеется, читать программу SmartData! Теперь, когда она сформирована, стало можно увидеть описания всех докладов в одном посте, а не только прыгать по страницам сайта: https://habr.com/p/577864/
Habr
Обзор программы SmartData 2021
Совсем скоро в онлайне стартует SmartData 2021 . По названию конференции уже понятно, что она посвящена работе с данными, но не все так просто. Это достаточно обширная тема, в которой можно заниматься...
Представьте, что компании нужно выстроить аналитическую платформу, включающую сбор данных с сервисов, доставку до слоев хранения (Data Lake, детализированные данные, витрины), выполнение расчетов (batching, streaming) и интеграцию с BI-инструментами (отчетность, ML).
На SmartData 2021 Николай Голов, глава Data Engineering в ManyChat расскажет, как команда за полтора года решила эту задачу полностью в облаках (AWS), выбирая новейшие инструменты и минимизируя затраты. Николай покажет, как выбирались решения на каждом этапе, расскажет о возможных рисках и подведет итоги работы.
За подробностями и билетами заходите на сайт конференции: https://vk.cc/c6kb8r
На SmartData 2021 Николай Голов, глава Data Engineering в ManyChat расскажет, как команда за полтора года решила эту задачу полностью в облаках (AWS), выбирая новейшие инструменты и минимизируя затраты. Николай покажет, как выбирались решения на каждом этапе, расскажет о возможных рисках и подведет итоги работы.
За подробностями и билетами заходите на сайт конференции: https://vk.cc/c6kb8r
SmartData ищет модераторов для дискуссий!
Если вы хотите стать частью конференции, присылайте заявку.
Требования:
— Локация — любое удобное место со стабильным интернетом (подключение будет дистанционным);
— Четкая дикция;
— Умение следить за ходом дискуссии, слушать людей;
— Умение поддержать диалог;
— Умение быстро ориентироваться в ситуации, разбавлять эфир шутками, вовремя и тактично остановить спикера.
Необязательно, но было бы круто:
— Опыт публичных или эфирных выступлений;
— Интерес к тематике (быть экспертом необязательно, но важно хотя бы минимально ориентироваться).
Чем предстоит заниматься:
— В каждый из дней конференции участвовать в 2-3 тематических дискуссиях;
— Следить за чатом, выбирать интересные вопросы, озвучивать их спикеру;
— Следить за ходом дискуссий, вовремя давать и забирать слово у выступающих;
— Возможно, участвовать в брифах с участниками дискуссий.
С нас:
— Билет на конференцию;
— Денежное вознаграждение.
Анкета: https://ru.surveymonkey.com/r/VM5P96N
Если вы хотите стать частью конференции, присылайте заявку.
Требования:
— Локация — любое удобное место со стабильным интернетом (подключение будет дистанционным);
— Четкая дикция;
— Умение следить за ходом дискуссии, слушать людей;
— Умение поддержать диалог;
— Умение быстро ориентироваться в ситуации, разбавлять эфир шутками, вовремя и тактично остановить спикера.
Необязательно, но было бы круто:
— Опыт публичных или эфирных выступлений;
— Интерес к тематике (быть экспертом необязательно, но важно хотя бы минимально ориентироваться).
Чем предстоит заниматься:
— В каждый из дней конференции участвовать в 2-3 тематических дискуссиях;
— Следить за чатом, выбирать интересные вопросы, озвучивать их спикеру;
— Следить за ходом дискуссий, вовремя давать и забирать слово у выступающих;
— Возможно, участвовать в брифах с участниками дискуссий.
С нас:
— Билет на конференцию;
— Денежное вознаграждение.
Анкета: https://ru.surveymonkey.com/r/VM5P96N
Одной из основных тенденций в бизнес-аналитике становится использование решений класса Self-service BI.
Николай Валиотти на SmartData 2021 покажет, как создается Self-service BI на примере датасета магазина электронной коммерции. Николай расскажет о системе контроля версий для построения модели данных, рассмотрит лучшие практики и представит инструмент Looker. Рекомендуем доклад всем, кто хочет развивать self-service подход в своей компании.
Подробности и билеты: https://vk.cc/c6F0fX
Николай Валиотти на SmartData 2021 покажет, как создается Self-service BI на примере датасета магазина электронной коммерции. Николай расскажет о системе контроля версий для построения модели данных, рассмотрит лучшие практики и представит инструмент Looker. Рекомендуем доклад всем, кто хочет развивать self-service подход в своей компании.
Подробности и билеты: https://vk.cc/c6F0fX
Задача всех, кто работает с данными — не только передавать их из точки А в точку Б, но и делать инфраструктуру удобнее.
Дмитрий Бугайченко на SmartData 2021 расскажет об опыте Сбера в организации работы с данными. Вы узнаете, как эволюционировали подходы к выделению вычислительных ресурсов и организации доступа, как менялся набор инструментов и подходов к моделированию, как развивались подходы к выводу результатов в промышленную эксплуатацию. Он также расскажет о ролях людей в команде и стеке технологий, где есть как готовые, так и самописные решения. Доклад будет полезен прежде всего практикующим инженерам и лидерам команд, которые хотят лучше работать с ресурсами в области данных.
Подробности и билеты: https://vk.cc/c6Femk
Дмитрий Бугайченко на SmartData 2021 расскажет об опыте Сбера в организации работы с данными. Вы узнаете, как эволюционировали подходы к выделению вычислительных ресурсов и организации доступа, как менялся набор инструментов и подходов к моделированию, как развивались подходы к выводу результатов в промышленную эксплуатацию. Он также расскажет о ролях людей в команде и стеке технологий, где есть как готовые, так и самописные решения. Доклад будет полезен прежде всего практикующим инженерам и лидерам команд, которые хотят лучше работать с ресурсами в области данных.
Подробности и билеты: https://vk.cc/c6Femk
Удивительный факт — Apache Spark иногда хранит данные на диске. И, конечно же, это замедляет их обработку.
Jacek Laskowski на SmartData 2021 заглянет во внутренности Spark и расскажет, как сделать его быстрее, заставив работать только с ОЗУ.
Подробности и билеты: https://vk.cc/c6Fbt1
Jacek Laskowski на SmartData 2021 заглянет во внутренности Spark и расскажет, как сделать его быстрее, заставив работать только с ОЗУ.
Подробности и билеты: https://vk.cc/c6Fbt1
С темой оптимизации распределенных запросов в SQL-движках сталкивается почти каждый дата инженер. И если с запросом что-то идет не так, то знание матчасти поможет быстро решить эту проблему.
Владимир Озеров и Алексей Гончарук на SmartData 2021 расскажут, как заставить распределенные SQL-движки эффективно обрабатывать данные, расположенные на нескольких серверах. Из доклада вы узнаете о техниках, которые для этого применяются, и о принципах работы оптимизатора распределенных запросов. А еще получите море ссылок на первоисточники для подробного изучения этой темы.
Узнать подробности и выбрать билеты можно на сайте конференции: https://vk.cc/c6FisJ
Владимир Озеров и Алексей Гончарук на SmartData 2021 расскажут, как заставить распределенные SQL-движки эффективно обрабатывать данные, расположенные на нескольких серверах. Из доклада вы узнаете о техниках, которые для этого применяются, и о принципах работы оптимизатора распределенных запросов. А еще получите море ссылок на первоисточники для подробного изучения этой темы.
Узнать подробности и выбрать билеты можно на сайте конференции: https://vk.cc/c6FisJ
Тема идентификации пользователей стала особенно актуальна в связи с последовательным ужесточением работы механизмов трекинга в браузерах и необходимостью выполнять законодательства типа 152-ФЗ и GDPR. Новые ограничения ведут к новым требованиям к работе библиотек фингерпринтинга, векторизации клиентских идентификаторов, работе с коллизиями, сшиванию и расшиванию юзеров и т.п.
Артур Хачуян — один из наиболее известных российских экспертов в области отслеживания поведения пользователей в интернете. Его багаж технических наработок в этой области огромен, и он поделится им с участниками SmartData 2021. Артур расскажет о технических аспектах построения кросс ID для веб-аналитики. Доклад будет полезен всем, кто работает с отслеживанием интернет-активности пользователей своих сервисов и пытается строить корректные и быстрые системы трекинга, отвечающие последним техническим и юридическим реалиям.
Подробности и билеты: https://vk.cc/c6HQNd
Артур Хачуян — один из наиболее известных российских экспертов в области отслеживания поведения пользователей в интернете. Его багаж технических наработок в этой области огромен, и он поделится им с участниками SmartData 2021. Артур расскажет о технических аспектах построения кросс ID для веб-аналитики. Доклад будет полезен всем, кто работает с отслеживанием интернет-активности пользователей своих сервисов и пытается строить корректные и быстрые системы трекинга, отвечающие последним техническим и юридическим реалиям.
Подробности и билеты: https://vk.cc/c6HQNd
SmartData 2021 стартует уже сегодня!
Нам очень хотелось бы, чтобы усилия команды организаторов и программного комитета оценило как можно больше людей. Поэтому мы решили сделать доступ к четвертому дню конференции свободным для всех желающих.
В билет бесплатного дня входит:
– 8 докладов: например, среди них «Рабочее место D-people — опыт Сбер» от Дмитрия Бугайченко, «How an analytical database stopped me smoking: A practical story with Exasol» от Valerie Wiedemann и Christian Langmayr, а также «Воркшоп. Делаем жизнь инженеров проще с Big Data Tools» от Паши Финкельштейна;
– Дискуссии после каждого доклада, где можно пообщаться со спикером;
– «Разговор в телевизоре» — вещание из главной студии;
– Возможность поучаствовать в играх, квизах, конкурсах и других активностях от партнеров конференции — там можно не только круто провести время, но и получить ценные призы;
– Виртуальная выставка конференции;
– Чаты, где сидят ваши коллеги со всего мира.
Регистрация на бесплатный день: https://vk.cc/c6O01a
Нам очень хотелось бы, чтобы усилия команды организаторов и программного комитета оценило как можно больше людей. Поэтому мы решили сделать доступ к четвертому дню конференции свободным для всех желающих.
В билет бесплатного дня входит:
– 8 докладов: например, среди них «Рабочее место D-people — опыт Сбер» от Дмитрия Бугайченко, «How an analytical database stopped me smoking: A practical story with Exasol» от Valerie Wiedemann и Christian Langmayr, а также «Воркшоп. Делаем жизнь инженеров проще с Big Data Tools» от Паши Финкельштейна;
– Дискуссии после каждого доклада, где можно пообщаться со спикером;
– «Разговор в телевизоре» — вещание из главной студии;
– Возможность поучаствовать в играх, квизах, конкурсах и других активностях от партнеров конференции — там можно не только круто провести время, но и получить ценные призы;
– Виртуальная выставка конференции;
– Чаты, где сидят ваши коллеги со всего мира.
Регистрация на бесплатный день: https://vk.cc/c6O01a
Вы потратили уйму рабочего времени на настройку базы данных, но ее производительность все еще низкая? А что, если при работе с большими наборами данных часть работы DBA будет выполнять искусственный интеллект?
Valerie Wiedemann и Christian Langmayr на SmartData 2021 расскажут об Exasol — аналитической базе данных. Вы узнаете, что у нее внутри и как она может помочь вам в создании BI-бэкенда. Спикеры продемонстрируют работу Exasol на примере финансовой базы данных с миллионами транзакций и то, как машинное обучение для обнаружения мошенничества может быть перенесено в базу данных.
Подробности и билеты: https://vk.cc/c6P5ej
Valerie Wiedemann и Christian Langmayr на SmartData 2021 расскажут об Exasol — аналитической базе данных. Вы узнаете, что у нее внутри и как она может помочь вам в создании BI-бэкенда. Спикеры продемонстрируют работу Exasol на примере финансовой базы данных с миллионами транзакций и то, как машинное обучение для обнаружения мошенничества может быть перенесено в базу данных.
Подробности и билеты: https://vk.cc/c6P5ej
Зима близко! Участвуйте в розыгрыше от IT_One и выиграйте зимний набор из шапки, шарфа, рюкзака и термоса. Никаких квестов, нужно только зарегистрироваться. Пятерых везунчиков выберут рандомом в Zoom 14 октября в 18:10 по Москве. Удачи!
А в среду ее сотрудники ждут вас на вебинаре о компании. Приходите послушать о жизни в IT_One, ее проектах и развитии. Кстати, в конце выберут три лучших вопроса от участников, а их авторы получат уютные свитшоты. Начало — в 19:00.
Сегодня AvitoTech приготовили для вас доклад «DWH как продукт». Евгений Николаев расскажет, как продуктовый подход к разработке платформы помогает решать десятки аналитических задач ежедневно без постоянного роста команды. Начало — в 17:00.
А еще команда AvitoTech запилила для вас игру «Навалилось». Станьте зверем-тестировщиком, который следит за разработчиками и не пускает баги в прод. 14 октября в 20:00 назовут игроков с самым большим количеством очков, и они станут обладателями фирменного мерча.
Подробности ищите на live.jugru.org
А в среду ее сотрудники ждут вас на вебинаре о компании. Приходите послушать о жизни в IT_One, ее проектах и развитии. Кстати, в конце выберут три лучших вопроса от участников, а их авторы получат уютные свитшоты. Начало — в 19:00.
Сегодня AvitoTech приготовили для вас доклад «DWH как продукт». Евгений Николаев расскажет, как продуктовый подход к разработке платформы помогает решать десятки аналитических задач ежедневно без постоянного роста команды. Начало — в 17:00.
А еще команда AvitoTech запилила для вас игру «Навалилось». Станьте зверем-тестировщиком, который следит за разработчиками и не пускает баги в прод. 14 октября в 20:00 назовут игроков с самым большим количеством очков, и они станут обладателями фирменного мерча.
Подробности ищите на live.jugru.org
JetBrains Projector — инструмент, позволяющей запускать на удаленных серверах IDE на основе IntelliJ и произвольные приложения на фреймворке Swing. Приходите на доклад Олега Чирухина, чтобы познакомиться с Projector'ом поближе. Олег покажет его подкапотное пространство и расскажет о том, что он умеет. Начало — в 18:00.
Паша Финкельштейн из JetBrains — человек с огромным опытом от разработки и дата-инженерии до менеджмента и системного администрирования. Но он не только много знает, но еще любит и умеет рассказывать.
Сегодня Олег Чирухин возьмет у него интервью, в котором задаст много вопросов о Data Engineering: что на данный момент можно считать трендами в этой области, из чего состоит работа инженера данных и как менялась сфера последние несколько лет. Готовьте свои вопросы и присоединяйтесь! Начало — в 17:00.
Сегодня Олег Чирухин возьмет у него интервью, в котором задаст много вопросов о Data Engineering: что на данный момент можно считать трендами в этой области, из чего состоит работа инженера данных и как менялась сфера последние несколько лет. Готовьте свои вопросы и присоединяйтесь! Начало — в 17:00.
Как сказал о ML один мудрый человек, счастливые дата-саентисты счастливы одинаково, но каждый несчастный дата-саентист несчастлив по-своему. Узнали? Согласны?
Сегодня в своем докладе Дмитрий Гронский расскажет о том, как живется MLOps в Ozon Tech. Вы узнаете, какая у них есть специфика инфраструктуры и работы DS-команд, как команды воевали с ETL-пайплайнами, обучением и трекингом ML-моделей и многое другое. Начало — в 18:00 по Москве.
Сегодня в своем докладе Дмитрий Гронский расскажет о том, как живется MLOps в Ozon Tech. Вы узнаете, какая у них есть специфика инфраструктуры и работы DS-команд, как команды воевали с ETL-пайплайнами, обучением и трекингом ML-моделей и многое другое. Начало — в 18:00 по Москве.