topdatalab
Две плохие новости за последний месяц: Fivetran купила SQLMesh и dbt. Почему это плохо. SQLMesh относительно молодая компания, ей около трех лет. То, что ее продали, означает, что они не смогли сделать выручку или не хватило амбиций фаундеров. Думаю, что…
DBT - один из самых полезных инструментов для инжиниринга данных.
Видимо, пришло время сделать свой аналог, свободный от окукливания большими жадными корпорациями. Заодно проделать работу над ошибками, потому как некоторые вещи ужас как неудобно делать.
Расскажите, что для вас удобно и неудобно в DBT и SQL Mesh.
Видимо, пришло время сделать свой аналог, свободный от окукливания большими жадными корпорациями. Заодно проделать работу над ошибками, потому как некоторые вещи ужас как неудобно делать.
Расскажите, что для вас удобно и неудобно в DBT и SQL Mesh.
Следующее пристанице самурая данных - Форум "Открытые Данные", Казань 30-31 октября.
Докладываю о современных подходах к построению облаков данных.
https://opendataforum.ru/
Докладываю о современных подходах к построению облаков данных.
https://opendataforum.ru/
👍11 3❤2
Мясная статья от коллег с измерением скорости Lakehouse движков
https://habr.com/ru/companies/cedrusdata/articles/955896/
https://habr.com/ru/companies/cedrusdata/articles/955896/
Хабр
Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех
Clickbait-картинка В этой статье мы детально рассмотрим поведение аналитических движков при выполнении TPC-DS запроса Q1 на одном узле. Этот ограниченный тест даст нам столько информации к...
👍10😁5❤2
На вот этот вебинар запишитесь!
https://cloud.vk.com/events/migraciya-prilozheniya-kak-perenesti-infrastrukturu-s-monolita-v-upravlyaemyj-kubernetes-v-oblake
Ведут два абсолютных "отца" кубера и облачных миграций.
Сам точно буду смотреть, так как местами мои познания в кубернетесе оставляют желать, а в Лейкхаусах он ой как нужен.
https://cloud.vk.com/events/migraciya-prilozheniya-kak-perenesti-infrastrukturu-s-monolita-v-upravlyaemyj-kubernetes-v-oblake
Ведут два абсолютных "отца" кубера и облачных миграций.
В прямом эфире показываем на реальном примере перенос приложения в Kubernetes с сервисом Cloud Containers. Разбираем распространенные типичные ошибки при миграции.
Сам точно буду смотреть, так как местами мои познания в кубернетесе оставляют желать, а в Лейкхаусах он ой как нужен.
👍7✍2❤2
Написали большой хабрапост о внутрянке формата айсберг.
Постарался раскрыть вопросы
1️⃣ Как перейти от навала файлов в S3/HDFS до хорошего Data Lake[House]
2️⃣ Зачем нужны все эти сложности с вложенной древовидной метадатой
3️⃣ Откуда берется ACID в не ACID-ном хранилище S3.
4️⃣ Какие процедуры поддержки требуется применить к DLH на айсберге.
Вопросы как всегда можно задать в коментах.
Постарался раскрыть вопросы
Вопросы как всегда можно задать в коментах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Больше чем просто данные в S3. Iceberg как основа архитектуры Next-Gen КХД
Традиционные форматы хранения данных постепенно перестают удовлетворять требованиям современных распределенных вычислений и аналитики больших данных. Каскадные обновления метаданных, проблемы...
🔥12❤5✍1👍1
Архитектор Данных
Написали большой хабрапост о внутрянке формата айсберг. Постарался раскрыть вопросы 1️⃣ Как перейти от навала файлов в S3/HDFS до хорошего Data Lake[House] 2️⃣ Зачем нужны все эти сложности с вложенной древовидной метадатой 3️⃣ Откуда берется ACID в не ACID…
Telegram
Архитектор Данных
Запись вебинара
https://vk.com/video-164978780_456239739
https://vk.com/video-164978780_456239739
🔥9❤2👍2 2
Вот так новости
Workspace - корпоративный мессенджер, который ставится в инфраструктуру вашей компании (а еще корп почта, звонки, таск-трекер, облако для файлов, офис и тд)
Макс - все знаем что
Можно будет создать чат с подрядчиком или кандидатом, в котором будут с одной стороны внутри-корповые учетки, доступные из VK Workspace / Teams, а с другой стороны - внешние люди из Макса.
Это как если в корп слак можно было бы добавить по приглашению рандомных людей из телеги и переписываться бесшовно для всех участников.
Как по мне - удобно, я порядком замучался копипастить разную информацию из корпового мессенджера в телегу и обратно 😄
Workspace - корпоративный мессенджер, который ставится в инфраструктуру вашей компании (а еще корп почта, звонки, таск-трекер, облако для файлов, офис и тд)
Макс - все знаем что
Можно будет создать чат с подрядчиком или кандидатом, в котором будут с одной стороны внутри-корповые учетки, доступные из VK Workspace / Teams, а с другой стороны - внешние люди из Макса.
Это как если в корп слак можно было бы добавить по приглашению рандомных людей из телеги и переписываться бесшовно для всех участников.
Как по мне - удобно, я порядком замучался копипастить разную информацию из корпового мессенджера в телегу и обратно 😄
🤡14👏8👍4❤3💩3💊3⚡1
Разговоры на архитекторском: ML платформа.
13 ноября мы проведем вторую серию «Разговоров на архитекторском» и в этот раз коснемся индустриальных ML платформ.
Эксперт - руководитель разработки и ML OPS в крупной технологичной компании, которую вы все знаете.
Темы.
1️⃣ Платформа инференса в 2025 году. Как построить и как грамотно утилизировать большой парк современных GPU
2️⃣ Классический ML и трансформерный ИИ. Может ли существовать одно без другого.
3️⃣ Если ты стажер или джун и хочешь в ML, на что тебе стоит обратить внимание и что изучить
Всех ждем на стриме 13-го ноября вечером. Приходите и приводите друзей!
—————————————————
Первая часть «разговоров», где мы общались о внедрении Lakehouse с Вадимом, руководителем разработки платформы данных Х5, ждет вас в виде разбора тут или в видео формате в плейлисте
13 ноября мы проведем вторую серию «Разговоров на архитекторском» и в этот раз коснемся индустриальных ML платформ.
Эксперт - руководитель разработки и ML OPS в крупной технологичной компании, которую вы все знаете.
Темы.
Всех ждем на стриме 13-го ноября вечером. Приходите и приводите друзей!
—————————————————
Первая часть «разговоров», где мы общались о внедрении Lakehouse с Вадимом, руководителем разработки платформы данных Х5, ждет вас в виде разбора тут или в видео формате в плейлисте
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Архитектор Данных
Инсайды из «Разговоров на архитекторском» с Вадимом Беловым, Head of DMP X5.
Про хранилища данных
1️⃣ Зрелое хранилище - это когда процессы-потребители данных ходят в ХД напрямую, минуя этап обратного ETL, загрузки данных батчами из подготовленных витрин…
Про хранилища данных
1️⃣ Зрелое хранилище - это когда процессы-потребители данных ходят в ХД напрямую, минуя этап обратного ETL, загрузки данных батчами из подготовленных витрин…
🔥13👍3❤2😎2
На форуме «Открытые данные» в Казани.
На техническом треке рассказал про гибкие подходы в организации данных, про облака и лейкхаусы.
На техническом треке рассказал про гибкие подходы в организации данных, про облака и лейкхаусы.
1❤13👍9 4
О технологических зонах и цифровых «железных занавесах»
Михаил Токовинин сгущает краски, говоря о том что мир распадается на несколько технологических зон с железными занавесами между.
С точки зрения технологий данных эффект разделения на зоны есть. В западной зоне почти все проблемы решаются Амазоном, Датабриксом и Сноуфлейком. В российской зоне и данных поменьше, и технологии другие, и практики компаний отличаются, к примеру, у всех все еще аллергия на облака. В Китае либо свои опенсорсы, редко применяемые вовне, либо свои реализации вендоров.
Это приводит к тому что если ты специалист в области данных, то еще декаду назад ты мог путешествовать между зонами и твои навыки вполне бы пригождались - всюду были одинаковые ораклы и майкрософт-стеки. А сейчас - нужен ты кому-то там со своим Гринпламом и НайФаем.
Также барьер стоит для компаний, стремящихся вывести свои разработки на соседний рынок. Ты вынужден сделать по сути новый продукт, который должен смочь работать с непривычными для него интеграциями, другой регуляторикой, другими привычками пользователя.
Одним словом, хорошая новость в том что на твой маленький рыночек, где нужна интеграция с 1С и VK/Яндекс-сервисами, никто отбирать твою долю не придет. С другой стороны - вывести свой продукт на рынок сопредельных стран будет кратно сложнее чем раньше.
———————————-
Архитектор данных
Михаил Токовинин сгущает краски, говоря о том что мир распадается на несколько технологических зон с железными занавесами между.
С точки зрения технологий данных эффект разделения на зоны есть. В западной зоне почти все проблемы решаются Амазоном, Датабриксом и Сноуфлейком. В российской зоне и данных поменьше, и технологии другие, и практики компаний отличаются, к примеру, у всех все еще аллергия на облака. В Китае либо свои опенсорсы, редко применяемые вовне, либо свои реализации вендоров.
Это приводит к тому что если ты специалист в области данных, то еще декаду назад ты мог путешествовать между зонами и твои навыки вполне бы пригождались - всюду были одинаковые ораклы и майкрософт-стеки. А сейчас - нужен ты кому-то там со своим Гринпламом и НайФаем.
Также барьер стоит для компаний, стремящихся вывести свои разработки на соседний рынок. Ты вынужден сделать по сути новый продукт, который должен смочь работать с непривычными для него интеграциями, другой регуляторикой, другими привычками пользователя.
Одним словом, хорошая новость в том что на твой маленький рыночек, где нужна интеграция с 1С и VK/Яндекс-сервисами, никто отбирать твою долю не придет. С другой стороны - вывести свой продукт на рынок сопредельных стран будет кратно сложнее чем раньше.
———————————-
Архитектор данных
Telegram
Mikhail Tokovinin
Можете называть это технологической изоляцией, можете технологическим суверенитетом, но мир на наших глазах разваливается на изолированные технологические зоны.
И речь не только про технологии, речь про всю цифровую инфраструктуру, законы, среду. Просто…
И речь не только про технологии, речь про всю цифровую инфраструктуру, законы, среду. Просто…
👍10🔥4 3🤔2😱2
О технологических зонах и цифровых «железных занавесах» - 2.
Про чисто пользовательский опыт или про туризм - я спокоен.
Простое наблюдение.
Не так давно я жил в районе ВДНХ. Там много китайских туристов. Прямо напротив большой гостиницы расположен красивый магазин Азбука Вкуса. При появлении на кассе группы китайских товарищей вопрос оплаты ВиЧатом решался очень быстро. Появлялся терминал, который отлично понимал китайские порядки и работал в их технологической зоне.
Так что да, перед тем как поехать в Китай туристом, надо будет почитать, как там работает такси и оплачиваются проезд на электричке. Вряд ли для кого-то сюрприз, что Яндекс-такси и карта тройка там работать перестанут.
Я предвижу появление специальных приложений враперов между технологическими зонами. Вот просто на русторе скачиваете «такси в Китае» и ездите там. Аналогично с различными бизнес-помогаями, которые объясняют как ТАМ все устроено и например пишут интеграции с тамошними яндексами/вк/госуслугами в ваши приложения.
На этом вполне можно зарабатывать большие деньги, работая окошком в «железном занавесе».
———————————————
Архитектор данных
Про чисто пользовательский опыт или про туризм - я спокоен.
Простое наблюдение.
Не так давно я жил в районе ВДНХ. Там много китайских туристов. Прямо напротив большой гостиницы расположен красивый магазин Азбука Вкуса. При появлении на кассе группы китайских товарищей вопрос оплаты ВиЧатом решался очень быстро. Появлялся терминал, который отлично понимал китайские порядки и работал в их технологической зоне.
Так что да, перед тем как поехать в Китай туристом, надо будет почитать, как там работает такси и оплачиваются проезд на электричке. Вряд ли для кого-то сюрприз, что Яндекс-такси и карта тройка там работать перестанут.
Я предвижу появление специальных приложений враперов между технологическими зонами. Вот просто на русторе скачиваете «такси в Китае» и ездите там. Аналогично с различными бизнес-помогаями, которые объясняют как ТАМ все устроено и например пишут интеграции с тамошними яндексами/вк/госуслугами в ваши приложения.
На этом вполне можно зарабатывать большие деньги, работая окошком в «железном занавесе».
———————————————
Архитектор данных
Telegram
Архитектор Данных
Алексей, архитектор данных из ВК.
Большие данные и облака.
Для связи @alexbelozersky
Большие данные и облака.
Для связи @alexbelozersky
❤10👍5 4👏1 1