Архитектор Данных
1.12K subscribers
154 photos
9 videos
2 files
119 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Зачем нужна аналитика

В наши неспокойные времена любому из нас полезно уметь объяснить, зачем мы нужны работодателю и чем полезны для его бизнеса. Актуально это и для аналитики данных, которая, на первый взгляд, не кажется бизнес-критичной функцией.

Краткая памятка, зачем нужна и чем полезна аналитика данных.

📰📰📰📰📰📰
Отчетность

Первое, что приходит в голову, когда говорим про аналитику данных. Собственнику и топам полезно знать в деталях, какой перформанс имеет компания и отдельные ее подразделения. Еще полезнее, когда отчетность доступна не в экселе по запросу через 1-2 дня, а в любой момент в закладке в браузере.

Что требуется для отчетности:
– Понимание ключевых метрик бизнеса. Знать, куда и на что смотреть.
– Процессы по сбору и презентации данных. Хранилище данных и BI.
– Мониторинг качества данных. Смотрим на реальное положение вещей и верим в то, что видим.

📈📈📈📈📈📈
Оптимизация процессов

Перформанс сотрудников на местах заметно растет, если снабдить их релевантными и своевременными данными по их бизнес-процессам. Работать по наитию и на опыте хорошо, но еще лучше если экспертиза и опыт сотрудников дополняются актуальной картиной положения дел в удобной форме. Кроме того, всегда есть риск, что «я всегда так делаю» в какой-то момент сломается, и бизнес потеряет деньги. Важно не упустить этот момент.

Требуется:
– Доменная аналитика в вашей области деятельности
– Аналитики, способные говорить на одном языке со специалистами в области
– Система мотивации, поощряющая сотрудников пользоваться данными для закрытия их KPI. Высокие цели + инструменты их достигнуть.

💰💰💰💰💰💰
Данные как актив

Tesla стоит столько, сколько она стоит во многом потому что у них самый большой датасет для автопилота. У них есть данные, как ведет себя автомобиль, и что видят его камеры-сенсоры в разных странах, в разное время года и дня, в городе и селе, на трассе и на проселке, в пустыне и на крайнем севере. Как только мир понял, что авто будущего это не только электро- но еще и автопилотная, ценность накопленных за 10 лет данных забустила цену компании.

Другой пример. Стартап по ДНК-тестам кошек. Была идея продукта, который принимает мазок изо рта любимого питомца и выдает хозяину набор рекомендаций по здоровью – все как у людей. Сам продукт на окупаемость не вышел. Но стартап продали очень дорого, так как только у них (!) есть большая БД ДНК домашних кошек.

Данные могут дорого стоить. Данные могут растить вашу ценность и капитализацию вашей компании.

Подумайте, какие данные могут быть значимыми в вашей отрасли. Какие тренды есть у вас и какие датасеты понадобятся вам и вашим партнерам завтра.

А хранить данные не слишком дорого. Например в облачном S3.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42👏2
Отчетность

Хорошо когда есть такие "дашборды руководителя" или "дашборды инвестора". На самом деле, это не требует каких-то сверх-усилий, но в таких картинках содержится заметная часть ответа на вопрос "Зачем я вам, олухам, деньги плачу".

За красоту, начальник, красоту и точность!
3👍2👏1
Всем привет!

Врываясь в будни - все еще ищу крутых DBA и DE себе в команду.

https://team.vk.company/vacancy/39575/

Будет много консалтинга по Postgres, Greenplum. Дальше - Trino+Spark+Iceberg Озера данных и Лейкхаусы. У нас уникальная в российских облаках команда Big Data Services. Занимаемся сложными Data проектами на переднем крае технологий.

10к СУБД уже крутятся, прирастают х2 год-к-году и ждут вас!

Откликайтесь на портале или пишите @alexbelozersky
41🔥1
Media is too big
VIEW IN TELEGRAM
Блиц-обзор возможностей и "милых прикольчиков" кластерного Clickhouse.

Прочитано студентам ФКН ВШЭ практически экспромтом. Не судите строго.

#Clickhouse #webinar
👍6🔥31
Милые прикольчики кликхауса.

Postres (и любая нормальная БД) кинет ошибку

SQL Error [22003]: ERROR: integer out of range
👍3🔥21
Forwarded from VK Team
🎄 Любителям DS и ML — Data Ёлка!

Это мини-конференция сообщества Open Data Science, которая в этом году пройдёт в офисе VK и онлайн в VK Видео. Обсудим главные события и тренды отрасли за год, разберём лучшие решения с VK RecSys Challenge, пообщаемся на афтепати, наградим гостей за лучшие вопросы и новогодние костюмы.

🗓 18 января, 12:00 (сбор гостей с 11:00).
🖥 Онлайн в VK Видео — смотрите трансляцию в сообществе VK Team ВКонтакте.
📍 Москва, БЦ Skylight — Ленинградский проспект, 39, строение 79. На входе надо будет показать подтверждение участия и паспорт. Приглашение придёт на email после регистрации.

Встретимся у ёлки! 💙
3🤗21
Про собесы и увольнения

Однажды меня попросили на ТЗ нарисовать схему расположения графа в реляционной БД.

Я написал 8 способов. Рассмотрел случаи простых, направленных, взвешенных графов. Расписал преимущества и недостатки каждого метода. Написал эффективные запросы по различным обходам графов с учетом особенностей различных БД - знал тогда про Oracle (там LEVEL) и Postgres (WITH RECURSIVE). Одним словом, постарался, потому что считал позицию хорошей. В Банк.

Это был Сбер. И это было самая убогая днище позиция за все мои 12 лет. На ней я с руки запускал скрипты по прогрузкам данных в утро, когда у меня родился ребенок. Потому что никакой инфраструктуры не было и никто не понимал, зачем она вообще нужна. Никто из 40 аналитиков в «гильдии» БЮ.

Второй собес был у меня в СберМаркет на позицию руководителя операционной аналитики. Тяжелая должность, но лид лидов, команда 25 человек, правда с наполненностью 50%. Все было неплохо, но потом я увидел менеджера-заказчика аналитики, его повадки, и сбежал как от огня.

В третий раз столкнулся с зелеными где-то год тому назад. На финальном собесе вдруг осознал, что не видел никого из команды и не видел будущего непосредственного руководителя. Хотя оффер уже есть. Все это время получал максимально расплывчатые формулировки о том, что собственно делать надо. Хотя оффер есть.

Вывод. Выводы в том, что есть на свете специфичные организации со специфичными порядками и специфичным менеджментом. Потом стоит ли удивляться, что после очередных вывертов начальства, когда кто-то очередной доуправлялся, вас пачками отправят на мороз, не особо разбираясь. Руководствуясь принципами, сколько дней кто посещает офис.
😱8💯8🤨2
Анонс - Data Lake[House]

В начале февраля буду презентовать Cloud Trino.

Это первый кирпичик в технологии Data Lake / Data LakeHouse. В комплекте идет Iceberg Catalog, который впоследствии может быть подключен к кластерам Trino, Spark, Clickhouse. В итоге будет возможно работать с одним датасетом несколькими сервисами одновременно. Сделали ETL на Спарке, и эти данные сразу же увидели аналитики и BI, подключенные к Трино.

Это пока что в будущем. Пока же первый шаг - кластер Trino + k8s + Iceberg Catalog + S3 Bucket. Все сервисы один-к-одному, то есть нельзя будет подключиться 2 кластерами Трино+Трино или Трино+Спарк к одному бакету.

В комменты обязательно накидайте вопросы по данному набору технологий, которые хотели бы подсветить.

Следите за анонсами, чтобы не пропустить.
🔥13
Нейросети и Китайские комнаты

Есть известный мысленный эксперимент - «Китайская комната». Представим себе ящик, и в нем сидит человек. На вход подаются карточки с фразами на китайском, который сам человек не знает. Но у него есть подробная инструкция, как ему отвечать. Если на вход карточки 1, 50, 100500800, то на выход - 3, 180, 666666. И так система в целом общается с внешним миром. Инструкция максимально детальная и до какой-то степени релевантная. Постоянно обновляется.

Можно ли сказать, что этот человек говорит по-китайски и является носителем китайского языка?

Можно ли считать студента, задрочившего все билеты, знатоком предмета? Можно ли школьника, заточенного под идеальную сдачу ЕГЭ и сдавшего на 100, считать освоившим школьную программу?

Интересный ответ был предложен в романе «Ложная Слепота» Уотсом. Давайте разделим интеллект и разум. Китайская комната обладает интеллектом, но не разумом. Правда, если начать копать в этом вопросе, то выяснится, что и человек-то не слишком разумен.

Я же считаю, что китайская комната не есть интеллект, хотя может быть полезным бизнес-инструментом с кучей оговорок и нюансов. Очень умный попугай не есть эксперт по всем вопросам. Интеллект это способность решать нестандартные задачи нестандартным способом.

И вообще, может ли компьютер сочинить симфонию?
👍6🔥32🤓2
Does this unit have a soul?
Anonymous Poll
55%
Yes
45%
No
Любителям использовать ответы нейросетей как аргумент в спорах посвящается

Далее репост.
Forwarded from БП online
Media is too big
VIEW IN TELEGRAM
Мужчины: «да нет у меня никакой депрессии», также мужчины:

Источник.
😁5
Также посвящается внедрившим API LLM в боты суппорта компаний.

Также надеящимся, что Алиса - грамотный ассистент для домашней работы. Как в романе "Алмазный Век" Нила Стивенсона, ага.
🥴5
Архитектор Данных pinned «Также посвящается внедрившим API LLM в боты суппорта компаний. Также надеящимся, что Алиса - грамотный ассистент для домашней работы. Как в романе "Алмазный Век" Нила Стивенсона, ага.»
Вебинар по Трино и Лейкхаус

Кто пользуется VK Cloud, уже получил приглашение на вебинар по почте.

В телеграме будут рассылки чуть позже

Встречаемся 11 февраля вечером.
🤩52🔥2
Алгосики

Вечная тема в ИТ и (около-)разработческих кругах. Нужны ли? Правильно ли делать алго-секции если ты чуть меньше Яндекса/Авито/Тинька?

Очередной пост у Киры Кузьменко (осторожно много букв!) поднимает тему.

Мое мнение - алгоритмы на собеседованиях в ИТ - это явление из средневекового цеха. Многие ИТ-ники очень стремятся выделить себя в отдельную касту или "цех". Претендуешь попасть в нее - докажи, что ты можешь общаться с нами на равных. Только если разврнешь список рекурсией, мы согласимся что ты не чушпан не подведешь высокое звание ИТ-шника.

А как без алгосиков, скажут иные.

Ловите, к примеру, такой лайвхак.

Первый собес. Находишь тему, которую наш герой а) точно не знает и б) точно нужна на позиции. Глубоко в нее копаешь и четко и прозрачно говоришь - вот это надо. Во-первых, видишь поведение человка, когда он не знает ответ на вопрос. Выкручивается ли? Бегают ли глазки в гугл/ЧатГПТ в соседней вкладке? Уже полезно.

Во-вторых, на следующей встрече повторяешь этот же вопрос. И смотришь, есть ли дельта в знаниях. Отсюда сразу видна тяга/способность к изучению нового и быстро. И мотивация попасть конкретно к тебе.

Придумал это, когда надо было из 200 резюме выбрать себе 2 падаванов. Работает.
6
Мой топ алго собеса.

В очень маленькой компании на позицию дата инженера. Пришел разработчик и задал литкод - что-то вроде найти три наименьших расстояния в массиве чисел без сортировки.

Только после решения такой задачи человека можно было допустить к перекладыванию данных из Монго в Кликхаус.

Я не справился. Потому что не люблю литкод.
👍11😁3
Про DLH и Trino. Статьи и вебинар 11.02

Привет!

Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.

🔹 Нужна ли нам Lakehouse архитектура?

🔹 Быстрая обработка данных в data lake с помощью SQL

🔹 Платформа данных в хранилище Магнит OMNI

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»

11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.

На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.

Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.

Подробности и регистрация

Хорошего чтения и приятных выходных!

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #Data #AI
🔥32👍1