Data Bar | О data-проектах
1.92K subscribers
130 photos
1 file
102 links
Авторский канал о данных, аналитике, визуализации и датапроектах, которые создаю сам или в коллабе.
Саша Варламов @agvarl, Tableau Zen Master, ex Playrix, ex InDrive
Download Telegram
Дашборды и японская кухня

На просторах интернета можно найти примеры интерфейсов и дашбордов с закруглениями сетки. Надо так делать в дашбордах или нет? Биайщики обычно выбирают классику - прямоугольники.

Сейчас закругления сетки можно нативно регулировать в некоторых BI инструментах. То есть, добавляют эту функцию специально. Для Tableau анонсировали в этом году, а раньше приходилось серьёзно потратить времени и нервов. Как делать сетку с закруглениями.

Делал такой дизайн в дашборде "Glassdoor US Data Analyst Jobs" и в "IT Vacancies"

Тип дизайна называетcя "Bento". Слово пришло из японской кухни, где Bento (Бэнто) называют порцию упакованной еды. Бэнто с японского переводится как "обед на одного". Еда находится в контейнере с ячейками с закруглёнными углами (один из типов). Бэнто широко распространены среди школьников как обед, который можно нести с собой.

Искусство подбора продуктов и изготовления бэнто занимает почётное место в жизни японцев. Тщательно выбираются продукты, чтобы пища была сбалансированной ,вкусной и соблазнительной, ведь намного приятней есть красиво оформленную еду.

Прослеживается аналогия с дашбордами. Готовить дашборды, которые каждый день хочется открывать и исследовать, довольно сложно. Начиная от концепта, подбора метрик и смыслов графиков, дизайна, серьёзной разработки до поддержки. Каждая ячейка - свой смысл. Можно потратить месяцы только дизайна, разработки и поиска оптимальной концепции. Далеко не всякая компания инвестирует ресурсы в такие задачи. Но если вы делаете дашборды, котрые хочется съесть, и они работают на проде - это серьёзный уровень и вас, как специалиста, и компании, инвестирующей время и ресурсы.
🔥134👍3
14000 открытых IT вакансий на одном дашборде

Большой апдейт проекта анализа IT зарплат VILKY. Расскажу что нового в пет-проекте, с какими проблемами столкнулись и что, в итоге, получилось. Мы всё так же, втроём, понемногу пилим сервис. Последние пару месяцев работали над сбором и обработкой данных.

Что нового?

1️⃣. ДАННЫЕ
Сначала о самом заметном изменении. Мы добавили в дашборд 2 новые платформы вакансий:
🔹FINDER. Этот сервис раньше назывался Finder.vc. Он начал работу в 2020 как сервис поиска удалёнки. Сейчас там не только удалёнка и IT вакансии занимают 10% от всех. Много вакансий для начинающих специалистов. В день там более 10000 активных вакансий. Говорят что каждая вакансия проходит модерацию. Основной ТГ канал сервиса, 300k подписчиков
🔹 VSETI. Сервис IT вакансий, активных в день - более 300. Но важно не количество, а то что много уникальных вакансий. Основной ТГ канал, 57k подписчиков.

Только добавление вакансий этих сервисов увеличило в 4-5 раз общее число вакансий на дашборде. Благодаря Finder, появилось много нетоповых, и их тоже интересно исследовать.

Finder мы собрали вообще весь (2млн+ архивных вакансий). Парсеры Finder были на мне. Рома (пишет в канал Kotolitic) делал парсер для VSETI. Автоматизацию делал Никита.

2️⃣. ETL
Серьёзные изменения в ETL процессах. Полноценно работает DBT, там производятся трансформации данных. Пересмотрена и частично реализована логика сбора вакансий со снепшотов на инкремент. Это и многое другое делал Никита, про всё написал у себя в канале 'Joni in Web'.

3️⃣. AI И LLM
Отказались от YandexGPT - набольшом объёме данных нормализация съедает много денег, надо делать своё. Никита написал на sklearn нормализацию. Яндексу больше не платим 🙂. У вакансий Finder нет скиллов и грейдов, поэтому используем скрипты для их извлечения.

Эксперименты с внешними LLM даром не прошли - мы собрали достаточно информации для понимания того что будем собирать собственными LLM, и для чего LLM не нужны. Например, для сбора минимальной и максимальной зарплат достаточно старых добрых регулярных выражений. Работали с YandexGPT, а он иногда в вакансиях находил какие-то числа (зарплаты), которых нет в описании. Непонятно откуда вообще брал. Дальше планируем эксперименты с предобученной моделью.

4️⃣. ДАШБОРД И ДАЙДЖЕСТЫ
Дашборд допиливался под новые платформы. Сделали дополнительное поле под локацию: части света, выделили Казахстан и Беларусь. Столкнулись с ограничением Гугл шитов. Их используем для обновления даша на Tableau Public (прямо из базы он тянуть не может). У гугл шитов есть предел 10MB на скачивание данных через драйвер Google Drive. Данных стало заметно больше, поэтому, 7 дней выходили за предел. Ограничили историчность двумя днями. Скорее всего, оставим только 1 день - непонятно, кому недельные тренды вообще нужны.
Сделали новые дайджесты по вакансиям с требованиями AI и требованиями 1C.
Дайджесты по специализациям сейчас вылетают по лимиту гугл шитов. Для них отдельно соберём агрегированные данные.

⚠️ Траблы. Их хватало: косяки нормализации LLM, вылеты запросов по памяти, нехватка ресурсов для ETL, ограничения публичных сервисов, тормоза дашборда. Без этого - никуда 😁.

Сейчас 14000 вакансий в дашборде. В базе - несколько миллионов. Почти 70 000 просмотров дашборда за всё время.

Появилось много кейсов для анализа данных. Их присылают пользователи. На реализацию всего времени не хватает, но более четко прорисовываются границы того кому и зачем нужен сервис. Фидбек вдохновляет. Спасибо, что пишете! ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥237
Итоги конкурса TG Contest

Конурс авторских телеграм каналов TG Contest завершился. Результаты опубликовали в главном канале конкурса. Было огненно! 🔥

В заглавной картинке - облако слов из всех постов авторов основного канала. Как видите, пишем про работу 😃

Всё это время мы общались в закрытом канале продактов с авторами. Было интересно. Знакомились, делились мнениями и постами. Сделаем папку каналов продактов и расшарим. Напишу отдельно про это.

Ещё в конкурсе участвовали каналы аналитиков, но категории 'Аналитика' не было, и люди разбрелись по другим категориям. Но всё-таки нашли родственные души во всём многообразии авторов.
Отмечаю два крутых канала, которые буду читать:

😮 'Дневник Гис-аналитика'. Его ведет Александр, преподаватель геоинформатики. В канале много визуализаций геоданных и невероятно красивых карт. Отличный пример того, как человек любит своё дело и рассказывает о нём. Вот минималистический Питер. А это "Магнит vs Пятёрочка" на карте.

😮 'Data Дзен' Олега Дмитриева. Олег пишет о роли лида в IT, аналитику, BI, автоматизацию и жизнь в айтишечке с юмором и мемами. Разбирает дашборды и резюме. Вот здесь свежий видео-разбор даша с хорошей порцией юмора. А здесь - вебинар по UX в BI

Читайте и подписывайтесь 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥75
О чём пишут продакты

Мир становится "продуктовым".

Компании всё чаще строят цифровые продукты: приложения, сервисы, платформы. Даже традиционные отрасли превращаются в технологические компании. А со взлётом возможностей ИИ трансформация проходит на сверхзвуковых скоростях. В таких условиях навык думать как владелец продукта становится универсальным. Такой навык будущего, c ИИ тулами наперевес, даст вам поистине неограниченные возможности создания различного рода сервисов.

В конкурcе авторских каналов "TG Contest" и направлении "Продукты" собрали папку с каналами 22х финалистов.

🔥 Папка - по ссылке "Продакты тут".

Здесь найдёте каналы как динозавров продуктового подхода в бигтехе, так и тех, кто недавно в продуктовой тусовке. Ребята пишут о болях продакт менеджеров, ценностях продукта, метриках, A/B тестах и всём что полнует продактов и пользователей.

Лучи славы и фанфары - победителям конкурса:
🎆 @tobeproduct 'Быть продактом!' (выбор куратора). Канал ведёт Антон, директор по продукту. Здесь много годноты человеческим языком: инструменты, гипотезы и всего того, чем живёт продакт.
🎆 @nemnogoproduct 'Немного продакт' (победитель голосования). Сообщество продактов. Даниил приглашает авторов из разных продуктовых направлений для выступлений и статей. В общем, позитивный движ создают сами люди в продуктовой среде.

Конкурс завершится, но движ был незабываемым. Организаторы обещают в следующем году новый уровень! 🥁

P.S. В заглавной картинке - слова из всех постов 22х каналов. Всего постов - 7500. По традиции - облако слов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥137
Hard и Soft навыки в IT профессиях. Алгоритмы NLP

Представьте что для любой должности в любой организации у вас есть список всех Hard и Soft навыков плюс описания задач на позициях. Харды - это технологии, инструменты, стек, библиотеки. С софтами сложнее: сюда можно отнести 'управление проектом', 'коммуникацию' и т.п.

Что это даёт?
🟢 Вы знаете стек по командам в каждой компании
🟢 Вы можете кластеризовать компании (лидеры - аутсайдеры)
🟢 Вы можете прогнозировать развитие направления
🟢 Вы можете понять как трансформируется любая должность
🟢 Вы можете искать дефицитных сотрудников с уникальным набором скиллов
🟢 Вы можете примерно рассчитать цену конкретного навыка, если знаете зарплаты
🟢 Вы можете понять куда вам расти и чему лучше обучаться

Таких задач много, можете написать в комменты.

У нас в проекте анализа зарплат в IT VILKY давно стоит задача сопоставления навыков с конкретными должностями. Опираемся на данные вакансий - там указываются навыки и задачи. В самих полях навыков или указывается мало хардов и софтов или вообще ничего.

Сегодня расскажу как научились вытаскивать харды и софты из описания вакансий. Раньше было пару подходов к снаряду:
1️⃣. Использовали ChatGPT, YandexGPT. Проблема - не понимают что именно вытаскивать из описаний вакансий, непредсказуемы, и на миллионах данных слишком дороги.
2️⃣. Пробовали классические ML-инструменты, работали с Sklearn. Часто пропускает важные навыки. Не всегда ясно что надо учитывать а что пропускать.

Сейчас реализован третий вариант, у него точность более 95%. То есть, 95% нужных навыков он вытаскивает из описания вакансии. Не работает с опечатками. Пока не на проде - тестируется. С начала недели сидел с алгоритмами NLP (Nature Language Processing), рассказываю что получилось.

Как работает:
1️⃣. Определяет частотность навыков на базе 620 000 снепшотов вакансий с указанием конкретных навыков и строит таблицу.
2️⃣. Отбрасывает ерунду вроде "Стрессоустойчивости" и "Обучаемости".
3️⃣. В таблице ищет синонимы (Microsoft Excel, Excel, эксель и тп.).
4️⃣. Строит словарь с навыками, частотностью + массивы синонимов.
5️⃣. Удаляет навыки встречающиеся в 1-2 вакансиях. Здесь надо было ещё уками перепроверить.
6️⃣. Проходится по всем описаниям вакансий и ищет навыки и синонимы из словаря. Здесь есть прямой поиск, токенизация (разбиение на слова) и лемматизация (приведение к нормальной форме).
7️⃣. Добавляет поле новых навыков к данным.

В итоге, словарь сейчас - это 1260 наиболее популярных скиллов с синонимами на русском и английском языках. Поиск предсказуемый, без галлюцинаций нейросети.

Что дальше?
Планируем:
- внедрение поиска по скиллам на 📊 дашборде, даже если в вакансии навыки не указаны явно
- расширенный словарь, в том числе с редкими и уникальными технологиями (не для дашборда)

На выходных будет повторная валидация. Если всё ок - внедрим в прод и дадим пользователям.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3
20 лет Y Combinator и тренды в IT

'Y Combinator' (YC) - легенда венчурного мира. Это не просто венчурный фонд, а настоящая фабрика технологических гигантов. С 2005 года он превратил сотни никому не известных проектов в компании с миллиардными оценками: Airbnb, Dropbox, Stripe, Reddit, Coinbase, Twitch - все они когда-то прошли через YC. Отбор жёсткий - проходят примерно 1-2% от всех заявок - серьёзнее, чем в Гарвард. 9000+ основателей прошли через инкубатор YC, и это лучший нетворкинг в Кремниевой долине.

Почему YC - это IT-оракул?
Фонд видит тренды за годы до бума:

🔸 Big Data, облака, крипта - YC инвестировал на старте.
🔸 Ковид-эра: доставка, видеосвязь и EdTech.
🔸 AI-революция: первые стартапы пришли в 2021, а сейчас каждый первый проект - "AI для чего угодно".

Хотите заглянуть в будущее? Смотрите последние батчи YC.

Для изучения:
🎆 Все компании фонда.
🎆 Все основатели компаний.

Как думаете, кто из нынешних стартапов YC станет следующим "единорогом"?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥8
Фильмы в цифрах. Исследуем данные TMDB и MovieLens

Фильмы любят все! В этот раз я решил сравнить две крупные рейтинговые платформы: TMDB и MovieLens, а заодно поговорить о линейной регрессии и корреляции между метриками.

В основе анализа - данные
'The Movies Dataset'

В датасете 45000 фильмов до 2018 года на разных языках, 26 миллионов оценок фильмов от 270000 зрителей на ресурсе MovieLens. Это один из рейтинговых и рекомендательных сервисов от команды GroupLens. Они публикуют датасеты для задач машинного обучения и построения рекомендательных систем.

Что я сделал:
На основе этих данных создал интерактивный 📊 инструмент-дашборд который позволяет сравнивать метрики фильмов по различным срезам:

Метрики:
🔸 Budget (Бюджет)
🔸 Revenue (Выручка)
🔸 Profit (Прибыль)
🔸 MovieLens Rating (пятибальный рейтинг)
🔸 MovieLens Votes (голоса на платформе MovieLens)
🔸 TMDB Rating (десятибалльный рейтинг)
🔸 TMBD Votes (голоса на платформе TMDB)
🔸 Runtime (длительность фильма)

Разрезы:
🔹 Жанр
🔹 Язык
🔹 Компания
🔹 Год выпуска

Основной инструмент - диаграмма разброса или Scatter Plot.
Диаграмма отображает фильмы точками. Ось X - одна метрика, ось Y - другая. Классические декартова система координат. По каждой категории строится прямая линейной регрессии, отражающая тренд, и вычисляется коэффициент корреляции Пирсона. Для интерпретации используется шкала Чеддока, которая помогает оценить силу и направление связи между метриками.

На все точки сразу смотреть не стоит - желательно выбрать гипотезу и фильтроваться по группам.
Примеры инсайтов:
▫️ Самые убыточные фильмы
▫️ Самые рейтинговые фильмы
▫️ Самый плохой российский фильм
▫️ Есть ли связь между числом голосов и рейтингом
▫️ Перекосы оценок фильмов на разных платформах
▫️ Выбросы в данных

Диаграмма разброса - мощный способ увидеть взаимосвязи и закономерности.
В следующих постах расскажу подробнее:
🔹 что такое линейная регрессия
🔹 как работает коэффициент корреляции Пирсона
🔹 как читать шкалу Чеддока
🔹 как делать выводы из трендов

Это базовые вещи в статистике и анализе. Изучать их на киноданных - одно удовольствие.

✍️ А пока - читайте полную статью с примерами, вычислениями и скриншотами в моём блоге.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥131
Линейная регрессия и курсы валют

Линейная регрессия -базовый, но мощный инструмент, который помогает аналитикам понять связь между двумя переменными и делать прогнозы. В названии слово "линейная" указывает на форму зависимости между переменными. А "регрессия" - возвращение к среднему, как назвал это Фрэнсис Гальтон, наблюдая, что дети очень высоких родителей в среднем ниже их, а дети низких - немного выше. История термина здесь.

В прикладном смысле линейная регресия - поиск линейной зависимости между двумя переменными.

Вы все видели графики курсов валют. Я сделал визуализацию 📊 "Linear Regressiоn EUR USD", где можно:
🔸 изменить фильтры и диапазоны дат
🔸 увидеть, как меняются коэффициенты
🔸 посмотреть, как данные отклоняются от прямой (variance)

Сделал это, чтобы визуально стало понятно: что такое регрессия и как она работает. Добавил шкалу Чеддока - она показывает словами силу корреляции (например, "сильная положительная").

В данных - курс евро относительно доллара за 1,5 года. Цель - найти уравнение прямой, где x - время, а y - курс евро (Rate). Для этого находим коэффициент k - наклон прямой и b - сдвиг по y. Используем метод наименьших квадратов.
🔸 Ковариация (covariance) - показывает направление связи между переменными (>0 обе переменные растут. <0 - одна растёт, одна растёт, другая убывает. 0 - нет связи)
🔸 Коэффициент детерминации (R-squared). Показывает насколько хорошо объясняется регрессия.
🔸 Коэффициент корреляции Пирсона (Pearson coefficient) измеряет силу и направление связи. Значение от -1 до 1.

Коэффициент Пирсона принимает значение от -1 до 1. Чтобы проще было оценивать направлению и силу корреляции, используют шкалу Чеддока для удобной словесной интерпретации.

Все формулы есть внутри воркбука, можно посмотреть как считаются в Tableau.

📊 Главное - визуализация помогает интуитивно понять поведение линейной регрессии: просто меняй диапазон по времени и смотри, как меняются уравнение, коэффициенты. Ну и на собесах такое спрашивают - будет не лишним повторить.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥165
AI отчёты на основе данных

Всем прекрасной пятницы!

Мы сделали то, к чему долго шли - подключили нейросети непосредственно к нашей базе данных. Теперь можно задавать вопросы на родном языке, дальше нейросеть переводит это в формат SQL запросов и ищет ответы в нашей базе данных вакансий. 🍾

Вчера 'Хабр Карьера' опубликовала большую статью о зарплатах в IT за первую половину 2025г. Для этого они изучили 57712 зарплат, которые специалисты сами оставили в калькуляторе. По сути, это опросные данные.

Мы решили сравнить данные вакансий и данные опросов. Для этого нейросети надо было сходить на страницу статьи о зарплатах, а потом сделать подобный отчёт, основываясь на данных в базе.

Промт следующий:
Проанализируй отчёт Habr Career за первое полугодие 2025г. по ссылке: https://habr.com/ru/specials/936618/
После этого подключись к базе данных VILKY mcp и сделай подобный отчёт, основываясь на данных таблицы vacancies_habr


Всего, в процессе рассуждения, нейросеть сделала 31 SQL запрос.
Нейросеть - Claude Sonnet 4, клиент - Claude Desktop

Полный отчёт - в PDF, в комментариях. Текст мы не меняли.
Графики не добавляли, но можно просить делать с графиками.


Такой подход диалога с данными - новый. Некоторым технологиям меньше одного года. И это, безусловно, будущее 🎆.

Хотите знать больше? Пишите в комменты, пересылайте, ставьте лайки. Будем другие кейсы выкладывать.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥162
BI без дашбордов, и как это работает

Для многих сейчас понятия 'Business Intellegence' и 'Дашборд' практически тождественны. А можете представить BI без дашбордов?

Давайте начнём с того, что дашборды бизнесу не нужны 🙂. Нужны ответы на вопросы. Дашборд - это инструмент, позволяющий отвечать на вопросы. А что, если вместо дашбордов будет другой инструмент? Это не фантастика, и возможно уже сейчас.

Последние пару месяцев Никита, Рома и я в своём проекте анализа зарплат VILKY занимаемся изучением того как построить BI без дашбордов. Результаты действительно впечатляют.

Представьте что есть только одно окно (как в ChatGPT), где можно задавать вопросы на родном языке и получать ответы на базе своих данных. Кроме этого, за минуты собираются отчёты, строятся графики, подключаются внешние источники для обогащения данных. Всё делают нейронки. В общем, будущее уже с нами. Работает и на локальных компах и в облаке.

Нейросети (у нас - Claude Opus4, Claude Sonnet 4.1) подключаются к базе данных, далее по промту формируются SQL запросы. Запросы можно смотреть. После этого нейросеть создаёт отчёты, даёт ответы на вопросы и т.д. - всё что попросите. Такой вот SA/BA, BI и аналитик в одном лице.

Плюсы и минусы такого подхода для BI:

Плюсы:
- Self-service с "человеческим" лицом. То, о чём долго мечтали - просто говорить с данными на человеческом языке.
- Не надо кастомизировать дашборды и отчёты под каждый отдел. Всё решается глубиной промта.
- Вылетает вся цепочка производства дашбордов, от бизнес/системного анализа до разработки дашбордов и источников под них. Это колоссальная экономия времени и резкое снижение Time-to-market.

Минусы:
- Нельзя подключать самые мощные нейросети к корпоративным данным из-за соображений безопасности. Надо делать создавать и совершенствовать свои LLM внутри компании, а это не все могут.
- Нужно по-другому собирать и готовить данные для LLM: включать описания, словари и т.п..
- Подход не изучен ещё, может быть много препятствий для внедрения.

Итого: то, о чём мечтают менеджеры - просто разговаривать с данными, уже реальность. Биайщики и аналитики в будущем, скорее всего, превратятся в архитекторов подобных систем.
Это можно назвать 'Conversational BI', хотя устоявшегося названия ещё нет.

Можем подробнее рассказать о технологиях и сделать демо, если интересно. Пишите в комменты.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥257👍7
Generative Business Intelligence - тихая революция в BI

В классическом BI мы вручную пишем SQL, строим отчёты и визуализации. Но сегодня нейросети делают всё больше работы: сами пишут запросы, формируют дашборды и даже выдают инсайты. В прошлом посте рассказывал как мы сделали это на локальном компе. У этого направления уже есть название - Generative BI (GenBI).

В комментариях к моему посту в Linkedin Elena Goryainova (Sr Solution Architect, Snowflake) поделилась, что Snowflake предлагает Enterprise AI - безопасный доступ к топовым LLM внутри корпоративного контура.

Кроме них, в гонке уже:
- Salesforce
- Microsoft
- Tibco Spotfire
- Pyramid Analytics
и другие.

Компания WrenAI делает GenBI сервис и рассказывает в блоге о будущем BI.

Архитектура GenBI делится на 4 уровня (из статьи выше):
1. Уровень данных
2. Семантический уровень
3. Агентский уровень
4. Уровень представления

Главное отличие от классического BI - агентский уровень. Он отвечает за "человеческий" разговор с данными. На этом уровне нейросети преобразуют запросы пользователя в машинные запросы и алгоритмы. На семантическом уровне строятся связи с данными: что и откуда брать для запроса. Про семантический уровень буквально вчера был пост в канале "Работая в айтишечке". На уровне представления: дашборды, инсайты, эдхоки и интерфейс диалога с машиной (тоже новая штука).

Интересно, что в корпоративных решениях решаются 2 ключевые проблемы нейронок для BI:
1. Галлюцинации. Если LLM натравить только на подготовленные и структурированные данные с их описанием, то LLM практически не даёт неверных ответов. Это подтвердилось и в наших локальных экспериментах с нейронками.
2. Безопасность данных. Большие вендоры предоставляют доступ до передовых LLM только внутри компании, наружу данные не уходят.

Итого: GenBI - устойчивое понятие, подразумевающее генерацию инсайтов и инструментов для принятия решений на основе данных. Лидеры рынка идут в этом направлении. BI-системы эволюционируют, и если их не перестраивать сегодня - завтра можно остаться в хвосте рынка.
🔥10🤔5🥰3🥱1
Абсолютно согласен с концепцией топ дашборды + LLM для self-service.
В примере люди вообще от BI инструмента отказались, и это в компании 1000+ человек. Хороший кейс к прошлому посту о GenBI
👍4🍾2🐳1
Forwarded from Инжиниринг Данных (Dmitry)
В посте, товарищ рассказал, как они круто выкинули Табло Север и стали использовать Slack бота + GenAI, чтобы отвечать на вопросы пользователей. Само собой разумеется, что они пофиксили семантический слой, определили метрики, позаботились о качестве данных.

Как результат пользователи пишут вопрос в Slack, и LLM возвращает им ответ. Такая функциональность доступна уже из коробки в Snowflake (Semantic Layer). Вам просто нужно описать вашу модель данных в YML, и все.

Навести порядок в данных это обычно самое сложное. Часто не выполнимая задача, потому что разработчики ленивые, и часто у них нет достаточно мотивации держать стерильную чистоту в хранилище/озере данных. А GenAI не понимают бизнес контекста и аббревиатуры и naming conventions.

В целом тренд очевидный, сам BI можно уже отдавать на outsource GenAI приложению.

Ребята из команды VILKY (кстати дашборд на Tableau Public) недавно показали отличный пример, как они задали вопрос и LLM написала SQL и провела небольшой анализ. То есть концепт работает, если данные хорошо организованы под такую задачу.

Но тут возникает интересный вопрос. Сейчас я приведу пример, который немного добавит контекста.

В моей любимой книге Angel: How to Invest in Technology Startups, автор упоминает инвестицию в проект Cafe X — "кафе, где кофе варят роботы, конкурирующее со Starbucks, и создающее возможность продавать кофе дешевле за счёт автоматизации”.

Главная идея, ваше кофе должно стоить не 5-6$ (сейчас оно так стоит), а на 50% дешевле.

Вот буквально на днях в Сиэтле мне попалась кафе с кофе, где его делают роботы. Больше похоже на самоделкиных.

Делают сносно, но цена при этом такая же как и в обычном кафе, где работает бариста.

То есть, уже экономика этого заведения странновато, вместе конвейера отличного капучино, у нас музей роботов.

Но самое важное проблема в этом, пока еще сам человек, которому комфортней сходить к человеку баристе, потому что он всегда так делал.

То есть во многих случаях, человек хочет общаться с человеком, а не с бездушной машиной. Компания Klarna уже обожглась.

Так же и с BI, с одной стороны, мы можешь сделать insights on demand, через LLM, а с другой стороны, я еще не знаю ни одной компании, которая не использует хоть какой-то BI инструмент, потому что пользователям так комфортно, и пока большинство не хочет менять привычки. Уверен, скоро кто-нибудь большой выпендрится, какие они молодцы - BI-AI first, раньше всех.

Но все движется к тому, что большие BI вендоры находятся в конкуренции с LLM и даже, если они добавят новые фичи, это им не поможет.

А как вы думает про кейс BI+LLM или LLM вместо BI в средней перспективе?

Мне видится, что для executive dashboards будет классический BI, а вот для self-services и deep dives скоро будут больше полагаться на GenAI. Опят же не заменяя человека, а дополняя, где человеку нужно будет валидировать гипотезы и инсайты.

Представляете, приходите на работу и после ночного ETL 20 новых гипотез и инсайтов, нужно выбрать только 1-2 из них.

Кто-то скажет, что и человек не нужен будет…вот и узнаем скоро:)
👍42
MCP для начинающих

Недавно Microsoft выложил на YouTube бесплатный курс 'MCP for beginners'.

Если вы не фанат видео (как я), весь материал дублируется на GitHub.

Что такое MCP (Model Context Protocol)?
Это протокол общения нейросетей с внешним миром. По нему к LLM можно подключать любые источники данных или системы управления, и всё это по одному универсальному стандарту. MCP часто сравнивают с USB: устройство одно, протокол один, а число сценариев - бесконечно.

Протоколу ещё нет и года, но уже проводятся конференции, выпускаются курсы и появляются MCP-сервисы. Поддержка со стороны крупных IT-игроков говорит о том, что MCP быстро становится де-факто стандартом интеграции ИИ в реальные системы.

Дима Аношин в Канале 'Инжиниринг Данных' делился материалами с конференции 'MCP Dev Days'.

Я недавно писал про подключение Claude по MCP к PostgreSQL, когда нейросеть ходит в базу данных и собирает инсайты и отчёты. Всё работает на домашнем ПК. Развернуть несложно.

Короче, пока в русскоязычном LinkedIn спорят о кризисе в IT, мир строит новый слой взаимодействия информационных систем. MCP только набирает обороты - самое время вкатываться. 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍62
MCP и нейробезопасность

Cloudflare два дня назад выпустил бету 'MCP Server Portal' - новый модуль в составе платформы Cloudflare One. Модуль позволяет компаниям централизованно пропускать через себя весь MCP-трафик, контролировать его, анализировать и защищать от потенциальных угроз. Подробнее - в их блоге "Securing the AI Revolution: Introducing Cloudflare MCP Server Portals".

Cloudflare давно является одним из мировых лидеров в сфере интернет-безопасности: их решения защищают сайты, базы данных и критическую инфраструктуру по всему миру. Теперь компания выходит и на новый рынок - безопасность нейросетей. Логично, ведь потенциал здесь колоссален.

Протокол MCP (Model Context Protocol) позволяет нейросетям управлять внешними объектами и сервисами. Но вместе с этим появляются новые риски - от вредоносных промптов до атак на корпоративную инфраструктуру. В блоге Cloudflare приводятся примеры того, как нейросети можно запутать.

Сценарии атак:
1. Подмена MCP-сервера -злоумышленник поднимает свой сервер и подсовывает его модели или пользователю.
2. Промпт-инъекции - внедрение скрытых инструкций в текст, ведущих к несанкционированным действиям.
3. Утечка секретов через LLM - промпт-инъекция заставляет ИИ запросить у сервера ключи и токены.
4. Неавторизованный доступ - вызов MCP-инструментов, к которым у пользователя нет прав.

К чему это может привести:
Если взглянуть шире, число потенциальных сценариев бесконечно: от удаления данных из баз до перехвата управления беспилотным таксопарком.

Можно представить более мрачные варианты - появление “вредоносных нейросетей”, которые будут запутывать другие ИИ или перехватывать контроль над их инструментами.

В итоге, инвестиции в нейробезопасность будут колоссальны, и там сейчас - поле непаханное задач.
👍5🔥3👨‍💻31
Плюшки.pdf
3.7 MB
Самые необычные плюшки и бонусы в IT вакансиях

Как думаете, какие плюшки предлагают ИТ компании?

Сегодня - нейрорепортинг о плюшках в IT. Отчёт полностью сгенерирован нейросетью по промптам с подключением к базе данных вакансий.
Данные с 2022 по август 2025 года, 41815 вакансий Habrcareer.

В отчёте:
🍩 Топы плюшек
🍩 Самые необычные плюшки
🍩 Топ-тренды роста IT бонусов
🍩 Топ плохих бонусов
🍩 Самые грустные примеры бонусов
🍩 Красные флаги в описаниях вакансий
🍩 Хорошие и плохие бонусы в 2025г
🍩 Выводы и прогнозы

#нейрорепортинг

@vilky_it
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥4
"График истории"

В Новой Третьяковке на Крымском Валу выставлена работа "График истории"(фото моё), созданная в 1976 художниками группы "Гнездо". Удивительно в ней то, что график стал произведением искусства.

Картина написана в жанре соц-арт. Термин "соц-арт" возник в 1972 году благодаря художникам Виталию Комару и Александру Меламиду. Cоц-арт соединил идеи соцреализма, поп-арта и дадаизма, трактуя советскую визуальную культуру как объект сатиры и исследования

На картине видим красную зигзагообразную линию, пронзающую сетку графика. Толстая чёрная разметка и красный цвет намекает на "серьёзность" цифр, отсылая к планам и отчётам, которыми были увешаны стены советских кабинетов. А ещё на картине есть прогноз на 1982.

Если присмотреться, то по оси X отмечены годы проведения съездов ЦК КПСС, а по оси Y - месяцы этих съездов. С точки зрения здравого смысла график абсолютно бессмысленный: он ничего не объясняет и не показывает. История здесь сведена к формату отчёта, где важны только партийные собрания, а всё остальное будто не происходит. Сам график - идеальный пациент для Чартомойки.

Но именно в этом кроется социальная сатира и ирония официальности: история вовсе не строилась на съездах, у людей была своя жизнь. Художники иронизируют над практикой "рисовать всё через цифры" - планы, отчёты, диаграммы, превращая историю в график и тем самым показывая, насколько абсурдна такая визуализация жизни.

Можно иронизировать над прошлым, но так ли далеко мы ушли сейчас? Плохие графики со стен переехали в мобильные телефоны и компьютеры, на бесконечных совещаниях и презентациях мы видим такие же "графики". И вообще, рабочее время можно свести лишь к графику встреч и планёрок.
🔥6325🤣3
Jarvis в Grab. Как AI меняет аналитику

Мой друг и коллега из бывшей команды InDrive рассказал про разработку аналитического AI решения в Grab.

Для справки: Grab - сингапурская компания, первый южно-азиатский декакорн (стартап с оценкой $10+ млрд). Это "Uber + Delivery Club + Tinkoff" в одном приложении: такси, каршеринг, доставка еды и свой финтех. Работает во всей Юго-Восточной Азии.

Grab разработал Jarvis (отсылка сами знаете к кому) - решение для поиска инсайтов. С ноября прошлого года Grab пишет в своём блоге о разработке AI сервиса.

Из блога "How AI is driving faster data-driven decisions at Grab":
"Главный вызов - сделать данные доступными для всех сотрудников Grab. Раньше сотрудникам приходилось обращаться к внутренним аналитикам, осваивать сложные дашборды или писать SQL-запросы. Мы захотели упростить доступ к данным для всех, в пределах их роли, без специальных технических навыков. С появлением больших языковых моделей (LLM), умеющих переводить текст в SQL, мы увидели отличную возможность.
Так появился Jarvis - ассистент, позволяющий получать инсайты так же просто, как задавать вопрос."


Две главные функции Jarvis:
1. Text-to-SQL engine: from question to query - от вопроса к запросу
2. Insights generator: from data to understanding - от данных к пониманию

Jarvis стал посредником между бизнес-пользователем и данными. Вся аналитическая цепочка: диалог, SQL, отчёты, инсайты теперь внутри одного ассистента. Время ответа снизилось с 4+ часов до 3-5 минут, 1000 отчётов сгенерировано в мае 2025г и 4000 ответов получено в июне 2025. Дальше Джарвиса хотят подключать к Слаку и внутренним инструментам.

В заглавную я вытащил картинки из их блога. В верхней картинке выкидываются все функции кожаных аналитиков: диалог с заказчиком, SQL, репорты, исследования и инсайты. Сам хотел нарисовать такую схему для нашего проекта VILKY, а тут люди уже всё сделали и объяснили.

Такого же процесса, но пока на уровне коленки, мы с ребятами достигли в пет-проекте анализа зарплат. Но у Grab - на серьёзном корпоративном уровне. В корпоративных блогах не принято говорить о проблемах, но они точно есть на всех этапах внедрения аналитических решений.

Кейс Grab - ещё одно подтверждение того, что компании идут в сторону Generative BI, где вся аналитическая цепочка постепенно заменяется одним LLM-сервисом. Кардинально меняется флоу работы с данными. А вот что в итоге произошло с самими аналитиками, Grab в блоге не написал 🙂
15👍8🐳3😁2🔥1
👋 Пост-знакомство

Привет!
Я - Саша Варламов, к.ф.-м.н., больше 15 лет в IT и данных. Успел поработать в разных ролях: от BI-разработчика и тимлида до PM и CTO. Делал BI и аналитические решения в Playrix, InDrive и других компаниях, участвовал в разработке Tableau.
2x Tableau Zen Master, 2x Tableau Ambassador. 3 года NDA с Salesforce/Tableau.

В аналитике и данных с 2004 года, начинал с Matlab, дальше был зоопарк инструментов. Занимался автоматизацией и аналитикой в компаниях: геминг, транспортные системы, ride-hailing, нефтегаз, физика. Преподавал в вузе. Готовил персонал для проектов Shell, Eni, British Gas. Иногда консультирую компании.

В публичном пространстве:
- Делаю визуализации и data-проекты
- Исследую принципы визуализации и ищу нестандартные формы подачи информации
- Визуализирую данные о спорте, кино, искусстве и др.
- Пишу статьи и иногда выступаю
- Сейчас экспериментирую с Generative BI и LLM

В канале Data Bar:
- Мои проекты и коллабы
- Факты и наблюдения из мира данных и визуализации
- Истории на стыке данных и искусства
- То, о чём аналитики не рассказывают на конференциях

Где ещё меня можно найти:

LinkedIn | Reddit | Tableau Public. Раньше входил в мировую десятку
Kaggle | X (Twitter) | Habr | VC

Этот канал - мой бар данных 🍸. Заходите, наливайте себе что-то по вкусу и давайте обсуждать идеи.
Буду рад знакомству.
🔥5320👍12
Перевернули уже? 🙂

Из слов можно составить ту самую песню
👍10🔥65👎2🤮2