Data Bar | О data-проектах
1.92K subscribers
130 photos
1 file
102 links
Авторский канал о данных, аналитике, визуализации и датапроектах, которые создаю сам или в коллабе.
Саша Варламов @agvarl, Tableau Zen Master, ex Playrix, ex InDrive
Download Telegram
20 лет Y Combinator и тренды в IT

'Y Combinator' (YC) - легенда венчурного мира. Это не просто венчурный фонд, а настоящая фабрика технологических гигантов. С 2005 года он превратил сотни никому не известных проектов в компании с миллиардными оценками: Airbnb, Dropbox, Stripe, Reddit, Coinbase, Twitch - все они когда-то прошли через YC. Отбор жёсткий - проходят примерно 1-2% от всех заявок - серьёзнее, чем в Гарвард. 9000+ основателей прошли через инкубатор YC, и это лучший нетворкинг в Кремниевой долине.

Почему YC - это IT-оракул?
Фонд видит тренды за годы до бума:

🔸 Big Data, облака, крипта - YC инвестировал на старте.
🔸 Ковид-эра: доставка, видеосвязь и EdTech.
🔸 AI-революция: первые стартапы пришли в 2021, а сейчас каждый первый проект - "AI для чего угодно".

Хотите заглянуть в будущее? Смотрите последние батчи YC.

Для изучения:
🎆 Все компании фонда.
🎆 Все основатели компаний.

Как думаете, кто из нынешних стартапов YC станет следующим "единорогом"?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥8
Фильмы в цифрах. Исследуем данные TMDB и MovieLens

Фильмы любят все! В этот раз я решил сравнить две крупные рейтинговые платформы: TMDB и MovieLens, а заодно поговорить о линейной регрессии и корреляции между метриками.

В основе анализа - данные
'The Movies Dataset'

В датасете 45000 фильмов до 2018 года на разных языках, 26 миллионов оценок фильмов от 270000 зрителей на ресурсе MovieLens. Это один из рейтинговых и рекомендательных сервисов от команды GroupLens. Они публикуют датасеты для задач машинного обучения и построения рекомендательных систем.

Что я сделал:
На основе этих данных создал интерактивный 📊 инструмент-дашборд который позволяет сравнивать метрики фильмов по различным срезам:

Метрики:
🔸 Budget (Бюджет)
🔸 Revenue (Выручка)
🔸 Profit (Прибыль)
🔸 MovieLens Rating (пятибальный рейтинг)
🔸 MovieLens Votes (голоса на платформе MovieLens)
🔸 TMDB Rating (десятибалльный рейтинг)
🔸 TMBD Votes (голоса на платформе TMDB)
🔸 Runtime (длительность фильма)

Разрезы:
🔹 Жанр
🔹 Язык
🔹 Компания
🔹 Год выпуска

Основной инструмент - диаграмма разброса или Scatter Plot.
Диаграмма отображает фильмы точками. Ось X - одна метрика, ось Y - другая. Классические декартова система координат. По каждой категории строится прямая линейной регрессии, отражающая тренд, и вычисляется коэффициент корреляции Пирсона. Для интерпретации используется шкала Чеддока, которая помогает оценить силу и направление связи между метриками.

На все точки сразу смотреть не стоит - желательно выбрать гипотезу и фильтроваться по группам.
Примеры инсайтов:
▫️ Самые убыточные фильмы
▫️ Самые рейтинговые фильмы
▫️ Самый плохой российский фильм
▫️ Есть ли связь между числом голосов и рейтингом
▫️ Перекосы оценок фильмов на разных платформах
▫️ Выбросы в данных

Диаграмма разброса - мощный способ увидеть взаимосвязи и закономерности.
В следующих постах расскажу подробнее:
🔹 что такое линейная регрессия
🔹 как работает коэффициент корреляции Пирсона
🔹 как читать шкалу Чеддока
🔹 как делать выводы из трендов

Это базовые вещи в статистике и анализе. Изучать их на киноданных - одно удовольствие.

✍️ А пока - читайте полную статью с примерами, вычислениями и скриншотами в моём блоге.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥131
Линейная регрессия и курсы валют

Линейная регрессия -базовый, но мощный инструмент, который помогает аналитикам понять связь между двумя переменными и делать прогнозы. В названии слово "линейная" указывает на форму зависимости между переменными. А "регрессия" - возвращение к среднему, как назвал это Фрэнсис Гальтон, наблюдая, что дети очень высоких родителей в среднем ниже их, а дети низких - немного выше. История термина здесь.

В прикладном смысле линейная регресия - поиск линейной зависимости между двумя переменными.

Вы все видели графики курсов валют. Я сделал визуализацию 📊 "Linear Regressiоn EUR USD", где можно:
🔸 изменить фильтры и диапазоны дат
🔸 увидеть, как меняются коэффициенты
🔸 посмотреть, как данные отклоняются от прямой (variance)

Сделал это, чтобы визуально стало понятно: что такое регрессия и как она работает. Добавил шкалу Чеддока - она показывает словами силу корреляции (например, "сильная положительная").

В данных - курс евро относительно доллара за 1,5 года. Цель - найти уравнение прямой, где x - время, а y - курс евро (Rate). Для этого находим коэффициент k - наклон прямой и b - сдвиг по y. Используем метод наименьших квадратов.
🔸 Ковариация (covariance) - показывает направление связи между переменными (>0 обе переменные растут. <0 - одна растёт, одна растёт, другая убывает. 0 - нет связи)
🔸 Коэффициент детерминации (R-squared). Показывает насколько хорошо объясняется регрессия.
🔸 Коэффициент корреляции Пирсона (Pearson coefficient) измеряет силу и направление связи. Значение от -1 до 1.

Коэффициент Пирсона принимает значение от -1 до 1. Чтобы проще было оценивать направлению и силу корреляции, используют шкалу Чеддока для удобной словесной интерпретации.

Все формулы есть внутри воркбука, можно посмотреть как считаются в Tableau.

📊 Главное - визуализация помогает интуитивно понять поведение линейной регрессии: просто меняй диапазон по времени и смотри, как меняются уравнение, коэффициенты. Ну и на собесах такое спрашивают - будет не лишним повторить.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥165
AI отчёты на основе данных

Всем прекрасной пятницы!

Мы сделали то, к чему долго шли - подключили нейросети непосредственно к нашей базе данных. Теперь можно задавать вопросы на родном языке, дальше нейросеть переводит это в формат SQL запросов и ищет ответы в нашей базе данных вакансий. 🍾

Вчера 'Хабр Карьера' опубликовала большую статью о зарплатах в IT за первую половину 2025г. Для этого они изучили 57712 зарплат, которые специалисты сами оставили в калькуляторе. По сути, это опросные данные.

Мы решили сравнить данные вакансий и данные опросов. Для этого нейросети надо было сходить на страницу статьи о зарплатах, а потом сделать подобный отчёт, основываясь на данных в базе.

Промт следующий:
Проанализируй отчёт Habr Career за первое полугодие 2025г. по ссылке: https://habr.com/ru/specials/936618/
После этого подключись к базе данных VILKY mcp и сделай подобный отчёт, основываясь на данных таблицы vacancies_habr


Всего, в процессе рассуждения, нейросеть сделала 31 SQL запрос.
Нейросеть - Claude Sonnet 4, клиент - Claude Desktop

Полный отчёт - в PDF, в комментариях. Текст мы не меняли.
Графики не добавляли, но можно просить делать с графиками.


Такой подход диалога с данными - новый. Некоторым технологиям меньше одного года. И это, безусловно, будущее 🎆.

Хотите знать больше? Пишите в комменты, пересылайте, ставьте лайки. Будем другие кейсы выкладывать.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥162
BI без дашбордов, и как это работает

Для многих сейчас понятия 'Business Intellegence' и 'Дашборд' практически тождественны. А можете представить BI без дашбордов?

Давайте начнём с того, что дашборды бизнесу не нужны 🙂. Нужны ответы на вопросы. Дашборд - это инструмент, позволяющий отвечать на вопросы. А что, если вместо дашбордов будет другой инструмент? Это не фантастика, и возможно уже сейчас.

Последние пару месяцев Никита, Рома и я в своём проекте анализа зарплат VILKY занимаемся изучением того как построить BI без дашбордов. Результаты действительно впечатляют.

Представьте что есть только одно окно (как в ChatGPT), где можно задавать вопросы на родном языке и получать ответы на базе своих данных. Кроме этого, за минуты собираются отчёты, строятся графики, подключаются внешние источники для обогащения данных. Всё делают нейронки. В общем, будущее уже с нами. Работает и на локальных компах и в облаке.

Нейросети (у нас - Claude Opus4, Claude Sonnet 4.1) подключаются к базе данных, далее по промту формируются SQL запросы. Запросы можно смотреть. После этого нейросеть создаёт отчёты, даёт ответы на вопросы и т.д. - всё что попросите. Такой вот SA/BA, BI и аналитик в одном лице.

Плюсы и минусы такого подхода для BI:

Плюсы:
- Self-service с "человеческим" лицом. То, о чём долго мечтали - просто говорить с данными на человеческом языке.
- Не надо кастомизировать дашборды и отчёты под каждый отдел. Всё решается глубиной промта.
- Вылетает вся цепочка производства дашбордов, от бизнес/системного анализа до разработки дашбордов и источников под них. Это колоссальная экономия времени и резкое снижение Time-to-market.

Минусы:
- Нельзя подключать самые мощные нейросети к корпоративным данным из-за соображений безопасности. Надо делать создавать и совершенствовать свои LLM внутри компании, а это не все могут.
- Нужно по-другому собирать и готовить данные для LLM: включать описания, словари и т.п..
- Подход не изучен ещё, может быть много препятствий для внедрения.

Итого: то, о чём мечтают менеджеры - просто разговаривать с данными, уже реальность. Биайщики и аналитики в будущем, скорее всего, превратятся в архитекторов подобных систем.
Это можно назвать 'Conversational BI', хотя устоявшегося названия ещё нет.

Можем подробнее рассказать о технологиях и сделать демо, если интересно. Пишите в комменты.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥257👍7
Generative Business Intelligence - тихая революция в BI

В классическом BI мы вручную пишем SQL, строим отчёты и визуализации. Но сегодня нейросети делают всё больше работы: сами пишут запросы, формируют дашборды и даже выдают инсайты. В прошлом посте рассказывал как мы сделали это на локальном компе. У этого направления уже есть название - Generative BI (GenBI).

В комментариях к моему посту в Linkedin Elena Goryainova (Sr Solution Architect, Snowflake) поделилась, что Snowflake предлагает Enterprise AI - безопасный доступ к топовым LLM внутри корпоративного контура.

Кроме них, в гонке уже:
- Salesforce
- Microsoft
- Tibco Spotfire
- Pyramid Analytics
и другие.

Компания WrenAI делает GenBI сервис и рассказывает в блоге о будущем BI.

Архитектура GenBI делится на 4 уровня (из статьи выше):
1. Уровень данных
2. Семантический уровень
3. Агентский уровень
4. Уровень представления

Главное отличие от классического BI - агентский уровень. Он отвечает за "человеческий" разговор с данными. На этом уровне нейросети преобразуют запросы пользователя в машинные запросы и алгоритмы. На семантическом уровне строятся связи с данными: что и откуда брать для запроса. Про семантический уровень буквально вчера был пост в канале "Работая в айтишечке". На уровне представления: дашборды, инсайты, эдхоки и интерфейс диалога с машиной (тоже новая штука).

Интересно, что в корпоративных решениях решаются 2 ключевые проблемы нейронок для BI:
1. Галлюцинации. Если LLM натравить только на подготовленные и структурированные данные с их описанием, то LLM практически не даёт неверных ответов. Это подтвердилось и в наших локальных экспериментах с нейронками.
2. Безопасность данных. Большие вендоры предоставляют доступ до передовых LLM только внутри компании, наружу данные не уходят.

Итого: GenBI - устойчивое понятие, подразумевающее генерацию инсайтов и инструментов для принятия решений на основе данных. Лидеры рынка идут в этом направлении. BI-системы эволюционируют, и если их не перестраивать сегодня - завтра можно остаться в хвосте рынка.
🔥10🤔5🥰3🥱1
Абсолютно согласен с концепцией топ дашборды + LLM для self-service.
В примере люди вообще от BI инструмента отказались, и это в компании 1000+ человек. Хороший кейс к прошлому посту о GenBI
👍4🍾2🐳1
Forwarded from Инжиниринг Данных (Dmitry)
В посте, товарищ рассказал, как они круто выкинули Табло Север и стали использовать Slack бота + GenAI, чтобы отвечать на вопросы пользователей. Само собой разумеется, что они пофиксили семантический слой, определили метрики, позаботились о качестве данных.

Как результат пользователи пишут вопрос в Slack, и LLM возвращает им ответ. Такая функциональность доступна уже из коробки в Snowflake (Semantic Layer). Вам просто нужно описать вашу модель данных в YML, и все.

Навести порядок в данных это обычно самое сложное. Часто не выполнимая задача, потому что разработчики ленивые, и часто у них нет достаточно мотивации держать стерильную чистоту в хранилище/озере данных. А GenAI не понимают бизнес контекста и аббревиатуры и naming conventions.

В целом тренд очевидный, сам BI можно уже отдавать на outsource GenAI приложению.

Ребята из команды VILKY (кстати дашборд на Tableau Public) недавно показали отличный пример, как они задали вопрос и LLM написала SQL и провела небольшой анализ. То есть концепт работает, если данные хорошо организованы под такую задачу.

Но тут возникает интересный вопрос. Сейчас я приведу пример, который немного добавит контекста.

В моей любимой книге Angel: How to Invest in Technology Startups, автор упоминает инвестицию в проект Cafe X — "кафе, где кофе варят роботы, конкурирующее со Starbucks, и создающее возможность продавать кофе дешевле за счёт автоматизации”.

Главная идея, ваше кофе должно стоить не 5-6$ (сейчас оно так стоит), а на 50% дешевле.

Вот буквально на днях в Сиэтле мне попалась кафе с кофе, где его делают роботы. Больше похоже на самоделкиных.

Делают сносно, но цена при этом такая же как и в обычном кафе, где работает бариста.

То есть, уже экономика этого заведения странновато, вместе конвейера отличного капучино, у нас музей роботов.

Но самое важное проблема в этом, пока еще сам человек, которому комфортней сходить к человеку баристе, потому что он всегда так делал.

То есть во многих случаях, человек хочет общаться с человеком, а не с бездушной машиной. Компания Klarna уже обожглась.

Так же и с BI, с одной стороны, мы можешь сделать insights on demand, через LLM, а с другой стороны, я еще не знаю ни одной компании, которая не использует хоть какой-то BI инструмент, потому что пользователям так комфортно, и пока большинство не хочет менять привычки. Уверен, скоро кто-нибудь большой выпендрится, какие они молодцы - BI-AI first, раньше всех.

Но все движется к тому, что большие BI вендоры находятся в конкуренции с LLM и даже, если они добавят новые фичи, это им не поможет.

А как вы думает про кейс BI+LLM или LLM вместо BI в средней перспективе?

Мне видится, что для executive dashboards будет классический BI, а вот для self-services и deep dives скоро будут больше полагаться на GenAI. Опят же не заменяя человека, а дополняя, где человеку нужно будет валидировать гипотезы и инсайты.

Представляете, приходите на работу и после ночного ETL 20 новых гипотез и инсайтов, нужно выбрать только 1-2 из них.

Кто-то скажет, что и человек не нужен будет…вот и узнаем скоро:)
👍42
MCP для начинающих

Недавно Microsoft выложил на YouTube бесплатный курс 'MCP for beginners'.

Если вы не фанат видео (как я), весь материал дублируется на GitHub.

Что такое MCP (Model Context Protocol)?
Это протокол общения нейросетей с внешним миром. По нему к LLM можно подключать любые источники данных или системы управления, и всё это по одному универсальному стандарту. MCP часто сравнивают с USB: устройство одно, протокол один, а число сценариев - бесконечно.

Протоколу ещё нет и года, но уже проводятся конференции, выпускаются курсы и появляются MCP-сервисы. Поддержка со стороны крупных IT-игроков говорит о том, что MCP быстро становится де-факто стандартом интеграции ИИ в реальные системы.

Дима Аношин в Канале 'Инжиниринг Данных' делился материалами с конференции 'MCP Dev Days'.

Я недавно писал про подключение Claude по MCP к PostgreSQL, когда нейросеть ходит в базу данных и собирает инсайты и отчёты. Всё работает на домашнем ПК. Развернуть несложно.

Короче, пока в русскоязычном LinkedIn спорят о кризисе в IT, мир строит новый слой взаимодействия информационных систем. MCP только набирает обороты - самое время вкатываться. 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍62
MCP и нейробезопасность

Cloudflare два дня назад выпустил бету 'MCP Server Portal' - новый модуль в составе платформы Cloudflare One. Модуль позволяет компаниям централизованно пропускать через себя весь MCP-трафик, контролировать его, анализировать и защищать от потенциальных угроз. Подробнее - в их блоге "Securing the AI Revolution: Introducing Cloudflare MCP Server Portals".

Cloudflare давно является одним из мировых лидеров в сфере интернет-безопасности: их решения защищают сайты, базы данных и критическую инфраструктуру по всему миру. Теперь компания выходит и на новый рынок - безопасность нейросетей. Логично, ведь потенциал здесь колоссален.

Протокол MCP (Model Context Protocol) позволяет нейросетям управлять внешними объектами и сервисами. Но вместе с этим появляются новые риски - от вредоносных промптов до атак на корпоративную инфраструктуру. В блоге Cloudflare приводятся примеры того, как нейросети можно запутать.

Сценарии атак:
1. Подмена MCP-сервера -злоумышленник поднимает свой сервер и подсовывает его модели или пользователю.
2. Промпт-инъекции - внедрение скрытых инструкций в текст, ведущих к несанкционированным действиям.
3. Утечка секретов через LLM - промпт-инъекция заставляет ИИ запросить у сервера ключи и токены.
4. Неавторизованный доступ - вызов MCP-инструментов, к которым у пользователя нет прав.

К чему это может привести:
Если взглянуть шире, число потенциальных сценариев бесконечно: от удаления данных из баз до перехвата управления беспилотным таксопарком.

Можно представить более мрачные варианты - появление “вредоносных нейросетей”, которые будут запутывать другие ИИ или перехватывать контроль над их инструментами.

В итоге, инвестиции в нейробезопасность будут колоссальны, и там сейчас - поле непаханное задач.
👍5🔥3👨‍💻31
Плюшки.pdf
3.7 MB
Самые необычные плюшки и бонусы в IT вакансиях

Как думаете, какие плюшки предлагают ИТ компании?

Сегодня - нейрорепортинг о плюшках в IT. Отчёт полностью сгенерирован нейросетью по промптам с подключением к базе данных вакансий.
Данные с 2022 по август 2025 года, 41815 вакансий Habrcareer.

В отчёте:
🍩 Топы плюшек
🍩 Самые необычные плюшки
🍩 Топ-тренды роста IT бонусов
🍩 Топ плохих бонусов
🍩 Самые грустные примеры бонусов
🍩 Красные флаги в описаниях вакансий
🍩 Хорошие и плохие бонусы в 2025г
🍩 Выводы и прогнозы

#нейрорепортинг

@vilky_it
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥4
"График истории"

В Новой Третьяковке на Крымском Валу выставлена работа "График истории"(фото моё), созданная в 1976 художниками группы "Гнездо". Удивительно в ней то, что график стал произведением искусства.

Картина написана в жанре соц-арт. Термин "соц-арт" возник в 1972 году благодаря художникам Виталию Комару и Александру Меламиду. Cоц-арт соединил идеи соцреализма, поп-арта и дадаизма, трактуя советскую визуальную культуру как объект сатиры и исследования

На картине видим красную зигзагообразную линию, пронзающую сетку графика. Толстая чёрная разметка и красный цвет намекает на "серьёзность" цифр, отсылая к планам и отчётам, которыми были увешаны стены советских кабинетов. А ещё на картине есть прогноз на 1982.

Если присмотреться, то по оси X отмечены годы проведения съездов ЦК КПСС, а по оси Y - месяцы этих съездов. С точки зрения здравого смысла график абсолютно бессмысленный: он ничего не объясняет и не показывает. История здесь сведена к формату отчёта, где важны только партийные собрания, а всё остальное будто не происходит. Сам график - идеальный пациент для Чартомойки.

Но именно в этом кроется социальная сатира и ирония официальности: история вовсе не строилась на съездах, у людей была своя жизнь. Художники иронизируют над практикой "рисовать всё через цифры" - планы, отчёты, диаграммы, превращая историю в график и тем самым показывая, насколько абсурдна такая визуализация жизни.

Можно иронизировать над прошлым, но так ли далеко мы ушли сейчас? Плохие графики со стен переехали в мобильные телефоны и компьютеры, на бесконечных совещаниях и презентациях мы видим такие же "графики". И вообще, рабочее время можно свести лишь к графику встреч и планёрок.
🔥6325🤣3
Jarvis в Grab. Как AI меняет аналитику

Мой друг и коллега из бывшей команды InDrive рассказал про разработку аналитического AI решения в Grab.

Для справки: Grab - сингапурская компания, первый южно-азиатский декакорн (стартап с оценкой $10+ млрд). Это "Uber + Delivery Club + Tinkoff" в одном приложении: такси, каршеринг, доставка еды и свой финтех. Работает во всей Юго-Восточной Азии.

Grab разработал Jarvis (отсылка сами знаете к кому) - решение для поиска инсайтов. С ноября прошлого года Grab пишет в своём блоге о разработке AI сервиса.

Из блога "How AI is driving faster data-driven decisions at Grab":
"Главный вызов - сделать данные доступными для всех сотрудников Grab. Раньше сотрудникам приходилось обращаться к внутренним аналитикам, осваивать сложные дашборды или писать SQL-запросы. Мы захотели упростить доступ к данным для всех, в пределах их роли, без специальных технических навыков. С появлением больших языковых моделей (LLM), умеющих переводить текст в SQL, мы увидели отличную возможность.
Так появился Jarvis - ассистент, позволяющий получать инсайты так же просто, как задавать вопрос."


Две главные функции Jarvis:
1. Text-to-SQL engine: from question to query - от вопроса к запросу
2. Insights generator: from data to understanding - от данных к пониманию

Jarvis стал посредником между бизнес-пользователем и данными. Вся аналитическая цепочка: диалог, SQL, отчёты, инсайты теперь внутри одного ассистента. Время ответа снизилось с 4+ часов до 3-5 минут, 1000 отчётов сгенерировано в мае 2025г и 4000 ответов получено в июне 2025. Дальше Джарвиса хотят подключать к Слаку и внутренним инструментам.

В заглавную я вытащил картинки из их блога. В верхней картинке выкидываются все функции кожаных аналитиков: диалог с заказчиком, SQL, репорты, исследования и инсайты. Сам хотел нарисовать такую схему для нашего проекта VILKY, а тут люди уже всё сделали и объяснили.

Такого же процесса, но пока на уровне коленки, мы с ребятами достигли в пет-проекте анализа зарплат. Но у Grab - на серьёзном корпоративном уровне. В корпоративных блогах не принято говорить о проблемах, но они точно есть на всех этапах внедрения аналитических решений.

Кейс Grab - ещё одно подтверждение того, что компании идут в сторону Generative BI, где вся аналитическая цепочка постепенно заменяется одним LLM-сервисом. Кардинально меняется флоу работы с данными. А вот что в итоге произошло с самими аналитиками, Grab в блоге не написал 🙂
15👍8🐳3😁2🔥1
👋 Пост-знакомство

Привет!
Я - Саша Варламов, к.ф.-м.н., больше 15 лет в IT и данных. Успел поработать в разных ролях: от BI-разработчика и тимлида до PM и CTO. Делал BI и аналитические решения в Playrix, InDrive и других компаниях, участвовал в разработке Tableau.
2x Tableau Zen Master, 2x Tableau Ambassador. 3 года NDA с Salesforce/Tableau.

В аналитике и данных с 2004 года, начинал с Matlab, дальше был зоопарк инструментов. Занимался автоматизацией и аналитикой в компаниях: геминг, транспортные системы, ride-hailing, нефтегаз, физика. Преподавал в вузе. Готовил персонал для проектов Shell, Eni, British Gas. Иногда консультирую компании.

В публичном пространстве:
- Делаю визуализации и data-проекты
- Исследую принципы визуализации и ищу нестандартные формы подачи информации
- Визуализирую данные о спорте, кино, искусстве и др.
- Пишу статьи и иногда выступаю
- Сейчас экспериментирую с Generative BI и LLM

В канале Data Bar:
- Мои проекты и коллабы
- Факты и наблюдения из мира данных и визуализации
- Истории на стыке данных и искусства
- То, о чём аналитики не рассказывают на конференциях

Где ещё меня можно найти:

LinkedIn | Reddit | Tableau Public. Раньше входил в мировую десятку
Kaggle | X (Twitter) | Habr | VC

Этот канал - мой бар данных 🍸. Заходите, наливайте себе что-то по вкусу и давайте обсуждать идеи.
Буду рад знакомству.
🔥5320👍12
Перевернули уже? 🙂

Из слов можно составить ту самую песню
👍10🔥65👎2🤮2
Визуальные расследования Марка Ломбарди

Сетевые диаграммы выше показывают глобальные связи людей, компаний и капитала.

Марк Ломбарди (1951–2000) - американский художник нео-концептуалист, изображавший диаграммы. Его работы были представлены в музеях современного искусства и картинных галлереях. Вот его страница в музее современного искусства MoMA, Нью-Йорк.

Марк изображал графы. Множество кругов, соединенных связями. Рисовал карандашом или шариковой ручкой. Уникальность работ в том, что художник описывал этими диаграммами мировые процессы. В начале 90х он начал исследовать ряд финансовых скандалов, и это привело его к созданию схем. Он начал работать в этом жанре в начале 90-х, всего за шесть лет до своей смерти. До этого о нём почти не знали. Свои работы Ломбарди называл Narrative Structures.

Темы его диаграмм:
коррупционные схемы
финансирование терроризма
цепочки поставок оружия
финансовые махинации и теневая политика
и др.

Диаграммы концептуально близки к тому что висит в кабинетах у детективах в фильмах, где улики и фото подозреваемых соединяют красными нитками. У таких досок много названий: Criminal Investigation Board, Evidence Board, Conspiracy Board, Murder Map и др.. Есть ещё похожий графический метод исследования от Anacapa Sciences - методика визуализации связей для расследования преступлений.

По сути, Ломбарди вручную создавал OSINT (сбор и анализ информации из открытых источников) и визуальную аналитику ещё до того, как это стало мейнстримом. Его картины - это и искусство, и расследование.

Доступной и достоверной информации о Марке и его работах немного. Приведу здесь статью Бена Фрая (Ben Fry - весомая фигура в датавизе) 'Learning from Lombardi'. И фильм о Марке Ломбарди. Есть книга 'Mark Lombardi. Global Networks', её написали через несколько месяцев после суицида художника.

Сегодня работы Марка выглядят как Data Art. Это редкий пример, когда графики и схемы перешли в пространство современного искусства.

@data_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥117👍4👏4
Нейрорепортинг Claude + MCP и технологические тренды в IT

Продолжаю погружаться в Generative BI (GenBI) и эксперименты с подключением нейросетей к базам данных. В VILKY (анализ IT вакансий) пробуем строить PDF и HTML-репорты при помощи AI+MCP и отправлять их в tg-канал. Такой формат мы назвали «нейрорепортинг». Расскажу про опыт построения HTML c графиками.

Последний эксперимент - анализ технологических трендов в IT за 11 лет на базе 127000+ вакансий Habr Career (2015–2025).

Как это выглядело
Промт:
Подключись к базе данных вакансий по MCP, таблица vacancies_habr и проведи анализ того какие навыки (skills) устарели а какие выросли.

В навыках - только харды: языки программирования, инструменты, библиотеки и т.п.. Claude cразу сделал в HTML:

Cделал 10 SQL-запросов для изучения структуры таблицы и запуска анализа.
Сравнил частотность навыков в начале периода (2015–2018) и в конце (2021–2024).
Ввел коэффициенты (0.3; 0.6) для "устаревших" и "устаревающих" навыков.
Построил топ устаревающих и топ растущих навыков.

Следующий шаг:
Добавил поправку на общее число вакансий по годам → ещё 7 SQL-запросов. Появилось новое понятие - "глубина проникновения навыка" (отношение числа вакансий с этим скиллом к общему числу вакансий).
Дальше подключили поиск навыков в описаниях - цифры слегка скорректировались.

Проблемы с отчётом
Сам анализ работает, но при оформлении HTML оказалось всё сложнее:
🟢 отчёт может отрисоваться некорректно,
🟢 графики ломаются или все линии делает одного цвета,
🟢 порядок блоков меняется,
🟢 добавление мелочей рушит готовый HTML.

В какой-то момент даже закончилось контекстное окно у Claude

Выводы
🟢 За логикой SQL-запросов надо следить и исправлять, если неточно.
🟢 Нужны шаблоны отчётов, если хотим одинаковый формат.
🟢 Лучше сразу формулировать большой промт с точными требованиями к структуре.
🟢 Анализ на большом массиве данных будет всегда поверхностным.
🟢 С визуализацией пока много ограничений.
🟢 Для продовых дашбордов подход ещё сырой, но для ad-hoc исследований уже работает.
🟢 Проверять выводы надо обязательно.

В итоге, последнюю версию HTML можно найти в комментариях. Как получилось с первой попытки .
PDF-репорт тоже в комментариях, делал в другом чате.
Можете оценить что вышло.

В конце Claude гордо подписал отчёт:
"Исследование провел AI-аналитик Claude"

Спасибо ему за это!

@data_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍51