Data Bar | О data-проектах
1.92K subscribers
126 photos
1 file
100 links
Авторский канал о данных, аналитике, визуализации и датапроектах, которые создаю сам или в коллабе.
Саша Варламов @agvarl, Tableau Zen Master, ex Playrix, ex InDrive
Download Telegram
Как сооснователи IT компаний находят друг друга

У "a16z speedrun" вышла любопытная статья о том как встретились кофаундеры известных компаний.

Статистика по данным 40 тех компаний:
Одноклассники / однокурсники - 16 (40%)
Коллеги - 13 (32,5%)
Друзья друзей - 6 (15%)
Семья - 3 (7,5%)
Хакатоны - 2 (5%)

65% стартапов умирают из-за конфликтов основателей, согласно Noam Wasserman - автору "The Founder's Dilemmas". Поэтому, поиск кофаундера критичен, и процесс этот сложный. В статье призывают одновременно контактировать с несколькими потенциальными партнёрами.

Советы по поиску:
Ищите сооснователей заранее, ещё до запуска стартапа
Параллельно общайтесь с 3–5 кандидатами
Тестируйте совместимость на небольших пет-проектах
Всегда собирайте и проверяйте рекомендации

В общем, поиск кофаундера - целая стратегия, а не спонтанный процесс. И, как в случае со свиданиями или собесами, нужно время и несколько попыток.

@data_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍6
LLM-диалог с Tableau Server/Cloud

Энтузиасты подключили LLM к серверу и облаку Tableau. Ладно, не совсем энтузиасты, а большой интегратор с милионными контрактами. Сути это не меняет, давайте смотреть что получилось.

Основная статья "Start Building AI Applications with The Tableau MCP Starter Kit" . Там же можно найти видео с разбором от Will Sutton (победитель IronViz 2022).

На гитхабe: "Tableau MCP Starter Kit". Можно пробовать подключить нейросети к серверу или облаку.

Логика использования для пользователя - та же, что я описывал в нескольких постах: одно диалоговое окно, куда пишем промты. Всё подключается к любым источникам по протоколам MCP. Реализовать интерфейс можно по-разному:
. Подключение через Claude Desktop (про это я рассказывал - делаем так же).
. Подключение через VSCode
. Веб-приложение
. Tableau Extention. Диалоговое окно встраивается в дашборд

Как это работает:
. Находит нужный источник данных
. Читает его описание и поля
. Выполняет SQL-запрос
. Возвращает результат в удобном виде

В случае с Tableau подключаемся к опубликованным источникам данных, либо к внутренней базе данных.

В схеме ещё есть LangChain - фреймворк для работы с LLM. Он оркестрирует запросы разных инструментов и хранит контекст.

Типы источников:
. Источники на сервере обычно проверены и сертифицированы, там бизнес-данные разложены в максимально удобном виде для пользователя.
. Внутренняя база данных (PostgreSQL) хранит инфо о внутренниз событиях сервера (просмотры дашбордов, расписания экстрактов и ещё много всего).

Предлагаемые сценарии:
. Чат-бот для аналитики
. Проверка соответствия дашбордов style-guide
. Мониторинг активности пользователей
. Автоматические ad-hoc отчёты

Разделение прав юзеров по PAT (personal access token). Это аналог личных кредов, только токены лучше с точки зрения безопасности. Ещё говорят что любую нейронку можно подключить.

В сценарии входят те же задачи, которые лидеры рынка стараются отдать нейронкам:
. Навигация по серверу (поиск воркбуков, источников данных, метрик и т. п.)
. Эдхоки. Разовые несложные запросы. Обычно достаточно одного SQL запроса для заказчика

Направление перспективное. Если есть сервер, который не жалко, можно пробовать и превратить его в Tableau AI. Сам SDK - open-source, но Information Lab явно будет продавать услуги по внедрению и консалтингу.

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍6🏆2
Карта головного мозга и связь анатомии с алгоритмами

MICrONS - масштабный проект, объединивший анатомическую и функциональную информацию о головном мозге мыши. Проект описан в научном журнале Nature, "The MICrONS Project".

Человечество до сих пор не понимает, как работает мозг человека, но исследования постепенно двигаются в сторону расширения наших знаний.

💚 В проекте просто сумасшедшие визуализации сетевой структуры мозга млекопитающего.

Цель проекта - связать анатомию с функцией и понять алгоритмы коры головного мозга.

Исходные данные:
200 000 клеток и 523 миллиона синаптических связей
Функциональные данные для 75 000 нейронов
Это всё - в одном кубическом миллиметре мозга мыши.

Полная реконструкция кубического миллиметра нейронов требует порядка петабайта данных. Трассировка сложных ветвлений нейронов вручную - почти нереальная задача, поэтому использовали усовершенствованные инструменты. Параллелизм операций вычислительной техники, рост мощности компьютеров, прорывы в машинном обучении и искусственном интеллекте сделали такие задачи решаемыми.

В проекте применяли алгоритмы машинного обучения для задач трассировки нейронов - этот как раз и позволило сделать карту мозга. А ещё было несколько команд для работы с данными, поэтому создали свою систему версионирования для работы с данными.

В коре головного мозга может быть около 90 типов нейронов, их можно классифицировать.

В процессе работы над проектом составили "атлас тормозных связей" (atlas of inhibitory connections). Впервые удалось напрямую сопоставить генетически определённые типы клеток с их связями, пока только для части категорий.

Такой синтез исследователей, аналитиков, данных и алгоритмов позволил продвинуться в разных направлениях :

. Наука. Впервые получены возможности изучения алгоритмов коры головного мозга и понимание как структура превращается в функцию.
. ИИ. Биологически вдохновлённые архитектуры (например, выборочные тормозные связи) могут подсказать новые подходы к искусственному интеллекту и нейроморфным вычислениям.
. Медицина. Понимание того, как связи между клетками формируются и нарушаются. Это критично для исследования аутизма, шизофрении и других болезней мозга.

Более подробно с объяснениями, ссылками на github и визуализациями здесь. Там ещё есть интерактивная 3D визуализация карты коры головного мозга. Галерея визуализаций.

MICrONS - масштабный проект, задействующий исследователей из разных областей. Обратите внимание как красиво описания, выводы и визуализации преподносит Nature на интерактивной странице проекта - это намного ближе обычному человеку, чем стандартные научные статьи, ссылки на которые можете найти там же.

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥52
This media is not supported in your browser
VIEW IN TELEGRAM
Анимация рельефа как Data Art

Изогипсы (Elevation Lines) - линии равной высоты. Они знакомы всем, кто видел топографические карты. Но такие карты часто перегружены деталями, и понять рельеф с первого взгляда непросто.

Я решил посмотреть как это работает в динамике и сделать видео, добавляя такие контуры в каждом кадре.

Делал в Tableau:
. Взял открытые данные с контурами (например, остров Оаху, Гавайи, шаг 20 футов),
. Построил elevation lines прямо в Tableau,
. Высоту закодировал цветом. Появился эффект объёмного рельефа,
. Можно отфильтровать только нужные уровни высоты.
. Добавил анимацию, сохранив все кадры в mp4.

В итоге простые линии превращаются в живую визуализацию. На Reddit в dataisbeautiful эта анимация собрала больше 15k апвотов и сотни комментариев. Можно отметить что каждый видит твоё: кто-то видит замерзание льда, кто-то - чернила, а кто-то - листья. Визуализация передаёт и информацию и эстетику.

Карты высот - пример того, как сложные геоданные можно превратить в понятный и красивый сторителлинг. У меня в визуализации даже текста нет, но он и не нужен.

Создаются такие вещи просто, минут за 10. shp файлы загружаются в Tableau. Всё подробно описано в блоге "Карты высот и глубин в Tableau". Правда, надо ещё найти хорошие геоданные.

📶 Сама визуализация "Hawaii Elevation".
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥279❤‍🔥2🏆1
Проникновение AI в BI и аналитику в отчёте Anthropic

Компания Anthropic, создатель Claude выпустила пару дней назад объёмный отчёт о внедрении ИИ. Посмотрим на его часть "Explore by job" - проникновение ИИ в отдельные специальности. Athropic провёл анализ запросов к Calude, разбил их на специальности и типы задач внутри каждой специальности.

Отдельного интереса заслуживают аналитики. Специальностей со словом "аналитик"(Analyst) всего 16.

Все задачи делятся на 3 типа:
Mostly automated tasks - задачи, которые выполняются в основном автоматически(почти полностью делегированы AI).
Mostly augmented tasks - задачи, где человек остаётся главным исполнителем, а ИИ дополняет и ускоряет работу.
Tasks that don't appear in our data - задачи, которые не были зафиксированы в запросах к ИИ.

Если коротко: Automation - Claude делает за тебя, Augmentation - Claude работает вместе с тобой.

Business Intelligence Analyst есть на диаграмме. 0,26% всех запросов связаны с задачами BI.
Рассмотрим какие задачи BI передаются AI, а какие - нет.

Почти полностью делегируются AI (Mostly automated):
Ведение типовых документов
Создание BI инструментов и систем
Генерация стандартных и кастомных отчётов
Сбор бизнес данных с публичных отчётов

AI помогает делать задачи (Mostly augmented):
Анализ рыночных стратегий
Анализ технологических трендов
Подготовка данных для рекомендаций
Анализ индустриальных или географических трендов
Распространение информации об инструментах или метаданных

AI не используется:
Коммуникация со стейкхолдерами
Технические требования
Управление потоком задачи
Оперативное предоставлением BI-информации пользователям
Проведение тестов на соответствие требованиям
Мониторинг бизнес-пользователей, использующих BI
Создание и ревью технической проектной документации
Поддержка и обновление BI

В каждом типе задач есть паттерны взаимодействия пользователя с AI.

Паттерны Mostly automated, нацеленные на завершение задач:
Directive (директивный). Пользователь даёт Claude задачу, и он выполняет её с минимальным количеством уточнений.
Feedback Loops (обратная связб). Пользователь автоматизирует задачи и даёт Claude обратную связь.

Помощь (Mostly augmented) фокусируется на паттернах взаимодействия:
Learning (обучение. Пользователь спрашивает Claude информацию или объяснения по разным темам.
Task Iteration (итерация задач). Пользователь совместно с Claude поэтапно дорабатывает задачи.
Validation (валидация). Пользователь просит Claude дать обратную связь на его работу.

Паттерны можно увидеть во всплывающих окнах.

Любому аналитику полезно знать, какие задачи уже почти полностью передаются AI, а какие-нет. Знание этого даёт стратегическое преимущество и понимание, куда направлять усилия и как выстраивать свою роль в новой экосистеме работы с AI.

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥135👍2🤣2
Подключаем Claude по MCP к базе данных на домашнем компьютере

Написал туториал на Хабре как подключить нейросети Claude к базе данных на локальной машине.
Можно общаться с данными через LLM.

В туториале:

. Разворачивание PostgreSQL и MCP-сервера в докере
. DBeaver и настройка коннекта к базе
. Наполнение таблиц в БД. Для примера - все вакансии Habrcareer
. Подключение Claude к базе данных
Примеры использования: генерация инсайтов и репортов по промтам

Делаем всё это в рамках LLM-анализа данных проекта VILKY.

RAG здесь не нужен - LLM получает полный доступ к данным напрямую из базы. Благодаря однозначным названиям полей таблиц Claude сразу понимает структуру и работает с ней без дополнительных пояснений.

Вы просто разговариваете со своими данными.

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥227🤯3👍1
В ChatGPT завезли MCP-коннекты

То что ждали долго (некоторые пользователи), наконец-то произошло. OpenAI неделю назад в ChatGPT добавил возможность подключения разных сервисов по MCP. Доступно только для подписок Plus и Pro. Пока - бета версия. Всё работает в вебе. Можно подключать несколько источников .

Как подключить?
В настройках:
. Включить режим разработчика (Настройки - Коннекторы - Дополнительные настройки)
. Настроить коннектор (Настройки - Коннекторы - Создать)

Аутентификация - только OAuth. Адрес MCP-сервера - только URL, с локальным сервером не работает.

Раздел на OpenAI Developer Community c этой новостью.
Там видео есть как подключать внешние источники и работать с ними.

И в X комменты можно почитать к их посту.

В общем, всё! OpenAI официально поддерживает протокол MCP. Надо пробовать.

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥42
Здания из диаграмм

Все знают классические столбиковые диаграммы - bar charts. Попробуем взглянуть на них иначе. На картинке выше - известные небоскрёбы. Каждое здание - это диаграмма.

Я взял трёхмерные модели небоскрёбов и извлёк координаты каждой вершины. Затем загрузил их в Tableau. И построил bar charts, только нестандартные. От основания здания к каждой точке восходит полупрозрачный столбец, создающий объёмный эффект. Само здание отображается в проекции. Визуализации можно вращать и бары автоматически перестраиваются. В каждом здании - от 11000 до 57000 баров. Высота кодируется цветом.

Иными словами - строим диаграммы, а на выходе получаем архитектурные формы. Диаграммы при этом несут смысл - они отражают высоту. Ось в метрах помогает читать высоты зданий.

Визуализация

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥184🎉3
Топография баскетбола

Начинается баскетбольный сезон. Cегодня идём на первую игру "Уникса". 🏀

С тех пор как на горизонте засияла звезда Майкла Джордана, манера игры в НБА сильно изменилась. Броски постепенно сместились за дугу трёхочковой линии, а вместе с ними изменилась и тактика. Там где раньше игроки рвали оборону и прорывались к кольцу, сегодня чаще бросают издалека. Зрелищность поблекла, но игра стала более расчётливой.

Об этом много пишет журналист ESPN Кирк Голдсберри:
Статья 1, Статья 2

Именно у него я впервые увидел визуализацию Tanaka Contours. Этот метод - разновидность контурной диаграммы (Contour Plot), но с объёмным эффектом: каждый контур отбрасывает тень, и чем их больше, тем выше плотность события.

Интересно, что Tanaka Contours придумал профессор Кичиро Танака ещё в 1950-м, чтобы показывать рельеф на картах.

Я тоже решил перенести этот приём в баскетбол и построил визуализацию плотности бросков разных игроков. Рассматривал броски в радиусе восьми футов от кольца. Контуры рассчитал в Python (Seaborn, Matplotlib) методом kernel density estimation. В визуализации можно регулировать степень "трёхмерности" и при желании, свести всё к стандартным Contour Plot.

Подробно расписал как делать в статье "Contour Plots и оценка плотности событий в Tableau".

Особенно нравится в этой истории то, что одна картинка сразу показывает стиль конкретного баскетболиста. Сравните Шакила О’Нила с другими игроками или Джордана с Харденом. Оба - выдающиеся бомбардиры, но играли абсолютно по-разному.

На Reddit кто-то шутил, что такие графики похожи на рентген мозга 🙂

🖼 Визуализация 'NBA Hot Spots'

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍6😱1
Стартует детский конкурс по визуализации данных. Участники - ребята от 6 до 11 лет и их родители. Буду в составе жюри первого всероссийского конкурса по визуализации данных для детей. Конкурс полностью бесплатный.

Участников ждут:
крутые подарки - iPad, LEGO и ещё много всего классного
обучающие эфиры, где диаграмму можно построить из игрушек или конфет
бонусы каждому ребёнку

Работа с данными - один из ключевых навыков будущего. Конкурс - отличный способ показать детям, что работа с данными - это игра и творчество.

🍀 Регистрация

🍀 Канал конкурса
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍4🥰2
Конструктор карт Mapbox

Mapbox - крутой сервис где можно создавать карты и потом использовать их в своих приложениях. Разработчики и дизайнеры используют его, чтобы визуализировать данные, строить маршруты, добавлять 3D-объекты и полностью менять стиль карты под проект. Благодаря гибкости, скорости и красивому дизайну Mapbox применяют: Strava, Foursquare, Financial Times и NASA.

Свою первую карту я сделал в 2017г. С этого момента накопилось 74 кастомные карты. Большинство для Tableau проектов.

В сервисе можно добавлять слои из данных и шарить карты.

Это карта с трассами Формулы 1 в цветах команды Mercedes-AMG. Здесь рисовал трассы и накладывал слоями.
Карта в цветах Формулы E

Если нужны карты, которые будут не просто фоном, а частью продукта - Mapbox подходит идеально.

Делал статью про Mapbox и интеграцию с PowerBI и Tableau, может кому-то пригодится.

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍6🔥4
Знаменитости по росту

Коротко о том, что случается, если оторвать ноль от графика, и как визуал меняет восприятие фактов.

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣25😁173🥴3
Аналитика от Аристотеля до Data Science

2000 лет назад аналитикой занимались в античности. Аристотель - отец аналитики, а его трактат "Органон" - базовый труд аналитической теории древности. Кроме прочего, он содержит два трактата: "Первая аналитика" (Analytica Priora) и "Вторая аналитика" (Analytica Posteriora). "Аналитики" стали теоретическим фундаментом для всей европейской науки, философии и математики.

Это труд, где Аристотель создал формальную логику или первый в истории "язык рассуждений" (Придумал античный сторителлинг ).

Цель "Первой аналитики" - понять, как устроено правильное умозаключение.
Цель "Второй аналитики" - понять, как из наблюдений и доказательств получить истинное знание.

Меня хватило только на половину "Первой аналитики", но сложно.

Аристотель считал, что истинное знание начинается с наблюдения, но завершается пониманием причин и общих законов, то есть логическим выводом из первых принципов. C данными в Античности было туго, поэтому приходилось доходить до выводов путём рассуждений.

Отец аналитики ввёл основы формальной логики, которой пользовались более 2000 лет до появления математической логики в XIX веке. Он впервые сформулировал идею научного метода: знание строится на доказательстве, а не на вере или авторитете. Вот за это - отдельное спасибо!

Аристотель подходил к анализу через поиск причин, выделяя 4 типа:

Материальная причина (Из чего это состоит?)
Формальная причина (Как это устроено?)
Действенная причина (Кто или что вызывает это?)
Целевая причина (Зачем это происходит, какая цель?)

Поиск первопричины - не просто факт, а смысл происходящего.

Интересно, что те же причины можно спроецировать на современный анализ данных. На картинке выше показано как рассуждают Аристотель и современный аналитик о причинах падения продаж. ChatGPT помог построить таблицу, но логика понятна.

Аристотель искал "почему" через понимание сути и причин.
Аналитик ищет "почему" через данные и доказательства.
Но оба делают одно и то же по сути - ищут логическую связь между явлением и его причиной.

Это всё к тому, что рассуждения и поиск причин без данных - история, которой уже 2000 лет.

А вы, как аналитики, пробовали читать Аристотеля?

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍63
Скоро заканчиваем прием работ на конкурс Дата Кидс!

Буду в составе жюри датавиз конкурса для детей!
О конкурсе:

Дедлайн подачи работ:
30 октября

Что ждёт участников:
• крутые подарки - iPad, LEGO и ещё много всего классного
• обучающие эфиры, где диаграмму можно построить из игрушек или конфет
• бонусы каждому ребёнку
• детский гайд по диаграммам при регистрации

Скоро уже заканчивается прием работ на этот необычный конкурс детского креатива! Спешите!

Участвовать!
👍73🥰3
Транспортные задачи и оптимальные маршруты.

Поиск оптимальных путей в логистике - мощный инструмент, позволяющий существенно сэкономить время и деньги.

Транспортная задача или задача Монжа-Канторовича - это классическая задача линейного программирования о построении оптимального плана перевозок грузов из пунктов отправления в пункты назначения с минимальными затратами.

Советский учёный Леонид Канторович, один из создателей линейного программирования, зачастую работал по ночам и имел склонность к опозданиям. Поэтому, часто пользовался такси. Обратив внимание на простой факт: машины простаивают, а водители неохотно делают короткие поездки, он вместе с группой учёных с помощью математических методов разработал обоснованные тарифы: ввели плату за посадку и уменьшили цену за километраж. Подобный подход затем применяли таксопарки по всему Советскому Союзу.

Леонид Канторович был удостоен Нобелевской премии за вклад в математическую экономику.


В статье "Транспортные задачи в Python и Tableau" я показал пример поиска оптимальных и неоптимальных маршрутов такси. Геометрия дорог не учитывается - рассматриваются прямые, соединяющие точки посадки с точками высадки. На визуализации можно оценить изменение общей длины маршрутов - почти в 5 раз.

Для иллюстрации задачи были взяты координаты 392 отелей на Манхэттене и 392 местоположений такси (все данные с Kaggle). Представим, что нужно все такси отправить во все 392 отеля для 392 постояльцев в один момент.

Для решения задачи в Python используется библиотека "POT: Python Optimal Transport".

Берутся точки начала маршрутов (Source) и точки концов маршрутов (Target).
Строится матрица расстояний или затрат на перемещение (Cost Matrix)
Вычисляются оптимальные маршруты на матрице Optimal Transport
Визуализируются траектории

Подробности описаны в статье.
Визуализация с анимацией позволяет наблюдать, как траектории переходят от неоптимальных к оптимальным. Это пример того, как математическая задача может привести к реальной экономии.

У компании беспилотного такси Waymo есть патент "Route optimization for autonomous driving systems" - в нём описывается способ оптимизации маршрута для автономного автомобиля. Но там всё сложнее, и оптимальные траектории зависят не только от расстояния, но и от других факторов. Оптимальность здесь - баланс безопасностью, данными, надежностью и временем. А Weymo уже начинает локально замещать Uber в Штатах.

Решение сложных транспортных задач задач в масштабах государств находит применение в таких областях как:
Расчёт местоположения логистических центров
Планирование маршрутов транспорта при проведении крупных мероприятий (например, Олимпийские игры или Чемпионат мира по футболу)
Строительство и развитие дорожной инфраструктуры

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍94
Архитектурное наследие Японии

В канале раньше рассказывал про невозможные визуализации в BI. Ещё одна работа с 3D моделями в Tableau рассказывает о классической японской архитектуре. Модели зданий брал из SketchUp. Делал в формате сторителлинга, с описанием и ключевыми событиями для каждого здания на таймлайне. Здания можно поворачивать. Ещё в тексте упоминаются ключевые элементы зданий - их можно подсвечивать на визуализации.

📶 Сама визуализация "Japanese Architectural Heritage"

Большую часть делал в новогодние праздники. Всего около месяца ушло на работу.

Одной из проблем было сделать алгоритм сортировки полигонов в BI по оси Z, чтобы при повороте зданий ближние полигоны перекрывали дальние.

Подробно про такие визы писал в статье "3D модели в Tableau"

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥9