Data Analysis / Big Data
2.8K subscribers
576 photos
3 videos
2 files
2.97K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли

Какие навыки реально нужны в IT? Разбор рынка по данным hh.ru. Мы обработали 393 000 вакансий за 2025 год и делимся результатами: универсальный стек технологий, медианные зарплаты по специальностям и доля удаленки. А еще — техническая реализация нашего open-source проекта для сбора данных.


Читать: https://habr.com/ru/articles/979118/

#ru

@big_data_analysis | Другие наши каналы
1👍1
Интеграционный маршрут подарков на Новый год – чудо случится в срок

Декабрь… месяц, когда ощущаешь волшебство везде – в первом снеге, в зимнем какао, в запахе хвои, в разноцветных огоньках гирлянд, в шорохе упаковочной бумаги, в улыбках прохожих. Это пора, когда даже самые серьезные взрослые лиды и синьоры, будто на мгновение превращаются в детей, верящих в чудеса стабильной работы новогодних релизов обновления ИТ-ландшафта. ИТ-мир становится волшебнее, а волшебный мир – технологичнее. Мы верим в Деда Мороза и его верных помощников, которые создают новогоднюю сказку, а что если и до волшебного мира добрались инновации? А может Дед Мороз – это самый продвинутый айтишник?

Для организации волшебной сказки для детей и взрослых команда Деда Мороза готовится целый год. Круглый год главный волшебник получает письма с заветными желаниями, к декабрю можно насчитать уже миллиарды запросов на подарки. Наш Дед Мороз «идет в ногу» с современными технологиями, поэтому у него есть секретные ИТ-системы для автоматизации волшебных процессов, построенных на магическом open source-коктейле, включающем заморского оленя Рудольфа - Apache NiFi, с отечественными patch-подковами  и упряжкой компонентов ручной работы талантливых мастеров.

Центр управления новогодним волшебством «хо-хо»

Один из ИТ-помощников Деда Мороза – это интеграционная платформа, эдакий центр управления волшебством, который помогает справляться с миллиардами запросов и правильно их обрабатывать в новогодний пик, гарантируя доставку писем в одну сторону и подарков в обратную. Словно сказочный диспетчер чудес, платформа распределяет потоки пожеланий, следит, чтобы ни одно письмо не осталось без ответа, а каждый подарок добрался до получателя точно в срок. Давайте попробуем разобраться в задачах слаженного волшебного процесса.


Читать: https://habr.com/ru/companies/usetech/articles/979338/

#ru

@big_data_analysis | Другие наши каналы
Как сайты вычисляют мошенников? Детект впна, рейтинг номеров и трекинг курсора

Мошенник заходит на Озон купить товары и воспользоваться для этого данными украденных банковских карт. Ставит прокси, меняет айпи, использует антидетект браузер, закупает пачку номеров. Подготавливает дропов и адреса ПВЗ. Он регистрирует несколько аккаунтов, добавляет товары в корзину и нажимает оплату. На одном акке сайт зависает, на другом требует подтвердить личность, а третий аккаунт живой.

Как Озон заподозрил мошенника, если он учел все и не сделал никаких ошибок.
Что происходит под капотом и что стало с третим аккаунтом?

В этой статье мы разберем как работает эта система, откуда она берет данные и почему Китайский сценарий развития интернета уже наступил


Читать: https://habr.com/ru/companies/femida_search/articles/979586/

#ru

@big_data_analysis | Другие наши каналы
Автоматизация фоновой аналитики в финтехе с помощью background LLM‑агента: реальный опыт

Всем привет, меня зовут Максим Шаланкин, Machine Learning Team Lead в команде финтеха Big Data MWS. Внутренняя аналитика в финтехе живет в режиме постоянной гонки: новые клиенты приходят, ведут себя по‑разному, а бизнесу нужно быстро понимать, чем группы с разными сценариями отличаются друг от друга. При этом значительная часть работы аналитика — это однотипное сравнение когорт и поиски закономерностей в табличках и графиках. Фоновый LLM‑агент, который умеет сам поднимать данные, запускать статистические проверки и возвращать готовые инсайты, заметно сокращает путь от данных до решения.

Под катом — разбор, как устроен такой background‑агент для анализа активности новых клиентов, на чем он основан, как мы минимизируем галлюцинации и почему выбрали архитектуру, похожую на Claude Skills, а не идем в сторону MCP‑подхода.


Читать: https://habr.com/ru/companies/ru_mts/articles/978386/

#ru

@big_data_analysis | Другие наши каналы
Масштабный анализ данных астрометрического обзора Gaia DR3

В данной работе представлен комплексный анализ звёздного населения Млечного Пути на основе данных миссии Gaia DR3. Рассматриваются методы массовой выгрузки и обработки десятков миллионов астрономических объектов с использованием распределённой архитектуры Map/Reduce. Построены ключевые распределения: расстояния, фотометрические величины (G, BP, RP), собственные движения, HR‑диаграмма, а также карта небесной сферы. Проведен анализ погрешностей измерений и выявлены наблюдательные и селекционные эффекты.


Читать: https://habr.com/ru/articles/979722/

#ru

@big_data_analysis | Другие наши каналы
Аналитическая инфраструктура для сбора и исследования данных Steam: архитектура, пайплайны, результаты

Steam — одна из крупнейших платформ цифровой дистрибуции игр, и одновременно огромный источник данных: каталоги игр, отзывы, достижения, ценовые метрики, активность игроков, региональные различия и многое другое. Однако прямого доступа к агрегированным данным у исследователей нет — их необходимо собирать вручную через Steam Web API и сторонние сервисы.

В этом проекте мы разработали полноценный программный комплекс для автоматизированного сбора, хранения и анализа данных Steam. Построили двухуровневую архитектуру хранилища, реализовали оркестрацию чанков, разработали пайплайны работы с API и конфигурацию параллельного масштабирования. На основе собранных данных сформирован датасет объёмом десятки тысяч игр и сотни тысяч пользователей — и проведён базовый аналитический обзор рынка.


Читать: https://habr.com/ru/articles/979792/

#ru

@big_data_analysis | Другие наши каналы
Ловись, лид, большой и маленький

Привет, Хабр!

Меня зовут Максим Ломаев, и, перед тем как начать, хочу предупредить, что эта статья — отчасти эксперимент. Честно говоря, даже не уверен, насколько он удачный, и могу предположить, что подобный формат не всем придётся по вкусу. Но всё же я решился на публикацию, потому что хочу поделиться наблюдениями, которые, на мой взгляд, заслуживают внимания, даже если звучат неожиданно или спорно.

Речь пойдёт о новых методах нездоровой конкуренции с использованием больших данных и автоматизированных процессов. Эта статья о том, как ваши конкуренты, анализируя BigData мобильных операторов, получают список потенциальных клиентов, которые к вам уже обращались.

Таких кейсов в публичном поле почти нет, но кража клиентов уже ведётся. Если вам не хочется погружаться в художественную предысторию моего повествования, сразу переходите к главе 3 «Научная». Там — суть проблемы, без прикрас и обёрток.


Читать: https://habr.com/ru/companies/ntc-vulkan/articles/979248/

#ru

@big_data_analysis | Другие наши каналы
Практический опыт StarRocks: импорт JSON и CSV из Kafka с помощью Routine Load

В архитектуре потоковой обработки данных Kafka, как высокопроизводительная очередь сообщений, обычно используется для агрегации данных, а StarRocks, как высокопроизводительная аналитическая СУБД, отвечает за хранение и анализ. С помощью Routine Load можно стабильно и эффективно загружать в StarRocks данные в форматах JSON и CSV из Kafka.


Читать: https://habr.com/ru/articles/980134/

#ru

@big_data_analysis | Другие наши каналы
Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов?

Ответ: фундаментально изменилась парадигма хранения и обработки данных.

В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур.

Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...


Читать: https://habr.com/ru/companies/cinimex/articles/978522/

#ru

@big_data_analysis | Другие наши каналы
👍1
Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.


Читать: https://habr.com/ru/articles/980392/

#ru

@big_data_analysis | Другие наши каналы
построение интеллектуальной системы вопросов и ответов и корпоративной базы знаний на базе StarRocks + DeepSeek

Типовые сценарии на базе StarRocks + DeepSeek. DeepSeek: генерация качественных эмбеддингов и ответов, StarRocks: высокоэффективный векторный поиск и хранение.Вместе они образуют основу для точных и масштабируемых AI‑решений.


Читать: https://habr.com/ru/articles/980410/

#ru

@big_data_analysis | Другие наши каналы
Есть ли жизнь после Vertica или миграция DWH в Lakehouse

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито.

Последний раз мы подробно писали о нашей платформе почти четыре года назад — в статье «Эволюция хранилища данных в Авито». С тех пор аналитическая платформа сильно изменилась — и по масштабу, и по сложности.


Читать: https://habr.com/ru/companies/avito/articles/979836/

#ru

@big_data_analysis | Другие наши каналы
1👍1
Внутренняя БД FineBI и аналитика BI-системы

Привет, Хабр!  Меня зовут Юлианна Валиуллина и я главный эксперт по развитию BI в банке Уралсиб.

Для начала немного о нас: мы практикуем self-service подход, в банке более 200 разработчиков, из них 150 имеют опубликованные дашборды, остальные делают аналитику для себя. Более 1200 опубликованных дашбордов, MAU около 1500. Большая часть дашбордов в нашем банке работает в spider(extract) режиме, доля direct 15-20%.

Такое количество пользователей и разработчиков требует высокого уровня автоматизации для осуществления поддержки и администрирования. В этой статье хочу рассказать о том, как мы строим внутреннюю аналитику BI системы.


Читать: https://habr.com/ru/companies/uralsib/articles/980872/

#ru

@big_data_analysis | Другие наши каналы
Больше, чем BI: 23 фичи Luxms BI, которыми мы гордимся. Часть 4: фичи, которых нет в других BI-системах

Это заключительная часть серии «23 фичи Luxms BI, которыми мы гордимся». В первой мы говорили о платформенности и архитектуре, о фундаменте системы. Во второй – о классическом BI-функционале. В третьей – о возможностях, выходящих за рамки привычной бизнес-аналитики.

А сегодня расскажем о том, что принципиально отличает Luxms BI от аналогов, о фичах, которых нет в других BI-системах. Эти особенности – прямое следствие нашей экспертизы и особенных подходов к архитектуре, и они часто становятся решающим аргументом для тех, кто выбирает платформу для серьезных, долгосрочных проектов.


Читать: https://habr.com/ru/companies/luxms_bi/articles/980886/

#ru

@big_data_analysis | Другие наши каналы
Trino в Авито два года спустя: от движка к полноценной экосистеме

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Avito. Уже третий год мы занимаемся миграцией с Vertica на Trino. Изначально казалось, что это будет просто: перенесём запросы, перепишем коннекторы, чуть подправим пайплайны.

Но за два с лишним года миграция перестала быть просто миграцией: проект разросся в инженерную одиссею, и вокруг Trino мы начали строить целую экосистему. Как это было — рассказываю под катом.


Читать: https://habr.com/ru/companies/avito/articles/979912/

#ru

@big_data_analysis | Другие наши каналы
ML-аналитика, какие проблемы решает, инструменты, зачем выделять ресурсы

Привет, Хабр! Меня зовут Игорь Миленький, я руководитель отдела ML-аналитики в музыкальном сервисе Звук. Расскажу об еще одной профессии в Data Science, ML-аналитике, и покажу на практике, как устроена работа команды в Звуке. В статье хотел бы дать общее представление о профессии ML-аналитика и примерах задач.


Читать: https://habr.com/ru/articles/981270/

#ru

@big_data_analysis | Другие наши каналы
Вы строите Lakehouse, а сторадж строит вам проблемы. Что делать?

Всем привет! Меня зовут Дмитрий Листвин, я занимаюсь аналитическим хранилищем данных в Авито.

В этой статье хочу поделиться нашим опытом построения Lakehouse поверх объектного хранилища — и тем, как реальная аналитическая нагрузка быстро превращает «обычный S3» в самый капризный элемент всей архитектуры. Будет много про извлечение максимума производительности из Ceph: как добиться высокой пропускной способности HDD, когда поверх данных хочется запускать тяжёлые аналитические запросы.


Читать: https://habr.com/ru/companies/avito/articles/980980/

#ru

@big_data_analysis | Другие наши каналы
👍1
Весь год вы носили футболки и джинсы… Хватит!

Заглядывайте к нам в виртуальную примерочную и выбирайте себе идеальный скин для встречи Нового года.

Осторожно, эти наряды могут наповал сразить ваших коллег…

Реклама
Когда рост лидов превращается в деградацию процесса: кейс про перегрев колл-центра

Аномалия: CRM «горит», хотя графики растут

Утро. На белой доске ещё держится вчерашний план смены, а в CRM задачи мигают красным — как гирлянда, только без ощущения праздника. При этом на дашбордах всё выглядит прилично: лидов больше, звонков больше, эфир растёт.

Проблема в том, что «больше» не всегда означает «лучше». В процессах с ограниченным ресурсом (в нашем случае — люди и минуты эфира) рост входа часто масштабирует не результат, а потери: очереди, лишние пересадки, паузы в коммуникации, усталость смены.

Эта статья — про момент, когда мы перестали считать рост лидов победой и начали смотреть на управляемость. Данные простые, выводы — скучные. Но именно скучные решения обычно держат систему.

Контекст: вход процесса — лид, выход — следующий шаг

Мы — Lead IT. Приводим застройщикам лиды по фиксированной цене и работаем по CPA. Плюс держим свой колл‑центр..

Чтобы не путаться, зафиксируем термины как процесс.


Читать: https://habr.com/ru/articles/981598/

#ru

@big_data_analysis | Другие наши каналы
Ускоряем загрузку данных в BI в 2 раза: кейс команды VK

Apache Superset — востребованное open-source решение для анализа данных, которое можно быстро установить и встроить в существующий технологический стек компании, благодаря большому количеству коннекторов и видов визуализаций. Однако для высоконагруженных систем и сложных сценариев некоторые компании дорабатывают исходную версию — например, внедряют инструменты автоматического кеширования и оптимизируют архитектуру хранения данных для построения графиков. По этому пути в своё время пошли и мы в VK.

Привет, Хабр. Меня зовут Никита Романов. Я руководитель команды разработки аналитических инструментов в VK. В этой статье расскажу о нашем опыте оптимизации Apache Superset под свои задачи.


Читать: https://habr.com/ru/companies/vk/articles/981820/

#ru

@big_data_analysis | Другие наши каналы