Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.8K subscribers

576 photos

3 videos

2 files

2.97K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.8K subscribers

Data Analysis / Big Data

Проверяем популярные движки вычислений на задаче BI-доступа с помощью теста ClickBench

В сегодняшней публикации мы попробуем разобраться в производительности популярных MPP-движков в специализированной задаче ХД – предоставлении доступа к денормализованной витрине данных. Также ответим на вопрос: нужен ли ClickHouse в аналитическом ландшафте, спроектированном по принципу Lakehouse-платформ? Для этого будем использовать бенчмарк ClickBench.

ClickBench появился не так давно, в 2022 году. Методика создана и поддерживается командой ClickHouse. Авторы позиционируют его следующим образом - «Этот бенчмарк представляет типичную рабочую нагрузку в следующих областях: анализ потоков кликов и трафика, веб-аналитика, машинно-генерируемые данные, структурированные журналы и данные о событиях. Он охватывает типичные запросы в ad-hoc аналитике и дашбордах реального времени». Последний сценарий вызывает у нас особый интерес, ведь редко встретишь архитектурный дизайн аналитического ландшафта, где не было бы решения на базе ClickHouse именно для этой цели, на вершине пирамиды тракта данных от источника до потребителя.

Читать: https://habr.com/ru/companies/datasapience/articles/978430/

#ru

@big_data_analysis | Другие наши каналы

❤1

345 views09:11

Data Analysis / Big Data

Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли

Какие навыки реально нужны в IT? Разбор рынка по данным hh.ru. Мы обработали 393 000 вакансий за 2025 год и делимся результатами: универсальный стек технологий, медианные зарплаты по специальностям и доля удаленки. А еще — техническая реализация нашего open-source проекта для сбора данных.

Читать: https://habr.com/ru/articles/979118/

#ru

@big_data_analysis | Другие наши каналы

✍1👍1

297 views18:24

Data Analysis / Big Data

Интеграционный маршрут подарков на Новый год – чудо случится в срок

Декабрь… месяц, когда ощущаешь волшебство везде – в первом снеге, в зимнем какао, в запахе хвои, в разноцветных огоньках гирлянд, в шорохе упаковочной бумаги, в улыбках прохожих. Это пора, когда даже самые серьезные взрослые лиды и синьоры, будто на мгновение превращаются в детей, верящих в чудеса стабильной работы новогодних релизов обновления ИТ-ландшафта. ИТ-мир становится волшебнее, а волшебный мир – технологичнее. Мы верим в Деда Мороза и его верных помощников, которые создают новогоднюю сказку, а что если и до волшебного мира добрались инновации? А может Дед Мороз – это самый продвинутый айтишник?

Для организации волшебной сказки для детей и взрослых команда Деда Мороза готовится целый год. Круглый год главный волшебник получает письма с заветными желаниями, к декабрю можно насчитать уже миллиарды запросов на подарки. Наш Дед Мороз «идет в ногу» с современными технологиями, поэтому у него есть секретные ИТ-системы для автоматизации волшебных процессов, построенных на магическом open source-коктейле, включающем заморского оленя Рудольфа - Apache NiFi, с отечественными patch-подковами и упряжкой компонентов ручной работы талантливых мастеров.

Центр управления новогодним волшебством «хо-хо»

Один из ИТ-помощников Деда Мороза – это интеграционная платформа, эдакий центр управления волшебством, который помогает справляться с миллиардами запросов и правильно их обрабатывать в новогодний пик, гарантируя доставку писем в одну сторону и подарков в обратную. Словно сказочный диспетчер чудес, платформа распределяет потоки пожеланий, следит, чтобы ни одно письмо не осталось без ответа, а каждый подарок добрался до получателя точно в срок. Давайте попробуем разобраться в задачах слаженного волшебного процесса.

Читать: https://habr.com/ru/companies/usetech/articles/979338/

#ru

@big_data_analysis | Другие наши каналы

212 views12:52

Data Analysis / Big Data

Как сайты вычисляют мошенников? Детект впна, рейтинг номеров и трекинг курсора

Мошенник заходит на Озон купить товары и воспользоваться для этого данными украденных банковских карт. Ставит прокси, меняет айпи, использует антидетект браузер, закупает пачку номеров. Подготавливает дропов и адреса ПВЗ. Он регистрирует несколько аккаунтов, добавляет товары в корзину и нажимает оплату. На одном акке сайт зависает, на другом требует подтвердить личность, а третий аккаунт живой.

Как Озон заподозрил мошенника, если он учел все и не сделал никаких ошибок.
Что происходит под капотом и что стало с третим аккаунтом?

В этой статье мы разберем как работает эта система, откуда она берет данные и почему Китайский сценарий развития интернета уже наступил

Читать: https://habr.com/ru/companies/femida_search/articles/979586/

#ru

@big_data_analysis | Другие наши каналы

212 views07:44

Data Analysis / Big Data

Автоматизация фоновой аналитики в финтехе с помощью background LLM‑агента: реальный опыт

Всем привет, меня зовут Максим Шаланкин, Machine Learning Team Lead в команде финтеха Big Data MWS. Внутренняя аналитика в финтехе живет в режиме постоянной гонки: новые клиенты приходят, ведут себя по‑разному, а бизнесу нужно быстро понимать, чем группы с разными сценариями отличаются друг от друга. При этом значительная часть работы аналитика — это однотипное сравнение когорт и поиски закономерностей в табличках и графиках. Фоновый LLM‑агент, который умеет сам поднимать данные, запускать статистические проверки и возвращать готовые инсайты, заметно сокращает путь от данных до решения.

Под катом — разбор, как устроен такой background‑агент для анализа активности новых клиентов, на чем он основан, как мы минимизируем галлюцинации и почему выбрали архитектуру, похожую на Claude Skills, а не идем в сторону MCP‑подхода.

Читать: https://habr.com/ru/companies/ru_mts/articles/978386/

#ru

@big_data_analysis | Другие наши каналы

229 views07:53

Data Analysis / Big Data

Масштабный анализ данных астрометрического обзора Gaia DR3

В данной работе представлен комплексный анализ звёздного населения Млечного Пути на основе данных миссии Gaia DR3. Рассматриваются методы массовой выгрузки и обработки десятков миллионов астрономических объектов с использованием распределённой архитектуры Map/Reduce. Построены ключевые распределения: расстояния, фотометрические величины (G, BP, RP), собственные движения, HR‑диаграмма, а также карта небесной сферы. Проведен анализ погрешностей измерений и выявлены наблюдательные и селекционные эффекты.

Читать: https://habr.com/ru/articles/979722/

#ru

@big_data_analysis | Другие наши каналы

230 views11:31

Data Analysis / Big Data

Аналитическая инфраструктура для сбора и исследования данных Steam: архитектура, пайплайны, результаты

Steam — одна из крупнейших платформ цифровой дистрибуции игр, и одновременно огромный источник данных: каталоги игр, отзывы, достижения, ценовые метрики, активность игроков, региональные различия и многое другое. Однако прямого доступа к агрегированным данным у исследователей нет — их необходимо собирать вручную через Steam Web API и сторонние сервисы.

В этом проекте мы разработали полноценный программный комплекс для автоматизированного сбора, хранения и анализа данных Steam. Построили двухуровневую архитектуру хранилища, реализовали оркестрацию чанков, разработали пайплайны работы с API и конфигурацию параллельного масштабирования. На основе собранных данных сформирован датасет объёмом десятки тысяч игр и сотни тысяч пользователей — и проведён базовый аналитический обзор рынка.

Читать: https://habr.com/ru/articles/979792/

#ru

@big_data_analysis | Другие наши каналы

249 views13:32

Data Analysis / Big Data

Ловись, лид, большой и маленький

Привет, Хабр!

Меня зовут Максим Ломаев, и, перед тем как начать, хочу предупредить, что эта статья — отчасти эксперимент. Честно говоря, даже не уверен, насколько он удачный, и могу предположить, что подобный формат не всем придётся по вкусу. Но всё же я решился на публикацию, потому что хочу поделиться наблюдениями, которые, на мой взгляд, заслуживают внимания, даже если звучат неожиданно или спорно.

Речь пойдёт о новых методах нездоровой конкуренции с использованием больших данных и автоматизированных процессов. Эта статья о том, как ваши конкуренты, анализируя BigData мобильных операторов, получают список потенциальных клиентов, которые к вам уже обращались.

Таких кейсов в публичном поле почти нет, но кража клиентов уже ведётся. Если вам не хочется погружаться в художественную предысторию моего повествования, сразу переходите к главе 3 «Научная». Там — суть проблемы, без прикрас и обёрток.

Читать: https://habr.com/ru/companies/ntc-vulkan/articles/979248/

#ru

@big_data_analysis | Другие наши каналы

235 views07:12

Data Analysis / Big Data

Практический опыт StarRocks: импорт JSON и CSV из Kafka с помощью Routine Load

В архитектуре потоковой обработки данных Kafka, как высокопроизводительная очередь сообщений, обычно используется для агрегации данных, а StarRocks, как высокопроизводительная аналитическая СУБД, отвечает за хранение и анализ. С помощью Routine Load можно стабильно и эффективно загружать в StarRocks данные в форматах JSON и CSV из Kafka.

Читать: https://habr.com/ru/articles/980134/

#ru

@big_data_analysis | Другие наши каналы

236 views12:27

Data Analysis / Big Data

Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов?

Ответ: фундаментально изменилась парадигма хранения и обработки данных.

В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур.

Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...

Читать: https://habr.com/ru/companies/cinimex/articles/978522/

#ru

@big_data_analysis | Другие наши каналы

👍1

264 views16:13

Data Analysis / Big Data

Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

Читать: https://habr.com/ru/articles/980392/

#ru

@big_data_analysis | Другие наши каналы

252 views08:40

Data Analysis / Big Data

построение интеллектуальной системы вопросов и ответов и корпоративной базы знаний на базе StarRocks + DeepSeek

Типовые сценарии на базе StarRocks + DeepSeek. DeepSeek: генерация качественных эмбеддингов и ответов, StarRocks: высокоэффективный векторный поиск и хранение.Вместе они образуют основу для точных и масштабируемых AI‑решений.

Читать: https://habr.com/ru/articles/980410/

#ru

@big_data_analysis | Другие наши каналы

270 views09:04

Data Analysis / Big Data

Есть ли жизнь после Vertica или миграция DWH в Lakehouse

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито.

Последний раз мы подробно писали о нашей платформе почти четыре года назад — в статье «Эволюция хранилища данных в Авито». С тех пор аналитическая платформа сильно изменилась — и по масштабу, и по сложности.

Читать: https://habr.com/ru/companies/avito/articles/979836/

#ru

@big_data_analysis | Другие наши каналы

❤1👍1

260 views16:29

Data Analysis / Big Data

Внутренняя БД FineBI и аналитика BI-системы

Привет, Хабр! Меня зовут Юлианна Валиуллина и я главный эксперт по развитию BI в банке Уралсиб.

Для начала немного о нас: мы практикуем self-service подход, в банке более 200 разработчиков, из них 150 имеют опубликованные дашборды, остальные делают аналитику для себя. Более 1200 опубликованных дашбордов, MAU около 1500. Большая часть дашбордов в нашем банке работает в spider(extract) режиме, доля direct 15-20%.

Такое количество пользователей и разработчиков требует высокого уровня автоматизации для осуществления поддержки и администрирования. В этой статье хочу рассказать о том, как мы строим внутреннюю аналитику BI системы.

Читать: https://habr.com/ru/companies/uralsib/articles/980872/

#ru

@big_data_analysis | Другие наши каналы

275 views12:28

Data Analysis / Big Data

Больше, чем BI: 23 фичи Luxms BI, которыми мы гордимся. Часть 4: фичи, которых нет в других BI-системах

Это заключительная часть серии «23 фичи Luxms BI, которыми мы гордимся». В первой мы говорили о платформенности и архитектуре, о фундаменте системы. Во второй – о классическом BI-функционале. В третьей – о возможностях, выходящих за рамки привычной бизнес-аналитики.

А сегодня расскажем о том, что принципиально отличает Luxms BI от аналогов, о фичах, которых нет в других BI-системах. Эти особенности – прямое следствие нашей экспертизы и особенных подходов к архитектуре, и они часто становятся решающим аргументом для тех, кто выбирает платформу для серьезных, долгосрочных проектов.

Читать: https://habr.com/ru/companies/luxms_bi/articles/980886/

#ru

@big_data_analysis | Другие наши каналы

274 views12:28

Data Analysis / Big Data

Trino в Авито два года спустя: от движка к полноценной экосистеме

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Avito. Уже третий год мы занимаемся миграцией с Vertica на Trino. Изначально казалось, что это будет просто: перенесём запросы, перепишем коннекторы, чуть подправим пайплайны.

Но за два с лишним года миграция перестала быть просто миграцией: проект разросся в инженерную одиссею, и вокруг Trino мы начали строить целую экосистему. Как это было — рассказываю под катом.

Читать: https://habr.com/ru/companies/avito/articles/979912/

#ru

@big_data_analysis | Другие наши каналы

304 views08:25

Data Analysis / Big Data

ML-аналитика, какие проблемы решает, инструменты, зачем выделять ресурсы

Привет, Хабр! Меня зовут Игорь Миленький, я руководитель отдела ML-аналитики в музыкальном сервисе Звук. Расскажу об еще одной профессии в Data Science, ML-аналитике, и покажу на практике, как устроена работа команды в Звуке. В статье хотел бы дать общее представление о профессии ML-аналитика и примерах задач.

Читать: https://habr.com/ru/articles/981270/

#ru

@big_data_analysis | Другие наши каналы

256 views10:43

Data Analysis / Big Data

Вы строите Lakehouse, а сторадж строит вам проблемы. Что делать?

Всем привет! Меня зовут Дмитрий Листвин, я занимаюсь аналитическим хранилищем данных в Авито.

В этой статье хочу поделиться нашим опытом построения Lakehouse поверх объектного хранилища — и тем, как реальная аналитическая нагрузка быстро превращает «обычный S3» в самый капризный элемент всей архитектуры. Будет много про извлечение максимума производительности из Ceph: как добиться высокой пропускной способности HDD, когда поверх данных хочется запускать тяжёлые аналитические запросы.

Читать: https://habr.com/ru/companies/avito/articles/980980/

#ru

@big_data_analysis | Другие наши каналы

👍1

278 views14:29

Data Analysis / Big Data

Весь год вы носили футболки и джинсы… Хватит!

Заглядывайте к нам в виртуальную примерочную и выбирайте себе идеальный скин для встречи Нового года.

Осторожно, эти наряды могут наповал сразить ваших коллег…

Реклама

317 views09:02

Data Analysis / Big Data

Когда рост лидов превращается в деградацию процесса: кейс про перегрев колл-центра

Аномалия: CRM «горит», хотя графики растут

Утро. На белой доске ещё держится вчерашний план смены, а в CRM задачи мигают красным — как гирлянда, только без ощущения праздника. При этом на дашбордах всё выглядит прилично: лидов больше, звонков больше, эфир растёт.

Проблема в том, что «больше» не всегда означает «лучше». В процессах с ограниченным ресурсом (в нашем случае — люди и минуты эфира) рост входа часто масштабирует не результат, а потери: очереди, лишние пересадки, паузы в коммуникации, усталость смены.

Эта статья — про момент, когда мы перестали считать рост лидов победой и начали смотреть на управляемость. Данные простые, выводы — скучные. Но именно скучные решения обычно держат систему.

Контекст: вход процесса — лид, выход — следующий шаг

Мы — Lead IT. Приводим застройщикам лиды по фиксированной цене и работаем по CPA. Плюс держим свой колл‑центр..

Чтобы не путаться, зафиксируем термины как процесс.

Читать: https://habr.com/ru/articles/981598/

#ru

@big_data_analysis | Другие наши каналы

291 views11:31