Data Analysis / Big Data
2.8K subscribers
576 photos
3 videos
2 files
2.97K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Многофакторное сравнение пяти популярных вычислительных движков для больших данных

Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.

Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»

#ru

@big_data_analysis | Другие наши каналы
Запускаем локально Deepseek-R1 для приложения RAG

Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.

Читать: «Запускаем локально Deepseek-R1 для приложения RAG»

#ru

@big_data_analysis | Другие наши каналы
Навыки аналитика, которым вас никто не учит

Аналитике редко учат напрямую: как выстраивать аналитическое мышление, находить реальные причины изменений в метриках и выбирать KPI, которые ведут к решениям, а не к «красивым отчётам». Эта статья — о навыках аналитика, которые формируются на практике и чаще всего через ошибки.


Читать: https://habr.com/ru/articles/988818/

#ru

@big_data_analysis | Другие наши каналы
Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst

Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом

Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»

#ru

@big_data_analysis | Другие наши каналы
Роль хранилищ и платформ данных в развитии ИИ

Сегодня бизнес активно использует машинное обучение (Machine Learning, ML) для решения самых разных задач — от прогнозирования продаж до автоматизации процессов. Однако искусственный интеллект — это не какое-то волшебство, а математика, методы и алгоритмы, которые не будут работать без качественных и подходящих именно им данных. Чем больше качественных данных доступно для анализа, тем более сложные и точные модели можно построить.

Меня зовут Анна Фенюшина, я ведущий архитектор направления «Дата-сервисы» в VK Tech. В этой статье я разберу, какие поколения ML существуют, какие данные нужны для их реализации и как современные хранилища могут помочь в развитии ИИ.


Читать: https://habr.com/ru/companies/vk/articles/989456/

#ru

@big_data_analysis | Другие наши каналы
Анатомия данных: как устроено управление информацией

Объем информации растет, но без системного подхода данные превращаются в шум. Разбираемся, как в компаниях структурируют, анализируют и защищают данные, чтобы они работали на бизнес, а не создавали хаос.

Читать: «Анатомия данных: как устроено управление информацией»

#ru

@big_data_analysis | Другие наши каналы
Язык Julia: что это и почему он популярен в научных вычислениях

Что такое язык Julia. Показываем сравнение языка Джулия с другими. Рассматриваем преимущества и основные нюансы Tproger

Читать: «Язык Julia: что это и почему он популярен в научных вычислениях»

#ru

@big_data_analysis | Другие наши каналы
10 библиотек Python, которые меняют карьеру

10 библиотек Python, которые помогут прокачаться в аналитике, ML и разработке. Как они работают и почему меняют карьеру.

Читать: «10 библиотек Python, которые меняют карьеру»

#ru

@big_data_analysis | Другие наши каналы
Устраиваем свой Data QA с PyTest и фикстурами

Рабочий подход к тестированию трансформации данных в ETL-процессах. На примере Python-проекта с pytest, allure и psycopg2 демонстрируется, как автоматизировать создание и наполнение таблиц, хранить схемы и данные, а затем сравнивать результат.

Читать: «Устраиваем свой Data QA с PyTest и фикстурами»

#ru

@big_data_analysis | Другие наши каналы
Сравнительный обзор механизмов polling в Kafka и Pub/Sub в RabbitMQ: особенности и области применения

Друзья, привет! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие. В своих проектах и архитектурах мы широко применяем open-source-решения, включая брокеры сообщений, такие как Kafka и RabbitMQ.

Совсем недавно я выступил на конференции HighLoad++ Genesis 2025: рассказал про анатомию каждого из этих брокеров, сравнил их по набору критериев и оценил результаты их нагрузочного тестирования. А теперь решил выпустить этот материал в виде статьи в блоге, чтобы читатели Хабра тоже смогли изучить нюансы и понять, на какие задачи заточен каждый из брокеров. Итак, поехали!

О брокере Apache Kafka я очень подробно рассказал в своей предыдущей статье. Повторяться и снова разбирать его сегодня я не буду — вы можете перейти по ссылке выше и ознакомиться с материалом, а затем вернуться сюда.


Читать: https://habr.com/ru/articles/989590/

#ru

@big_data_analysis | Другие наши каналы
Как мы перестали «угадывать продажи» в FMCG и начали их прогнозировать

Последние годы мы часто работаем с планированием и автоматизацией S&OP в FMCG. Видели десятки прогнозов в Excel, «на глаз», по прошлому году, с ручными коэффициентами на промо и вечными спорами между продажами и планированием.

И чтобы это исправить мы с командой создали и уже внедрили ML-модель, которая учитывает промо-эффекты и цены, работает с данными отгрузок, учитывает продажи с полки, автоматически очищает историю и многое другое. А результаты ее работы можно увидеть уже через 3 месяца после пилота.

Прочитать, как работает ML-модель.
Forwarded from Типичный программист
🔄 Артефакт №1. Категория: «Город» 🔄

От кого только не прилетает самокатчикам. Иногда за дело, иногда нет. Не нам судить, но мы обсудим, что делать, например, с явными нарушителями? Как их контролировать, если операторы кикшеринга не пускают в свои данные? Закрывать глаза на хаос на тротуарах или тотально запрещать?

Мы получили кейс, где за 4 месяца команда из 7 человек создала платформу мониторинга, которая фиксирует самокатовские нарушения. Их задачей было сделать инструмент для структурирования данных, чтобы чиновники и операторы нашли общий язык.

🤩 Что скрывает этот артефакт? 🤩
🤩 Смекалистый метод охоты за данными, когда реальные видео с камер недоступны.
🤩 Принципы, которые помогли сделать мониторинг более объективным.
🤩 Гибридный R&D: тактика, которая помогла запустить MVP за четыре месяца, вместо шести.

Планируем поделиться с вами целой пачкой интересных артефактов. Ставьте 👀, если любопытно узнать их все.
Please open Telegram to view this post
VIEW IN TELEGRAM
👀1
Forwarded from Типичный программист
⚪️ Артефакт №2. Категория «Дизайн» ⚪️

Дашборд — это скучно до того момента, пока к его визуализации не подключат гигантский экран.

Сегодняшняя история о команде, которая превратила обычную статистику посещения фестиваля в генеративное шоу. Их задача звучала как вызов: сделать так, чтобы было невозможно оторвать глаз от дашбордов.

Так они создали интерактивную инсталляцию, где посетители, сами того не зная, становились частью цифрового арт-объекта.

🤩 Что скрывает этот артефакт? 🤩
🤩 Способ связки 40 потоков с YOLO v8, PostgreSQL и движок визуализации без лагов в один конвейер.
🤩 Задачу дедубликации тысяч JSON-записей от нейросетей.
🤩 Борьбу с «сырыми» данными от камер и их преобразование в чистую структуру для базы и красивого рендера.

Следующий артефакт представит категорию «Виртуализация». Не пропустите.
Please open Telegram to view this post
VIEW IN TELEGRAM