Data Analysis / Big Data
2.8K subscribers
575 photos
3 videos
2 files
2.97K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как JOIN изменил наш подход к инфраструктуре данных в NAVER

После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.


Читать: https://habr.com/ru/articles/983356/

#ru

@big_data_analysis | Другие наши каналы
Когда ИИ не понимает бизнес-контексты

Сегодня многие компании внедряют ИИ‑ассистентов, которые автоматически пишут SQL‑запросы и помогают менеджерам готовить отчеты. На первый взгляд они отлично справляются с цифрами и синтаксисом, но теряются, когда дело доходит до бизнес-контекста. Почему? Потому что бизнес живет не только данными, но и контекстом: историей компании, внутренними правилами, неформальными договоренностями, культурой.

В результате ИИ превращается в «умное автодополнение», а не в стратегический инструмент. В этой статье разберем, что именно мешает алгоритмам учитывать бизнес‑контекст и какие инженерные подходы помогают превратить статистического помощника в полноценного участника управленческих процессов.


Читать: https://habr.com/ru/companies/beget/articles/980974/

#ru

@big_data_analysis | Другие наши каналы
Типология мышления в аналитической культуре больших языковых моделей (Часть_1)

Миронов В.О., Кальченко С.Н.

Введение

Добрый день, уважаемые хаброгорожане ;)) Крайние тренды по части тестирования современных больших языковых моделей выходят на невиданные высоты и ставится цель: пересматривать не только всю систему анализа моделей, но и саму структуру эволюции нашего подхода к пониманию больших языковых моделей в самом широком контексте. Здесь мы всё больше “скатываемся” к математическому описанию объекта промпта и его понятия. По большому счету, наибольшее понимание, а именно, формирование идей в машинном представлении, основано на геометрическом понимании “форм” слов, а не алгебраическом, в виде векторов, эмбеддингов и матриц, хотя это тоже очень важно на базовом уровне. Отличный пример такого подхода изложен в этой статье, где как раз и показано, что важно, топологическое представление пространства слов и их смыслов, так как оно максимально гибко и позволяет работать с двумя главными понятиями для словоформ: значение и время, в течение которого это значение сохраняется для текущего контекста.

Исходя из этого, не так давно мы проводили анализ понимания речи для чат-ботов и, в частности, для больших языковых моделей. При этом мы задались очень ёмким понятием: каково отношение между пользователем и нейросетью и насколько они хорошо друг друга “понимают”. Чем полнее и общо мы сможем очертить границы этого “понимания”, тем более полно мы сможем формировать промпты для наших запросов, расширить новый уровень абстракции и сформировать новый уровень понимания кода моделью.


Читать: https://habr.com/ru/articles/984062/

#ru

@big_data_analysis | Другие наши каналы
Визуализация на Python за 15 минут: пошаговый гайд по Seaborn для начинающих

Matplotlib — это мощно, но часто «многословно». Чтобы превратить стандартный график в нечто презентабельное, приходится писать десятки строк настройки осей и легенд.
В этой статье я собрал практическую шпаргалку (Cookbook) по библиотеке Seaborn. Разберем, как одной строкой строить красивые Heatmap, Boxplot и Pairplot. Минимум теории, максимум готовых рецептов (copy-paste), которые покроют 90% задач аналитика.


Читать: https://habr.com/ru/articles/984144/

#ru

@big_data_analysis | Другие наши каналы
Соискатель получил отказ в работе от Авито после фидбэка из Яндекса

Предисловие: вся информация находится в открытом доступе. Статья написана с целью привлечения внимания к общественно важной теме.

Я хочу всесторонне разобраться в ситуации, услышать комментарии всех участников (особенно компаний «Яндекс» и «Авито») и только после этого делать какие-либо выводы, и вас к этому тоже призываю.

Недавно вышло интервью HR из Яндекса основателю сообщества «Осознанная меркантильность». В нём говорилось о найме, «красных флагах» в резюме соискателей и другом булщите о найме, от которого уже тошнит...

Примерно сутки спустя в том же сообществе появился комментарий от девушки. Она увидела на YouTube интервью с сотрудницей Яндекса (конкретно из Финтеха, если ссылаться на содержание).

Девушка вспомнила, что эта сотрудница когда-то писала о ней пост в своём Telegram. Я чекнула, там 1500+ подписчиков, включая, скорее всего, HR, так как наша HR из этой истории является публичным лицом, активно участвует в конференциях для HR и ведёт подкаст о HR-сфере на YouTube.

По словам девушки-соискателя, пост HR был обезличен, но содержал много деталей, и её команда, скорее всего, поняла, что речь идёт о ней. Затем девушка пошла на собеседование в Авито, где получила отказ с формулировкой «нам дали плохой фидбэк в Яндексе». Кто дал — неясно. На каком основании вообще запрашивали этот фидбек — тоже неясно. Кто передал информацию о бывшем сотруднике — опять же непонятно.

Такое часто бывает на рынке труда. HR могут собирать информацию друг у друга по знакомству. Не факт, что запрос идёт к вашему бывшему руководителю или коллеге, ведь неизвестно, кто входит в круг общения конкретного рекрутера. Гипотетически возможна ситуация: у вас есть коллега, которая по своим причинам вас недолюбливает или даже ненавидит. HR случайно обратился за реферс, и вуаля, вы не только получаете отказ, но и в системе отслеживания кандидатов (ATS) потенциального работодателя появляется пометка «предыдущие коллеги дали плохой референс». Далее эта метка остаётся в системе, и даже спустя 2–3–4 года новый HR, не вникая в детали, может сделать по ней выводы и отказать вам.


Читать: https://habr.com/ru/articles/984172/

#ru

@big_data_analysis | Другие наши каналы
1
Анимированные визуализации потоков данных: движение товаров, денег и пользователей

В современном мире данным кроме накапливания ещё присуще такое свойство как двигаться. Причём они движутся постоянно. Пользователи переходят между страницами и приложениями, товары перемещаются по глобальным логистическим сетям, а деньги циркулируют между счетами, банками и платёжными системами.

В таких условиях традиционные инструменты аналитики — таблицы, статические графики и отчёты, хорошо отвечают на вопросы сколько? и ему подобные, но плохо показывают как именно это происходит. Чтобы понять динамику процессов, выявить узкие места и увидеть реальные взаимосвязи, всё чаще используют анимированные визуализации потоков данных.

Именно о них предлагаю поговорить сегодня.

В этой статье разберёмся: зачем вообще нужна анимация данных, какие типы потоковых визуализаций существуют, какие технологии используются для их создания и в каких задачах они дают реальную пользу.


Читать: https://habr.com/ru/companies/timeweb/articles/981392/

#ru

@big_data_analysis | Другие наши каналы
👍1
Embedding — как машины понимают смысл текста

Я уверен, вы видели модели машинного обучения, которые принимают текст и предсказывают, является ли он спамом. Аналогично модель может проанализировать отзыв о фильме и определить его тональность — положительную или отрицательную, понимать что «груша» связана с «яблоком» куда больше, чем с «теплоходом».

Первое правило обучения любой модели машинного обучения — это преобразование входных данных в числа. Цифровой объект можно представить числом: картинку, текст, аудио или видеофайл — практически всё что угодно.

Для того чтобы ввести этот объект в нашу ML модель как некое понятие, мы должны преобразовать его в определённый набор чисел. По этому набор чисел мы сможем определить, что, например, этот объект «яблоко», а не «груша».

С картинками все просто. В чёрно-белом изображении (в градациях серого) самый яркий пиксель имеет значение 1, самый тёмный — 0, а оттенки серого имеют значения от 0 до 1. Такое числовое представление упрощает обработку изображений. Преобразовав изображение в цифровую форму на основе значений пикселей, мы можем использовать его в качестве входных данных для обучения нашей модели, позволяя нейронной сети обучаться на значениях пикселей.

Однако что делать с текстом? Как спроецировать буквы в числа?


Читать: https://habr.com/ru/companies/ruvds/articles/983958/

#ru

@big_data_analysis | Другие наши каналы
Открываем ПВЗ с умом: интеграция Геоинтеллекта и DataLens

Мы в Геоинтеллекте любим геоданные и геоаналитику. Часто миксуем технологии. Вот, например, мы попробовали генерировать графики BI системы DataLens внутри платформы для Геоаналитики “Геоинтеллект”. Что из этого вышло, посмотрим на реальном кейсе, которая выполняла наша сотрудница.

Задача

Предположим вы, как аналитик, хотите понять, где выгоднее всего искать помещение для открытия пункта выдачи заказов маркетплейса. Для этого нужно обратить внимание на ряд факторов, которые влияют на выбор:


Читать: https://habr.com/ru/articles/985490/

#ru

@big_data_analysis | Другие наши каналы
Многофакторное сравнение пяти популярных вычислительных движков для больших данных

Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.

Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»

#ru

@big_data_analysis | Другие наши каналы
Запускаем локально Deepseek-R1 для приложения RAG

Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.

Читать: «Запускаем локально Deepseek-R1 для приложения RAG»

#ru

@big_data_analysis | Другие наши каналы
Навыки аналитика, которым вас никто не учит

Аналитике редко учат напрямую: как выстраивать аналитическое мышление, находить реальные причины изменений в метриках и выбирать KPI, которые ведут к решениям, а не к «красивым отчётам». Эта статья — о навыках аналитика, которые формируются на практике и чаще всего через ошибки.


Читать: https://habr.com/ru/articles/988818/

#ru

@big_data_analysis | Другие наши каналы
Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst

Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом

Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»

#ru

@big_data_analysis | Другие наши каналы
Роль хранилищ и платформ данных в развитии ИИ

Сегодня бизнес активно использует машинное обучение (Machine Learning, ML) для решения самых разных задач — от прогнозирования продаж до автоматизации процессов. Однако искусственный интеллект — это не какое-то волшебство, а математика, методы и алгоритмы, которые не будут работать без качественных и подходящих именно им данных. Чем больше качественных данных доступно для анализа, тем более сложные и точные модели можно построить.

Меня зовут Анна Фенюшина, я ведущий архитектор направления «Дата-сервисы» в VK Tech. В этой статье я разберу, какие поколения ML существуют, какие данные нужны для их реализации и как современные хранилища могут помочь в развитии ИИ.


Читать: https://habr.com/ru/companies/vk/articles/989456/

#ru

@big_data_analysis | Другие наши каналы
Анатомия данных: как устроено управление информацией

Объем информации растет, но без системного подхода данные превращаются в шум. Разбираемся, как в компаниях структурируют, анализируют и защищают данные, чтобы они работали на бизнес, а не создавали хаос.

Читать: «Анатомия данных: как устроено управление информацией»

#ru

@big_data_analysis | Другие наши каналы
Язык Julia: что это и почему он популярен в научных вычислениях

Что такое язык Julia. Показываем сравнение языка Джулия с другими. Рассматриваем преимущества и основные нюансы Tproger

Читать: «Язык Julia: что это и почему он популярен в научных вычислениях»

#ru

@big_data_analysis | Другие наши каналы
10 библиотек Python, которые меняют карьеру

10 библиотек Python, которые помогут прокачаться в аналитике, ML и разработке. Как они работают и почему меняют карьеру.

Читать: «10 библиотек Python, которые меняют карьеру»

#ru

@big_data_analysis | Другие наши каналы
Устраиваем свой Data QA с PyTest и фикстурами

Рабочий подход к тестированию трансформации данных в ETL-процессах. На примере Python-проекта с pytest, allure и psycopg2 демонстрируется, как автоматизировать создание и наполнение таблиц, хранить схемы и данные, а затем сравнивать результат.

Читать: «Устраиваем свой Data QA с PyTest и фикстурами»

#ru

@big_data_analysis | Другие наши каналы
Сравнительный обзор механизмов polling в Kafka и Pub/Sub в RabbitMQ: особенности и области применения

Друзья, привет! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие. В своих проектах и архитектурах мы широко применяем open-source-решения, включая брокеры сообщений, такие как Kafka и RabbitMQ.

Совсем недавно я выступил на конференции HighLoad++ Genesis 2025: рассказал про анатомию каждого из этих брокеров, сравнил их по набору критериев и оценил результаты их нагрузочного тестирования. А теперь решил выпустить этот материал в виде статьи в блоге, чтобы читатели Хабра тоже смогли изучить нюансы и понять, на какие задачи заточен каждый из брокеров. Итак, поехали!

О брокере Apache Kafka я очень подробно рассказал в своей предыдущей статье. Повторяться и снова разбирать его сегодня я не буду — вы можете перейти по ссылке выше и ознакомиться с материалом, а затем вернуться сюда.


Читать: https://habr.com/ru/articles/989590/

#ru

@big_data_analysis | Другие наши каналы
Как мы перестали «угадывать продажи» в FMCG и начали их прогнозировать

Последние годы мы часто работаем с планированием и автоматизацией S&OP в FMCG. Видели десятки прогнозов в Excel, «на глаз», по прошлому году, с ручными коэффициентами на промо и вечными спорами между продажами и планированием.

И чтобы это исправить мы с командой создали и уже внедрили ML-модель, которая учитывает промо-эффекты и цены, работает с данными отгрузок, учитывает продажи с полки, автоматически очищает историю и многое другое. А результаты ее работы можно увидеть уже через 3 месяца после пилота.

Прочитать, как работает ML-модель.
Forwarded from Типичный программист
🔄 Артефакт №1. Категория: «Город» 🔄

От кого только не прилетает самокатчикам. Иногда за дело, иногда нет. Не нам судить, но мы обсудим, что делать, например, с явными нарушителями? Как их контролировать, если операторы кикшеринга не пускают в свои данные? Закрывать глаза на хаос на тротуарах или тотально запрещать?

Мы получили кейс, где за 4 месяца команда из 7 человек создала платформу мониторинга, которая фиксирует самокатовские нарушения. Их задачей было сделать инструмент для структурирования данных, чтобы чиновники и операторы нашли общий язык.

🤩 Что скрывает этот артефакт? 🤩
🤩 Смекалистый метод охоты за данными, когда реальные видео с камер недоступны.
🤩 Принципы, которые помогли сделать мониторинг более объективным.
🤩 Гибридный R&D: тактика, которая помогла запустить MVP за четыре месяца, вместо шести.

Планируем поделиться с вами целой пачкой интересных артефактов. Ставьте 👀, если любопытно узнать их все.
Please open Telegram to view this post
VIEW IN TELEGRAM
👀1