Data Analysis / Big Data
2.8K subscribers
576 photos
3 videos
2 files
2.97K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Соискатель получил отказ в работе от Авито после фидбэка из Яндекса

Предисловие: вся информация находится в открытом доступе. Статья написана с целью привлечения внимания к общественно важной теме.

Я хочу всесторонне разобраться в ситуации, услышать комментарии всех участников (особенно компаний «Яндекс» и «Авито») и только после этого делать какие-либо выводы, и вас к этому тоже призываю.

Недавно вышло интервью HR из Яндекса основателю сообщества «Осознанная меркантильность». В нём говорилось о найме, «красных флагах» в резюме соискателей и другом булщите о найме, от которого уже тошнит...

Примерно сутки спустя в том же сообществе появился комментарий от девушки. Она увидела на YouTube интервью с сотрудницей Яндекса (конкретно из Финтеха, если ссылаться на содержание).

Девушка вспомнила, что эта сотрудница когда-то писала о ней пост в своём Telegram. Я чекнула, там 1500+ подписчиков, включая, скорее всего, HR, так как наша HR из этой истории является публичным лицом, активно участвует в конференциях для HR и ведёт подкаст о HR-сфере на YouTube.

По словам девушки-соискателя, пост HR был обезличен, но содержал много деталей, и её команда, скорее всего, поняла, что речь идёт о ней. Затем девушка пошла на собеседование в Авито, где получила отказ с формулировкой «нам дали плохой фидбэк в Яндексе». Кто дал — неясно. На каком основании вообще запрашивали этот фидбек — тоже неясно. Кто передал информацию о бывшем сотруднике — опять же непонятно.

Такое часто бывает на рынке труда. HR могут собирать информацию друг у друга по знакомству. Не факт, что запрос идёт к вашему бывшему руководителю или коллеге, ведь неизвестно, кто входит в круг общения конкретного рекрутера. Гипотетически возможна ситуация: у вас есть коллега, которая по своим причинам вас недолюбливает или даже ненавидит. HR случайно обратился за реферс, и вуаля, вы не только получаете отказ, но и в системе отслеживания кандидатов (ATS) потенциального работодателя появляется пометка «предыдущие коллеги дали плохой референс». Далее эта метка остаётся в системе, и даже спустя 2–3–4 года новый HR, не вникая в детали, может сделать по ней выводы и отказать вам.


Читать: https://habr.com/ru/articles/984172/

#ru

@big_data_analysis | Другие наши каналы
1
Анимированные визуализации потоков данных: движение товаров, денег и пользователей

В современном мире данным кроме накапливания ещё присуще такое свойство как двигаться. Причём они движутся постоянно. Пользователи переходят между страницами и приложениями, товары перемещаются по глобальным логистическим сетям, а деньги циркулируют между счетами, банками и платёжными системами.

В таких условиях традиционные инструменты аналитики — таблицы, статические графики и отчёты, хорошо отвечают на вопросы сколько? и ему подобные, но плохо показывают как именно это происходит. Чтобы понять динамику процессов, выявить узкие места и увидеть реальные взаимосвязи, всё чаще используют анимированные визуализации потоков данных.

Именно о них предлагаю поговорить сегодня.

В этой статье разберёмся: зачем вообще нужна анимация данных, какие типы потоковых визуализаций существуют, какие технологии используются для их создания и в каких задачах они дают реальную пользу.


Читать: https://habr.com/ru/companies/timeweb/articles/981392/

#ru

@big_data_analysis | Другие наши каналы
👍1
Embedding — как машины понимают смысл текста

Я уверен, вы видели модели машинного обучения, которые принимают текст и предсказывают, является ли он спамом. Аналогично модель может проанализировать отзыв о фильме и определить его тональность — положительную или отрицательную, понимать что «груша» связана с «яблоком» куда больше, чем с «теплоходом».

Первое правило обучения любой модели машинного обучения — это преобразование входных данных в числа. Цифровой объект можно представить числом: картинку, текст, аудио или видеофайл — практически всё что угодно.

Для того чтобы ввести этот объект в нашу ML модель как некое понятие, мы должны преобразовать его в определённый набор чисел. По этому набор чисел мы сможем определить, что, например, этот объект «яблоко», а не «груша».

С картинками все просто. В чёрно-белом изображении (в градациях серого) самый яркий пиксель имеет значение 1, самый тёмный — 0, а оттенки серого имеют значения от 0 до 1. Такое числовое представление упрощает обработку изображений. Преобразовав изображение в цифровую форму на основе значений пикселей, мы можем использовать его в качестве входных данных для обучения нашей модели, позволяя нейронной сети обучаться на значениях пикселей.

Однако что делать с текстом? Как спроецировать буквы в числа?


Читать: https://habr.com/ru/companies/ruvds/articles/983958/

#ru

@big_data_analysis | Другие наши каналы
Открываем ПВЗ с умом: интеграция Геоинтеллекта и DataLens

Мы в Геоинтеллекте любим геоданные и геоаналитику. Часто миксуем технологии. Вот, например, мы попробовали генерировать графики BI системы DataLens внутри платформы для Геоаналитики “Геоинтеллект”. Что из этого вышло, посмотрим на реальном кейсе, которая выполняла наша сотрудница.

Задача

Предположим вы, как аналитик, хотите понять, где выгоднее всего искать помещение для открытия пункта выдачи заказов маркетплейса. Для этого нужно обратить внимание на ряд факторов, которые влияют на выбор:


Читать: https://habr.com/ru/articles/985490/

#ru

@big_data_analysis | Другие наши каналы
Многофакторное сравнение пяти популярных вычислительных движков для больших данных

Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.

Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»

#ru

@big_data_analysis | Другие наши каналы
Запускаем локально Deepseek-R1 для приложения RAG

Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.

Читать: «Запускаем локально Deepseek-R1 для приложения RAG»

#ru

@big_data_analysis | Другие наши каналы
Навыки аналитика, которым вас никто не учит

Аналитике редко учат напрямую: как выстраивать аналитическое мышление, находить реальные причины изменений в метриках и выбирать KPI, которые ведут к решениям, а не к «красивым отчётам». Эта статья — о навыках аналитика, которые формируются на практике и чаще всего через ошибки.


Читать: https://habr.com/ru/articles/988818/

#ru

@big_data_analysis | Другие наши каналы
Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst

Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом

Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»

#ru

@big_data_analysis | Другие наши каналы
Роль хранилищ и платформ данных в развитии ИИ

Сегодня бизнес активно использует машинное обучение (Machine Learning, ML) для решения самых разных задач — от прогнозирования продаж до автоматизации процессов. Однако искусственный интеллект — это не какое-то волшебство, а математика, методы и алгоритмы, которые не будут работать без качественных и подходящих именно им данных. Чем больше качественных данных доступно для анализа, тем более сложные и точные модели можно построить.

Меня зовут Анна Фенюшина, я ведущий архитектор направления «Дата-сервисы» в VK Tech. В этой статье я разберу, какие поколения ML существуют, какие данные нужны для их реализации и как современные хранилища могут помочь в развитии ИИ.


Читать: https://habr.com/ru/companies/vk/articles/989456/

#ru

@big_data_analysis | Другие наши каналы
Анатомия данных: как устроено управление информацией

Объем информации растет, но без системного подхода данные превращаются в шум. Разбираемся, как в компаниях структурируют, анализируют и защищают данные, чтобы они работали на бизнес, а не создавали хаос.

Читать: «Анатомия данных: как устроено управление информацией»

#ru

@big_data_analysis | Другие наши каналы
Язык Julia: что это и почему он популярен в научных вычислениях

Что такое язык Julia. Показываем сравнение языка Джулия с другими. Рассматриваем преимущества и основные нюансы Tproger

Читать: «Язык Julia: что это и почему он популярен в научных вычислениях»

#ru

@big_data_analysis | Другие наши каналы
10 библиотек Python, которые меняют карьеру

10 библиотек Python, которые помогут прокачаться в аналитике, ML и разработке. Как они работают и почему меняют карьеру.

Читать: «10 библиотек Python, которые меняют карьеру»

#ru

@big_data_analysis | Другие наши каналы
Устраиваем свой Data QA с PyTest и фикстурами

Рабочий подход к тестированию трансформации данных в ETL-процессах. На примере Python-проекта с pytest, allure и psycopg2 демонстрируется, как автоматизировать создание и наполнение таблиц, хранить схемы и данные, а затем сравнивать результат.

Читать: «Устраиваем свой Data QA с PyTest и фикстурами»

#ru

@big_data_analysis | Другие наши каналы
Сравнительный обзор механизмов polling в Kafka и Pub/Sub в RabbitMQ: особенности и области применения

Друзья, привет! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие. В своих проектах и архитектурах мы широко применяем open-source-решения, включая брокеры сообщений, такие как Kafka и RabbitMQ.

Совсем недавно я выступил на конференции HighLoad++ Genesis 2025: рассказал про анатомию каждого из этих брокеров, сравнил их по набору критериев и оценил результаты их нагрузочного тестирования. А теперь решил выпустить этот материал в виде статьи в блоге, чтобы читатели Хабра тоже смогли изучить нюансы и понять, на какие задачи заточен каждый из брокеров. Итак, поехали!

О брокере Apache Kafka я очень подробно рассказал в своей предыдущей статье. Повторяться и снова разбирать его сегодня я не буду — вы можете перейти по ссылке выше и ознакомиться с материалом, а затем вернуться сюда.


Читать: https://habr.com/ru/articles/989590/

#ru

@big_data_analysis | Другие наши каналы
Как мы перестали «угадывать продажи» в FMCG и начали их прогнозировать

Последние годы мы часто работаем с планированием и автоматизацией S&OP в FMCG. Видели десятки прогнозов в Excel, «на глаз», по прошлому году, с ручными коэффициентами на промо и вечными спорами между продажами и планированием.

И чтобы это исправить мы с командой создали и уже внедрили ML-модель, которая учитывает промо-эффекты и цены, работает с данными отгрузок, учитывает продажи с полки, автоматически очищает историю и многое другое. А результаты ее работы можно увидеть уже через 3 месяца после пилота.

Прочитать, как работает ML-модель.
Forwarded from Типичный программист
🔄 Артефакт №1. Категория: «Город» 🔄

От кого только не прилетает самокатчикам. Иногда за дело, иногда нет. Не нам судить, но мы обсудим, что делать, например, с явными нарушителями? Как их контролировать, если операторы кикшеринга не пускают в свои данные? Закрывать глаза на хаос на тротуарах или тотально запрещать?

Мы получили кейс, где за 4 месяца команда из 7 человек создала платформу мониторинга, которая фиксирует самокатовские нарушения. Их задачей было сделать инструмент для структурирования данных, чтобы чиновники и операторы нашли общий язык.

🤩 Что скрывает этот артефакт? 🤩
🤩 Смекалистый метод охоты за данными, когда реальные видео с камер недоступны.
🤩 Принципы, которые помогли сделать мониторинг более объективным.
🤩 Гибридный R&D: тактика, которая помогла запустить MVP за четыре месяца, вместо шести.

Планируем поделиться с вами целой пачкой интересных артефактов. Ставьте 👀, если любопытно узнать их все.
Please open Telegram to view this post
VIEW IN TELEGRAM
👀1
Forwarded from Типичный программист
⚪️ Артефакт №2. Категория «Дизайн» ⚪️

Дашборд — это скучно до того момента, пока к его визуализации не подключат гигантский экран.

Сегодняшняя история о команде, которая превратила обычную статистику посещения фестиваля в генеративное шоу. Их задача звучала как вызов: сделать так, чтобы было невозможно оторвать глаз от дашбордов.

Так они создали интерактивную инсталляцию, где посетители, сами того не зная, становились частью цифрового арт-объекта.

🤩 Что скрывает этот артефакт? 🤩
🤩 Способ связки 40 потоков с YOLO v8, PostgreSQL и движок визуализации без лагов в один конвейер.
🤩 Задачу дедубликации тысяч JSON-записей от нейросетей.
🤩 Борьбу с «сырыми» данными от камер и их преобразование в чистую структуру для базы и красивого рендера.

Следующий артефакт представит категорию «Виртуализация». Не пропустите.
Please open Telegram to view this post
VIEW IN TELEGRAM