Многофакторное сравнение пяти популярных вычислительных движков для больших данных
Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.
Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»
#ru
@big_data_analysis | Другие наши каналы
Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.
Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»
#ru
@big_data_analysis | Другие наши каналы
Запускаем локально Deepseek-R1 для приложения RAG
Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.
Читать: «Запускаем локально Deepseek-R1 для приложения RAG»
#ru
@big_data_analysis | Другие наши каналы
Как запустить DeepSeek локально и использовать её для поиска по документации? Разбираем ключевые особенности модели, её преимущества перед ChatGPT, влияние на рынок и применение технологии RAG.
Читать: «Запускаем локально Deepseek-R1 для приложения RAG»
#ru
@big_data_analysis | Другие наши каналы
Навыки аналитика, которым вас никто не учит
Аналитике редко учат напрямую: как выстраивать аналитическое мышление, находить реальные причины изменений в метриках и выбирать KPI, которые ведут к решениям, а не к «красивым отчётам». Эта статья — о навыках аналитика, которые формируются на практике и чаще всего через ошибки.
Читать: https://habr.com/ru/articles/988818/
#ru
@big_data_analysis | Другие наши каналы
Аналитике редко учат напрямую: как выстраивать аналитическое мышление, находить реальные причины изменений в метриках и выбирать KPI, которые ведут к решениям, а не к «красивым отчётам». Эта статья — о навыках аналитика, которые формируются на практике и чаще всего через ошибки.
Читать: https://habr.com/ru/articles/988818/
#ru
@big_data_analysis | Другие наши каналы
Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst
Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом
Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»
#ru
@big_data_analysis | Другие наши каналы
Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом
Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»
#ru
@big_data_analysis | Другие наши каналы
Роль хранилищ и платформ данных в развитии ИИ
Сегодня бизнес активно использует машинное обучение (Machine Learning, ML) для решения самых разных задач — от прогнозирования продаж до автоматизации процессов. Однако искусственный интеллект — это не какое-то волшебство, а математика, методы и алгоритмы, которые не будут работать без качественных и подходящих именно им данных. Чем больше качественных данных доступно для анализа, тем более сложные и точные модели можно построить.
Меня зовут Анна Фенюшина, я ведущий архитектор направления «Дата-сервисы» в VK Tech. В этой статье я разберу, какие поколения ML существуют, какие данные нужны для их реализации и как современные хранилища могут помочь в развитии ИИ.
Читать: https://habr.com/ru/companies/vk/articles/989456/
#ru
@big_data_analysis | Другие наши каналы
Сегодня бизнес активно использует машинное обучение (Machine Learning, ML) для решения самых разных задач — от прогнозирования продаж до автоматизации процессов. Однако искусственный интеллект — это не какое-то волшебство, а математика, методы и алгоритмы, которые не будут работать без качественных и подходящих именно им данных. Чем больше качественных данных доступно для анализа, тем более сложные и точные модели можно построить.
Меня зовут Анна Фенюшина, я ведущий архитектор направления «Дата-сервисы» в VK Tech. В этой статье я разберу, какие поколения ML существуют, какие данные нужны для их реализации и как современные хранилища могут помочь в развитии ИИ.
Читать: https://habr.com/ru/companies/vk/articles/989456/
#ru
@big_data_analysis | Другие наши каналы
Анатомия данных: как устроено управление информацией
Объем информации растет, но без системного подхода данные превращаются в шум. Разбираемся, как в компаниях структурируют, анализируют и защищают данные, чтобы они работали на бизнес, а не создавали хаос.
Читать: «Анатомия данных: как устроено управление информацией»
#ru
@big_data_analysis | Другие наши каналы
Объем информации растет, но без системного подхода данные превращаются в шум. Разбираемся, как в компаниях структурируют, анализируют и защищают данные, чтобы они работали на бизнес, а не создавали хаос.
Читать: «Анатомия данных: как устроено управление информацией»
#ru
@big_data_analysis | Другие наши каналы
Язык Julia: что это и почему он популярен в научных вычислениях
Что такое язык Julia. Показываем сравнение языка Джулия с другими. Рассматриваем преимущества и основные нюансы ✔ Tproger
Читать: «Язык Julia: что это и почему он популярен в научных вычислениях»
#ru
@big_data_analysis | Другие наши каналы
Что такое язык Julia. Показываем сравнение языка Джулия с другими. Рассматриваем преимущества и основные нюансы ✔ Tproger
Читать: «Язык Julia: что это и почему он популярен в научных вычислениях»
#ru
@big_data_analysis | Другие наши каналы
10 библиотек Python, которые меняют карьеру
10 библиотек Python, которые помогут прокачаться в аналитике, ML и разработке. Как они работают и почему меняют карьеру.
Читать: «10 библиотек Python, которые меняют карьеру»
#ru
@big_data_analysis | Другие наши каналы
10 библиотек Python, которые помогут прокачаться в аналитике, ML и разработке. Как они работают и почему меняют карьеру.
Читать: «10 библиотек Python, которые меняют карьеру»
#ru
@big_data_analysis | Другие наши каналы
Устраиваем свой Data QA с PyTest и фикстурами
Рабочий подход к тестированию трансформации данных в ETL-процессах. На примере Python-проекта с pytest, allure и psycopg2 демонстрируется, как автоматизировать создание и наполнение таблиц, хранить схемы и данные, а затем сравнивать результат.
Читать: «Устраиваем свой Data QA с PyTest и фикстурами»
#ru
@big_data_analysis | Другие наши каналы
Рабочий подход к тестированию трансформации данных в ETL-процессах. На примере Python-проекта с pytest, allure и psycopg2 демонстрируется, как автоматизировать создание и наполнение таблиц, хранить схемы и данные, а затем сравнивать результат.
Читать: «Устраиваем свой Data QA с PyTest и фикстурами»
#ru
@big_data_analysis | Другие наши каналы
Сравнительный обзор механизмов polling в Kafka и Pub/Sub в RabbitMQ: особенности и области применения
Друзья, привет! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие. В своих проектах и архитектурах мы широко применяем open-source-решения, включая брокеры сообщений, такие как Kafka и RabbitMQ.
Совсем недавно я выступил на конференции HighLoad++ Genesis 2025: рассказал про анатомию каждого из этих брокеров, сравнил их по набору критериев и оценил результаты их нагрузочного тестирования. А теперь решил выпустить этот материал в виде статьи в блоге, чтобы читатели Хабра тоже смогли изучить нюансы и понять, на какие задачи заточен каждый из брокеров. Итак, поехали!
О брокере Apache Kafka я очень подробно рассказал в своей предыдущей статье. Повторяться и снова разбирать его сегодня я не буду — вы можете перейти по ссылке выше и ознакомиться с материалом, а затем вернуться сюда.
Читать: https://habr.com/ru/articles/989590/
#ru
@big_data_analysis | Другие наши каналы
Друзья, привет! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие. В своих проектах и архитектурах мы широко применяем open-source-решения, включая брокеры сообщений, такие как Kafka и RabbitMQ.
Совсем недавно я выступил на конференции HighLoad++ Genesis 2025: рассказал про анатомию каждого из этих брокеров, сравнил их по набору критериев и оценил результаты их нагрузочного тестирования. А теперь решил выпустить этот материал в виде статьи в блоге, чтобы читатели Хабра тоже смогли изучить нюансы и понять, на какие задачи заточен каждый из брокеров. Итак, поехали!
О брокере Apache Kafka я очень подробно рассказал в своей предыдущей статье. Повторяться и снова разбирать его сегодня я не буду — вы можете перейти по ссылке выше и ознакомиться с материалом, а затем вернуться сюда.
Читать: https://habr.com/ru/articles/989590/
#ru
@big_data_analysis | Другие наши каналы
Как мы перестали «угадывать продажи» в FMCG и начали их прогнозировать
Последние годы мы часто работаем с планированием и автоматизацией S&OP в FMCG. Видели десятки прогнозов в Excel, «на глаз», по прошлому году, с ручными коэффициентами на промо и вечными спорами между продажами и планированием.
И чтобы это исправить мы с командой создали и уже внедрили ML-модель, которая учитывает промо-эффекты и цены, работает с данными отгрузок, учитывает продажи с полки, автоматически очищает историю и многое другое. А результаты ее работы можно увидеть уже через 3 месяца после пилота.
Прочитать, как работает ML-модель.
Последние годы мы часто работаем с планированием и автоматизацией S&OP в FMCG. Видели десятки прогнозов в Excel, «на глаз», по прошлому году, с ручными коэффициентами на промо и вечными спорами между продажами и планированием.
И чтобы это исправить мы с командой создали и уже внедрили ML-модель, которая учитывает промо-эффекты и цены, работает с данными отгрузок, учитывает продажи с полки, автоматически очищает историю и многое другое. А результаты ее работы можно увидеть уже через 3 месяца после пилота.
Прочитать, как работает ML-модель.
Forwarded from Типичный программист
От кого только не прилетает самокатчикам. Иногда за дело, иногда нет. Не нам судить, но мы обсудим, что делать, например, с явными нарушителями? Как их контролировать, если операторы кикшеринга не пускают в свои данные? Закрывать глаза на хаос на тротуарах или тотально запрещать?
Мы получили кейс, где за 4 месяца команда из 7 человек создала платформу мониторинга, которая фиксирует самокатовские нарушения. Их задачей было сделать инструмент для структурирования данных, чтобы чиновники и операторы нашли общий язык.
Планируем поделиться с вами целой пачкой интересных артефактов. Ставьте 👀, если любопытно узнать их все.
Please open Telegram to view this post
VIEW IN TELEGRAM
👀1
Forwarded from Типичный программист
Дашборд — это скучно до того момента, пока к его визуализации не подключат гигантский экран.
Сегодняшняя история о команде, которая превратила обычную статистику посещения фестиваля в генеративное шоу. Их задача звучала как вызов: сделать так, чтобы было невозможно оторвать глаз от дашбордов.
Так они создали интерактивную инсталляцию, где посетители, сами того не зная, становились частью цифрового арт-объекта.
Следующий артефакт представит категорию «Виртуализация». Не пропустите.
Please open Telegram to view this post
VIEW IN TELEGRAM