Data Analysis / Big Data
2.83K subscribers
568 photos
4 videos
2 files
2.85K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Substrait — lingua franca для баз данных

Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает.
Узнать про Substrait

Читать: https://habr.com/ru/companies/cedrusdata/articles/964800/

#ru

@big_data_analysis | Другие наши каналы
Как мы починили процессы в ML-команде и сократили T2M на 20%

Привет, Хабр! Меня зовут Василий Сизов. По образованию я инженер-конструктор, а сейчас работаю тимлидом в ВТБ и занимаюсь машинным обучением в CRM и проектами с LLM.

В какой-то момент мне доверили кросс-функциональную команду — и тут пришлось разбираться не только в моделях, но и в процессах, которые обеспечивают их жизнеспособность. В этой статье расскажу, как мы пересобрали эти процессы и сократили Time to Market на 20%. Возможно, вы узнаете в этих историях свои задачи и вызовы – и найдете идеи, которые помогут их решить.


Читать: https://habr.com/ru/companies/vtb/articles/964954/

#ru

@big_data_analysis | Другие наши каналы
Что лучше — код или drag-and-drop в BI? Дайте и то, и другое

В последние годы анализ данных прошел путь от диаграмм в Excel до сложных интерактивных дашбордов, которые помогают принимать взвешенные решения. Одновременно с этим сформировалось устойчивое представление о дашборде как о наборе диаграмм, таблиц и фильтров, собранных в визуальном редакторе методом drag-and-drop. Этот подход действительно сделал аналитику доступной: он быстрый, понятный и не требует знаний в программировании.

Но! В нашей работе все чаще появляются нетривиальные задачи, поэтому помимо Self-Service мы, команда интерактивной аналитики Инновационного центра «Безопасный транспорт», находим новые способы реализации интересных проектов. В этой статье мы хотим поговорить о том, какую пользу приносит разработка в BI.


Читать: https://habr.com/ru/companies/visiology/articles/965324/

#ru

@big_data_analysis | Другие наши каналы
This media is not supported in your browser
VIEW IN TELEGRAM
Бро, ты можешь тут реализоваться и т.д.

Став частью ОТП Банка, именно ты сделаешь сильнее всю команду! Расти, учись и пробуй новое — это твой шанс создать что-то по-настоящему крутое.

Присоединяйся к ребятам и делись роликом с теми, кто тоже готов к переменам 🚀
3D-карта вместо инстинктов: как робот учится ползать и прыгать

В Гонконге разработали технологию для передвижения четвероногих роботов. Теперь они почти как настоящие животные способны автономно преодолевать экстремально сложные препятствия. Роботы находят обходные пути там, где кажется, что пройти невозможно. Как это стало возможно и какие возможности открывает новая технология?


Читать: https://habr.com/ru/companies/cloud4y/articles/965758/

#ru

@big_data_analysis | Другие наши каналы
Сверхбыстрые запросы: принципы Compaction при разделении хранения и вычислений в StarRocks и руководство по тюнингу

StarRocks при каждом импорте данных создаёт новую версию, что со временем приводит к росту числа мелких файлов и падению эффективности запросов. Фоновый процесс Compaction объединяет версии, устраняет дубликаты и сокращает количество I/O. В материале разобраны: архитектура Compaction в режиме разделения хранения и вычислений (FE — Scheduler, BE/CN — Executor), диспетчеризация по Partition и Tablet, критерии безопасной очистки данных, а также практики тюнинга. Показано, как смотреть Compaction Score на уровне Partition, отслеживать и отменять задачи, и какие параметры FE/BE/CN действительно влияют на производительность (compact_threads, lake_compaction_max_tasks и др.). Отдельно затронут мониторинг и алерты в Grafana/Prometheus. Текст ориентирован на инженеров DWH/OLAP и эксплуатацию высоконагруженных систем хранения данных.


Читать: https://habr.com/ru/articles/966322/

#ru

@big_data_analysis | Другие наши каналы
Как мы тестируем RT.Warehouse: тестовые сценарии, сбор и анализ метрик по результатам тестирования

Привет, Хабр! Меня зовут Ольга Проскурякова, я лид направления тестирования в компании TData. Эта статья - моя первая публикация на Хабре. Буда рада поделиться своим опытом.

Платформа, которую разрабатывает TData – это комплексное решение для работы с большими данными: сбор, управление, хранение, визуализация и анализ. В центре платформы – десяток ключевых продуктов. Все они проходят проверку нашей командой тестировщиков. Сегодня я расскажу о том, как мы тестируем один из них.

Для наглядности опишу предметную область тестирования. Это продукт RT.Warehouse - массивно-параллельная СУБД для построения хранилищ данных, разработанная на базе Greenplum.

RT.Warehouse обеспечивает высокую степень производительности и отказоустойчивости благодаря гибкости горизонтального масштабирования, использованию в ядре продвинутого оптимизатора запросов и адаптации архитектуры для хранения и обработки больших массивов данных.


Читать: https://habr.com/ru/companies/rostelecom/articles/966416/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как создать динамическую сводную таблицу на Power BI Report Server

Всем привет! Меня зовут Максим Кушнер, и я занимаюсь BI-разработкой в команде HR-аналитики «Лемана Тех». Дашборды, которые создаёт и поддерживает наша команда, охватывают широкий круг HR-процессов компании, в т. ч. состояние и движение персонала, расходы на персонал, продуктивность, контроль использования рабочего времени, обучение, профессиональное развитие, вовлечённость, внутренние конкурсы, различные рейтинги и др. Пользователями дашбордов могут быть все 40 000+ сотрудников нашей компании – от топ-менеджмента до любого работника в магазине. Соответственно, количество различных срезов данных и бизнес-показателей в дашбордах может исчисляться десятками.

И очень часто наши коллеги говорят: «Ваш дашборд, конечно, классный, но нам хочется самим покрутить данные». Другими словами, пользователи хотят построить аналитику в нужных им разрезах и структуре, которые не предусмотрены разработчиком по умолчанию.

Если не пытаться решить эту боль пользователя, то он просто экспортирует сырые данные из дашборда в Excel, где использует инструмент сводных таблиц (pivot tables) для выстраивания аналитики в нужном ему виде. Но тогда встаёт вопрос: зачем нужен такой дашборд (и его разработчики), если пользователь использует его как перевалочный пункт, а основную ценность извлекает из другого инструмента?


Читать: https://habr.com/ru/companies/lemana_tech/articles/965670/

#ru

@big_data_analysis | Другие наши каналы
Forwarded from Типичный программист
С кем знакомятся типичные программисты: 2D-тян или живая девушка?

Согласно недавним исследованиям Vantage Point Counseling Services, треть американцев хотя бы раз состояла в романтических отношениях с ИИ. Появилось даже приложение Loverse для виртуальных знакомств, где вместо реальных людей роль партнёров выполняют чат-боты с искусственным интеллектом.

Мы решили провести своё исследование и выяснить где и с кем сегодня знакомятся пользователи стран СНГ. Пожалуйста, пройдите наш небольшой опрос. Это поможет нашему исследованию.

Пройти опрос.