Data Analysis / Big Data

Яндекс Дзен или как он вдохнул новую жизнь в ВК

В 2022 году Дзен стал двигаться вместе с ВК, но что это означало под капотом?
Разберём внутрянку технологий рекомендаций Дзена и текущих продуктов ВК по докладам Дмитрия Погорелова до 2024 и самого свежего 2025 с PML.

Узнаем самые первые архитектуры Дзена, что начали делать с увеличением нагрузки и хотелок МЛщиков. Как пришлось выкручиваться, когда столкнулись с объемами ВК.

Спойлер: нам пригодится шардирование
→

Читать: https://habr.com/ru/articles/964384/

#ru

@big_data_analysis | Другие наши каналы

360 views10:43

AI-драгдизайн: первая молекула прошла Фазу II

AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию

Читать: https://habr.com/ru/articles/964554/

#ru

@big_data_analysis | Другие наши каналы

316 views13:17

Data Analysis / Big Data

Не только трансформеры: за пределами стандартных архитектур LLM

Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры.

Каждая архитектура достаточно детально и глубоко разобрана, поэтому если вы интересуетесь LLMками, то будет очень интересно.

Читать: https://habr.com/ru/articles/964658/

#ru

@big_data_analysis | Другие наши каналы

376 views20:35

Data Analysis / Big Data

Как работает цензура на государственном уровне? Разбираем на примере слитого китайского фаерволла. Часть 1

Мы скачали 500 ГБ утечку из Великого Китайского Файрвола чтобы вам не пришлось и решили их изучить. Разбираемся, как он работает, кого обслуживает и как его обходят.

Читать: https://habr.com/ru/companies/femida_search/articles/964664/

#ru

@big_data_analysis | Другие наши каналы

343 views21:23

Data Analysis / Big Data

Что такое маршрутизатор LLM?

Большие языковые модели (LLM) стали основой современных ИИ-продуктов, обеспечивая работу всего - от чат-ботов и виртуальных ассистентов до исследовательских инструментов и корпоративных решений. Но LLM различаются по сильным сторонам, ограничениям и стоимости: одни лучше в рассуждениях, другие - в креативе, коде или работе со структурированными запросами. Здесь и нужен маршрутизатор LLM.

Маршрутизатор LLM работает как «умный диспетчер трафика»: он автоматически направляет промпты в наиболее подходящую модель под конкретную задачу. Вместо одной универсальной модели бизнес и разработчики повышают точность, скорость и снижают затраты, маршрутизируя запросы в реальном времени. По мере роста применения ИИ маршрутизация LLM становится обязательным слоем для масштабируемых, надёжных и эффективных систем.

Читать: https://habr.com/ru/articles/964832/

#ru

@big_data_analysis | Другие наши каналы

320 views11:41

Data Analysis / Big Data

Substrait — lingua franca для баз данных

Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает.
Узнать про Substrait

Читать: https://habr.com/ru/companies/cedrusdata/articles/964800/

#ru

@big_data_analysis | Другие наши каналы

288 views12:37

Data Analysis / Big Data

Как мы починили процессы в ML-команде и сократили T2M на 20%

Привет, Хабр! Меня зовут Василий Сизов. По образованию я инженер-конструктор, а сейчас работаю тимлидом в ВТБ и занимаюсь машинным обучением в CRM и проектами с LLM.

В какой-то момент мне доверили кросс-функциональную команду — и тут пришлось разбираться не только в моделях, но и в процессах, которые обеспечивают их жизнеспособность. В этой статье расскажу, как мы пересобрали эти процессы и сократили Time to Market на 20%. Возможно, вы узнаете в этих историях свои задачи и вызовы – и найдете идеи, которые помогут их решить.

Читать: https://habr.com/ru/companies/vtb/articles/964954/

#ru

@big_data_analysis | Другие наши каналы

294 views06:49

Data Analysis / Big Data

Что лучше — код или drag-and-drop в BI? Дайте и то, и другое

В последние годы анализ данных прошел путь от диаграмм в Excel до сложных интерактивных дашбордов, которые помогают принимать взвешенные решения. Одновременно с этим сформировалось устойчивое представление о дашборде как о наборе диаграмм, таблиц и фильтров, собранных в визуальном редакторе методом drag-and-drop. Этот подход действительно сделал аналитику доступной: он быстрый, понятный и не требует знаний в программировании.

Но! В нашей работе все чаще появляются нетривиальные задачи, поэтому помимо Self-Service мы, команда интерактивной аналитики Инновационного центра «Безопасный транспорт», находим новые способы реализации интересных проектов. В этой статье мы хотим поговорить о том, какую пользу приносит разработка в BI.

Читать: https://habr.com/ru/companies/visiology/articles/965324/

#ru

@big_data_analysis | Другие наши каналы

341 views12:05

Data Analysis / Big Data

3D-карта вместо инстинктов: как робот учится ползать и прыгать

В Гонконге разработали технологию для передвижения четвероногих роботов. Теперь они почти как настоящие животные способны автономно преодолевать экстремально сложные препятствия. Роботы находят обходные пути там, где кажется, что пройти невозможно. Как это стало возможно и какие возможности открывает новая технология?

Читать: https://habr.com/ru/companies/cloud4y/articles/965758/

#ru

@big_data_analysis | Другие наши каналы

325 views14:46

Data Analysis / Big Data

Сверхбыстрые запросы: принципы Compaction при разделении хранения и вычислений в StarRocks и руководство по тюнингу

StarRocks при каждом импорте данных создаёт новую версию, что со временем приводит к росту числа мелких файлов и падению эффективности запросов. Фоновый процесс Compaction объединяет версии, устраняет дубликаты и сокращает количество I/O. В материале разобраны: архитектура Compaction в режиме разделения хранения и вычислений (FE — Scheduler, BE/CN — Executor), диспетчеризация по Partition и Tablet, критерии безопасной очистки данных, а также практики тюнинга. Показано, как смотреть Compaction Score на уровне Partition, отслеживать и отменять задачи, и какие параметры FE/BE/CN действительно влияют на производительность (compact_threads, lake_compaction_max_tasks и др.). Отдельно затронут мониторинг и алерты в Grafana/Prometheus. Текст ориентирован на инженеров DWH/OLAP и эксплуатацию высоконагруженных систем хранения данных.

Читать: https://habr.com/ru/articles/966322/

#ru

@big_data_analysis | Другие наши каналы

❤1

325 views03:27

Data Analysis / Big Data

Как мы тестируем RT.Warehouse: тестовые сценарии, сбор и анализ метрик по результатам тестирования

Привет, Хабр! Меня зовут Ольга Проскурякова, я лид направления тестирования в компании TData. Эта статья - моя первая публикация на Хабре. Буда рада поделиться своим опытом.

Платформа, которую разрабатывает TData – это комплексное решение для работы с большими данными: сбор, управление, хранение, визуализация и анализ. В центре платформы – десяток ключевых продуктов. Все они проходят проверку нашей командой тестировщиков. Сегодня я расскажу о том, как мы тестируем один из них.

Для наглядности опишу предметную область тестирования. Это продукт RT.Warehouse - массивно-параллельная СУБД для построения хранилищ данных, разработанная на базе Greenplum.

RT.Warehouse обеспечивает высокую степень производительности и отказоустойчивости благодаря гибкости горизонтального масштабирования, использованию в ядре продвинутого оптимизатора запросов и адаптации архитектуры для хранения и обработки больших массивов данных.

Читать: https://habr.com/ru/companies/rostelecom/articles/966416/

#ru

@big_data_analysis | Другие наши каналы

👍1

294 views09:31

Data Analysis / Big Data

Как создать динамическую сводную таблицу на Power BI Report Server

Всем привет! Меня зовут Максим Кушнер, и я занимаюсь BI-разработкой в команде HR-аналитики «Лемана Тех». Дашборды, которые создаёт и поддерживает наша команда, охватывают широкий круг HR-процессов компании, в т. ч. состояние и движение персонала, расходы на персонал, продуктивность, контроль использования рабочего времени, обучение, профессиональное развитие, вовлечённость, внутренние конкурсы, различные рейтинги и др. Пользователями дашбордов могут быть все 40 000+ сотрудников нашей компании – от топ-менеджмента до любого работника в магазине. Соответственно, количество различных срезов данных и бизнес-показателей в дашбордах может исчисляться десятками.

И очень часто наши коллеги говорят: «Ваш дашборд, конечно, классный, но нам хочется самим покрутить данные». Другими словами, пользователи хотят построить аналитику в нужных им разрезах и структуре, которые не предусмотрены разработчиком по умолчанию.

Если не пытаться решить эту боль пользователя, то он просто экспортирует сырые данные из дашборда в Excel, где использует инструмент сводных таблиц (pivot tables) для выстраивания аналитики в нужном ему виде. Но тогда встаёт вопрос: зачем нужен такой дашборд (и его разработчики), если пользователь использует его как перевалочный пункт, а основную ценность извлекает из другого инструмента?

Читать: https://habr.com/ru/companies/lemana_tech/articles/965670/

#ru

@big_data_analysis | Другие наши каналы

311 views13:09

Data Analysis / Big Data

Forwarded from Типичный программист

С кем знакомятся типичные программисты: 2D-тян или живая девушка?

Согласно недавним исследованиям Vantage Point Counseling Services, треть американцев хотя бы раз состояла в романтических отношениях с ИИ. Появилось даже приложение Loverse для виртуальных знакомств, где вместо реальных людей роль партнёров выполняют чат-боты с искусственным интеллектом.

Мы решили провести своё исследование и выяснить где и с кем сегодня знакомятся пользователи стран СНГ. Пожалуйста, пройдите наш небольшой опрос. Это поможет нашему исследованию.

Пройти опрос.

❤1👎1

312 views13:13

Data Analysis / Big Data

Как устроена ценуза изнутри. На примере слитого китайского фаерволла (блокировки Tor, VPN, анализ трафика)

Продолжаем нашу серию статей с разбором работы Китайского Firewall'а (GFW). В этой статье углубимся в техническую часть этой системы

Читать: https://habr.com/ru/companies/femida_search/articles/966980/

#ru

@big_data_analysis | Другие наши каналы

🔥1

312 views17:37

Data Analysis / Big Data

Проанализировал 3000 n8n workflow и выделил топ-40 нод. Забирайте в виде pdf

Недавно меня попросили мои студенты сделать для них какой-нибудь гайд по самым популярным нодам в n8n, чтобы быстро погрузить в их разнообразие.

Чтобы моя подборка была действительно из самых часто используемых n8n нод - я спарсил большую коллекцию из 3000 workflows. Разбил ее на ноды. Удалил ноды, которые редко используются в СНГ. Добавил к каждой ноде короткое описание и примеры использования, в итоге получился cheat sheet гайд на почти 40 n8n нод в виде pdf - забирайте pdf по ссылка с гугл драйва!
Забрать pdf файл с результатом анализа

Читать: https://habr.com/ru/companies/datafeel/articles/966656/

#ru

@big_data_analysis | Другие наши каналы

322 views11:01

Data Analysis / Big Data

Добавляем MapReduce в этот наш SQL: генераторы на основе курсоров

Вот уже который год я потихоньку разрабатываю SQL-ный движок на основе Apache Spark, специализированный под задачи ETL. И хотя диалект языка изначально называется «Transform Definition Language», писать трансформации данных непосредственно на нём самом было до сих пор невозможно. Вместо этого на фазе Transform предполагалось использовать подключаемые модули, которые рантайм интерпретатора предоставляет из Java classpath.

Это очень эффективный с точки зрения производительности, но довольно долгий с точки зрения внедрения, и дорогой в разработке способ. Сначала трансформацию надо описать формально в виде статьи-whitepaper'а (это делает data scientist), потом написать прототип на Python (ответственность data analyst), отладиться на сэмпле реальных данных (тоже аналитик), и тогда уже делать и оптимизировать финальную имплементацию на Java с использованием низкоуровневого API Spark (собственно, задача разработчика). Неудобно.

Нельзя ли его как-нибудь сократить? Например, дать аналитикам инструмент для написания трансформаций непосредственно в самом SQL, вынеся некоторую часть функциональности MapReduce как разновидность итерирующих функций? Можно, конечно!
Давайте узнаем, как именно

Читать: https://habr.com/ru/articles/958362/

#ru

@big_data_analysis | Другие наши каналы

❤1

276 views11:49

Data Analysis / Big Data

Глубокое сравнение StarRocks и ClickHouse в задачах аналитики в реальном времени и соображения по выбору

Статья представляет техническое сравнение StarRocks и ClickHouse для real‑time аналитики. На идентичных AWS‑кластерах с набором ~1 ТБ (Parquet, >3 млрд строк) смоделированы параллельные нагрузки (k6) и непрерывный поток UPSERT из PostgreSQL через CDC. Оцениваются субсекундная Latency, согласованность обновлений, полнофункциональные JOIN и операционная простота (TCO). ClickHouse с Replacing/CollapsingMergeTree обеспечивает eventual consistency и нередко требует FINAL/внешних потоковых компонентов. StarRocks с Primary Key Model дает нативный UPSERT с мгновенной видимостью изменений и асинхронным Compaction. В бенчмарках StarRocks показал до ~40% преимущество в длинных запросах, лучший p99/QPS и стабильность (без HTTP 5xx). В контексте Lakehouse StarRocks сильнее за счет внешних таблиц и записи в Apache Iceberg. Рекомендации: ClickHouse — для append‑only сценариев; StarRocks — для real‑time аналитики с частыми обновлениями.

Читать: https://habr.com/ru/articles/967214/

#ru

@big_data_analysis | Другие наши каналы

330 views11:57

Data Analysis / Big Data

Полное руководство по управлению привилегиями в StarRocks

Статья — практическое руководство по управлению привилегиями в StarRocks: объектная модель (SYSTEM, CATALOG, DATABASE, TABLE, VIEW, MATERIALIZED VIEW, FUNCTION и др.), перечень привилегий для каждого типа сущности и соответствующие операции. Разбираем роль‑based доступ (RBAC): встроенные роли (root, cluster_admin, db_admin, user_admin, public), создание собственных ролей и выдачу прав через GRANT/REVOKE с наглядными SQL‑примерами. Отдельный блок — особенности StarRocks: ограничение ресурсов на пользователя (max_user_connections), роли по умолчанию и их активация при входе, массовая выдача прав через public, выполнение от имени другого пользователя (IMPERSONATE/EXECUTE AS). Материал полезен инженерам данных, DBA и разработчикам, работающим с OLAP/MPP‑СУБД и хранилищами данных, а также тем, кто внедряет контроль доступа в аналитических кластерах. Дополнительно освещены создание пользователей с разными методами аутентификации (включая LDAP), управление RESOURCE/RESOURCE GROUP, GLOBAL FUNCTION и STORAGE VOLUME, а также практики безопасной раздачи прав по ролям.

Читать: https://habr.com/ru/articles/967608/

#ru

@big_data_analysis | Другие наши каналы

❤‍🔥1👍1

326 views11:08

Data Analysis / Big Data

Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz.

Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.

Читать: https://habr.com/ru/articles/967736/

#ru

@big_data_analysis | Другие наши каналы

303 views15:59

Data Analysis / Big Data

Adaptive Query Execution в Spark 3: как умная оптимизация покончила с ручными танцами с бубном

Проблема "статического планирования" в Spark

Представим ситуацию: мы спланировали маршрут до точки назначения, посмотрели карту как быстрее добраться, даже учли факт дорожной загрузки, чтобы объехать пробки, но неожиданно на самом свободном участке образовался затор из-за аварии в правом ряду. В этот момент понимаем что лучше бы я ехал по навигатору и какая-нибудь “Анфиса” предупреждала меня о дорожной ситуации, чтобы в определенный момент я мог изменить траекторию движения. Именно так годами чувствовали себя разработчики Spark, когда их красиво оптимизированные запросы наталкивались на суровую реальность распределенных данных.

Читать: https://habr.com/ru/companies/gnivc/articles/967656/

#ru

@big_data_analysis | Другие наши каналы

👍1

339 views13:09

About

Blog

Apps

Platform