Data Analysis / Big Data

Проанализировал 3000 n8n workflow и выделил топ-40 нод. Забирайте в виде pdf

Недавно меня попросили мои студенты сделать для них какой-нибудь гайд по самым популярным нодам в n8n, чтобы быстро погрузить в их разнообразие.

Чтобы моя подборка была действительно из самых часто используемых n8n нод - я спарсил большую коллекцию из 3000 workflows. Разбил ее на ноды. Удалил ноды, которые редко используются в СНГ. Добавил к каждой ноде короткое описание и примеры использования, в итоге получился cheat sheet гайд на почти 40 n8n нод в виде pdf - забирайте pdf по ссылка с гугл драйва!
Забрать pdf файл с результатом анализа

Читать: https://habr.com/ru/companies/datafeel/articles/966656/

#ru

@big_data_analysis | Другие наши каналы

202 views11:01

Добавляем MapReduce в этот наш SQL: генераторы на основе курсоров

Вот уже который год я потихоньку разрабатываю SQL-ный движок на основе Apache Spark, специализированный под задачи ETL. И хотя диалект языка изначально называется «Transform Definition Language», писать трансформации данных непосредственно на нём самом было до сих пор невозможно. Вместо этого на фазе Transform предполагалось использовать подключаемые модули, которые рантайм интерпретатора предоставляет из Java classpath.

Это очень эффективный с точки зрения производительности, но довольно долгий с точки зрения внедрения, и дорогой в разработке способ. Сначала трансформацию надо описать формально в виде статьи-whitepaper'а (это делает data scientist), потом написать прототип на Python (ответственность data analyst), отладиться на сэмпле реальных данных (тоже аналитик), и тогда уже делать и оптимизировать финальную имплементацию на Java с использованием низкоуровневого API Spark (собственно, задача разработчика). Неудобно.

Нельзя ли его как-нибудь сократить? Например, дать аналитикам инструмент для написания трансформаций непосредственно в самом SQL, вынеся некоторую часть функциональности MapReduce как разновидность итерирующих функций? Можно, конечно!
Давайте узнаем, как именно

Читать: https://habr.com/ru/articles/958362/

#ru

@big_data_analysis | Другие наши каналы

171 views11:49

Data Analysis / Big Data

Глубокое сравнение StarRocks и ClickHouse в задачах аналитики в реальном времени и соображения по выбору

Статья представляет техническое сравнение StarRocks и ClickHouse для real‑time аналитики. На идентичных AWS‑кластерах с набором ~1 ТБ (Parquet, >3 млрд строк) смоделированы параллельные нагрузки (k6) и непрерывный поток UPSERT из PostgreSQL через CDC. Оцениваются субсекундная Latency, согласованность обновлений, полнофункциональные JOIN и операционная простота (TCO). ClickHouse с Replacing/CollapsingMergeTree обеспечивает eventual consistency и нередко требует FINAL/внешних потоковых компонентов. StarRocks с Primary Key Model дает нативный UPSERT с мгновенной видимостью изменений и асинхронным Compaction. В бенчмарках StarRocks показал до ~40% преимущество в длинных запросах, лучший p99/QPS и стабильность (без HTTP 5xx). В контексте Lakehouse StarRocks сильнее за счет внешних таблиц и записи в Apache Iceberg. Рекомендации: ClickHouse — для append‑only сценариев; StarRocks — для real‑time аналитики с частыми обновлениями.

Читать: https://habr.com/ru/articles/967214/

#ru

@big_data_analysis | Другие наши каналы

230 views11:57

Data Analysis / Big Data

Полное руководство по управлению привилегиями в StarRocks

Статья — практическое руководство по управлению привилегиями в StarRocks: объектная модель (SYSTEM, CATALOG, DATABASE, TABLE, VIEW, MATERIALIZED VIEW, FUNCTION и др.), перечень привилегий для каждого типа сущности и соответствующие операции. Разбираем роль‑based доступ (RBAC): встроенные роли (root, cluster_admin, db_admin, user_admin, public), создание собственных ролей и выдачу прав через GRANT/REVOKE с наглядными SQL‑примерами. Отдельный блок — особенности StarRocks: ограничение ресурсов на пользователя (max_user_connections), роли по умолчанию и их активация при входе, массовая выдача прав через public, выполнение от имени другого пользователя (IMPERSONATE/EXECUTE AS). Материал полезен инженерам данных, DBA и разработчикам, работающим с OLAP/MPP‑СУБД и хранилищами данных, а также тем, кто внедряет контроль доступа в аналитических кластерах. Дополнительно освещены создание пользователей с разными методами аутентификации (включая LDAP), управление RESOURCE/RESOURCE GROUP, GLOBAL FUNCTION и STORAGE VOLUME, а также практики безопасной раздачи прав по ролям.

Читать: https://habr.com/ru/articles/967608/

#ru

@big_data_analysis | Другие наши каналы

❤‍🔥1👍1

204 views11:08

Data Analysis / Big Data

Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz.

Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.

Читать: https://habr.com/ru/articles/967736/

#ru

@big_data_analysis | Другие наши каналы

195 views15:59

Data Analysis / Big Data

Adaptive Query Execution в Spark 3: как умная оптимизация покончила с ручными танцами с бубном

Проблема "статического планирования" в Spark

Представим ситуацию: мы спланировали маршрут до точки назначения, посмотрели карту как быстрее добраться, даже учли факт дорожной загрузки, чтобы объехать пробки, но неожиданно на самом свободном участке образовался затор из-за аварии в правом ряду. В этот момент понимаем что лучше бы я ехал по навигатору и какая-нибудь “Анфиса” предупреждала меня о дорожной ситуации, чтобы в определенный момент я мог изменить траекторию движения. Именно так годами чувствовали себя разработчики Spark, когда их красиво оптимизированные запросы наталкивались на суровую реальность распределенных данных.

Читать: https://habr.com/ru/companies/gnivc/articles/967656/

#ru

@big_data_analysis | Другие наши каналы

👍1

190 views13:09

Data Analysis / Big Data

Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно

Подключить LLM к n8n вроде бы просто, но на практике большинство зарубежных сервисов ломают весь процесс. Чтобы получить ключ, приходится использовать карту иностранного банка и заходить с иностранного IP-адреса. Для российских разработчиков и вайбкодеров это превращается в отдельный квест.

Поэтому в инструкции разберем, как настроить работу LLM в n8n без иностранной карты и протестировать все бесплатно. Для примера воспользуемся сервисом VseLLM — это российский аналог OpenRouter, где можно оплачивать модели российской картой. Плюс у сервиса есть готовая интеграция с n8n, поэтому подключение занимает несколько минут. Пользователи VseLLM получают доступ к бесплатному серверу, который развернут и поддерживается командой сервиса. Все работает из коробки, если на вашем балансе есть хотя бы небольшой положительный остаток.

Чтобы протестировать систему, достаточно активировать промокод VSELLM — он начисляет 200 рублей. Этого достаточно, чтобы спокойно протестировать пару нодов и собрать свои первые рабочие цепочки. А если вдруг вы проходите обучение в школе DATAFEELING, то тоже получите доступ бесплатно.

Читать: https://habr.com/ru/companies/datafeel/articles/968376/

#ru

@big_data_analysis | Другие наши каналы

193 views10:17

Data Analysis / Big Data

Почему ChatGPT не знает ваших внутренних данных и как это исправить: простое объяснение RAG

Вы думаете, ChatGPT стал идеальным? Может «загуглить» любой факт, анализировать документы, даже писать код? Попробуйте спросить его про внутренние API вашей компании, корпоративные гайдлайны или правила код-ревью. Он молчит — и не зря. Ведь около 80 % рабочего времени программист тратит на поиск информации во внутренних системах.

Сегодня расскажу о технологии, которая решает эту проблему — Retrieval Augmented Generation (RAG).

Читать: https://habr.com/ru/articles/968676/

#ru

@big_data_analysis | Другие наши каналы

149 views07:21

About

Blog

Apps

Platform