Data Analysis / Big Data
2.83K subscribers
568 photos
4 videos
2 files
2.86K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Полное руководство по управлению привилегиями в StarRocks

Статья — практическое руководство по управлению привилегиями в StarRocks: объектная модель (SYSTEM, CATALOG, DATABASE, TABLE, VIEW, MATERIALIZED VIEW, FUNCTION и др.), перечень привилегий для каждого типа сущности и соответствующие операции. Разбираем роль‑based доступ (RBAC): встроенные роли (root, cluster_admin, db_admin, user_admin, public), создание собственных ролей и выдачу прав через GRANT/REVOKE с наглядными SQL‑примерами. Отдельный блок — особенности StarRocks: ограничение ресурсов на пользователя (max_user_connections), роли по умолчанию и их активация при входе, массовая выдача прав через public, выполнение от имени другого пользователя (IMPERSONATE/EXECUTE AS). Материал полезен инженерам данных, DBA и разработчикам, работающим с OLAP/MPP‑СУБД и хранилищами данных, а также тем, кто внедряет контроль доступа в аналитических кластерах. Дополнительно освещены создание пользователей с разными методами аутентификации (включая LDAP), управление RESOURCE/RESOURCE GROUP, GLOBAL FUNCTION и STORAGE VOLUME, а также практики безопасной раздачи прав по ролям.


Читать: https://habr.com/ru/articles/967608/

#ru

@big_data_analysis | Другие наши каналы
❤‍🔥1👍1
Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz.

Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.


Читать: https://habr.com/ru/articles/967736/

#ru

@big_data_analysis | Другие наши каналы
Adaptive Query Execution в Spark 3: как умная оптимизация покончила с ручными танцами с бубном

Проблема "статического планирования" в Spark

Представим ситуацию: мы спланировали маршрут до точки назначения, посмотрели карту как быстрее добраться, даже учли факт дорожной загрузки, чтобы объехать пробки, но неожиданно на самом свободном участке образовался затор из-за аварии в правом ряду. В этот момент понимаем что лучше бы я ехал по навигатору и какая-нибудь “Анфиса” предупреждала меня о дорожной ситуации, чтобы в определенный момент я мог изменить траекторию движения. Именно так годами чувствовали себя разработчики Spark, когда их красиво оптимизированные запросы наталкивались на суровую реальность распределенных данных.


Читать: https://habr.com/ru/companies/gnivc/articles/967656/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно

Подключить LLM к n8n вроде бы просто, но на практике большинство зарубежных сервисов ломают весь процесс. Чтобы получить ключ, приходится использовать карту иностранного банка и заходить с иностранного IP-адреса. Для российских разработчиков и вайбкодеров это превращается в отдельный квест.

Поэтому в инструкции разберем, как настроить работу LLM в n8n без иностранной карты и протестировать все бесплатно. Для примера воспользуемся сервисом VseLLM — это российский аналог OpenRouter, где можно оплачивать модели российской картой. Плюс у сервиса есть готовая интеграция с n8n, поэтому подключение занимает несколько минут. Пользователи VseLLM получают доступ к бесплатному серверу, который развернут и поддерживается командой сервиса. Все работает из коробки, если на вашем балансе есть хотя бы небольшой положительный остаток.

Чтобы протестировать систему, достаточно активировать промокод VSELLM — он начисляет 200 рублей. Этого достаточно, чтобы спокойно протестировать пару нодов и собрать свои первые рабочие цепочки. А если вдруг вы проходите обучение в школе DATAFEELING, то тоже получите доступ бесплатно.


Читать: https://habr.com/ru/companies/datafeel/articles/968376/

#ru

@big_data_analysis | Другие наши каналы
Почему ChatGPT не знает ваших внутренних данных и как это исправить: простое объяснение RAG

Вы думаете, ChatGPT стал идеальным? Может «загуглить» любой факт, анализировать документы, даже писать код? Попробуйте спросить его про внутренние API вашей компании, корпоративные гайдлайны или правила код-ревью. Он молчит — и не зря. Ведь около 80 % рабочего времени программист тратит на поиск информации во внутренних системах.

Сегодня расскажу о технологии, которая решает эту проблему — Retrieval Augmented Generation (RAG).


Читать: https://habr.com/ru/articles/968676/

#ru

@big_data_analysis | Другие наши каналы
Atomic insert in Clickhouse

В этой статье мы поговорим о том, как реализовать поведение атомарной вставки в ClickHouse. Рассмотрим несколько вариантов, подсветим их сильные и слабые стороны, а также, когда каждый из них применять.


Читать: https://habr.com/ru/articles/969282/

#ru

@big_data_analysis | Другие наши каналы
👍2