Data Analysis / Big Data
2.83K subscribers
568 photos
4 videos
2 files
2.86K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz.

Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.


Читать: https://habr.com/ru/articles/967736/

#ru

@big_data_analysis | Другие наши каналы
Adaptive Query Execution в Spark 3: как умная оптимизация покончила с ручными танцами с бубном

Проблема "статического планирования" в Spark

Представим ситуацию: мы спланировали маршрут до точки назначения, посмотрели карту как быстрее добраться, даже учли факт дорожной загрузки, чтобы объехать пробки, но неожиданно на самом свободном участке образовался затор из-за аварии в правом ряду. В этот момент понимаем что лучше бы я ехал по навигатору и какая-нибудь “Анфиса” предупреждала меня о дорожной ситуации, чтобы в определенный момент я мог изменить траекторию движения. Именно так годами чувствовали себя разработчики Spark, когда их красиво оптимизированные запросы наталкивались на суровую реальность распределенных данных.


Читать: https://habr.com/ru/companies/gnivc/articles/967656/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно

Подключить LLM к n8n вроде бы просто, но на практике большинство зарубежных сервисов ломают весь процесс. Чтобы получить ключ, приходится использовать карту иностранного банка и заходить с иностранного IP-адреса. Для российских разработчиков и вайбкодеров это превращается в отдельный квест.

Поэтому в инструкции разберем, как настроить работу LLM в n8n без иностранной карты и протестировать все бесплатно. Для примера воспользуемся сервисом VseLLM — это российский аналог OpenRouter, где можно оплачивать модели российской картой. Плюс у сервиса есть готовая интеграция с n8n, поэтому подключение занимает несколько минут. Пользователи VseLLM получают доступ к бесплатному серверу, который развернут и поддерживается командой сервиса. Все работает из коробки, если на вашем балансе есть хотя бы небольшой положительный остаток.

Чтобы протестировать систему, достаточно активировать промокод VSELLM — он начисляет 200 рублей. Этого достаточно, чтобы спокойно протестировать пару нодов и собрать свои первые рабочие цепочки. А если вдруг вы проходите обучение в школе DATAFEELING, то тоже получите доступ бесплатно.


Читать: https://habr.com/ru/companies/datafeel/articles/968376/

#ru

@big_data_analysis | Другие наши каналы
Почему ChatGPT не знает ваших внутренних данных и как это исправить: простое объяснение RAG

Вы думаете, ChatGPT стал идеальным? Может «загуглить» любой факт, анализировать документы, даже писать код? Попробуйте спросить его про внутренние API вашей компании, корпоративные гайдлайны или правила код-ревью. Он молчит — и не зря. Ведь около 80 % рабочего времени программист тратит на поиск информации во внутренних системах.

Сегодня расскажу о технологии, которая решает эту проблему — Retrieval Augmented Generation (RAG).


Читать: https://habr.com/ru/articles/968676/

#ru

@big_data_analysis | Другие наши каналы
Atomic insert in Clickhouse

В этой статье мы поговорим о том, как реализовать поведение атомарной вставки в ClickHouse. Рассмотрим несколько вариантов, подсветим их сильные и слабые стороны, а также, когда каждый из них применять.


Читать: https://habr.com/ru/articles/969282/

#ru

@big_data_analysis | Другие наши каналы
👍2
LLM Evals: движущая сила новой эры ИИ в бизнесе

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.

Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.

Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.


Читать: https://habr.com/ru/articles/969358/

#ru

@big_data_analysis | Другие наши каналы
Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора

Привет, Хабр!
В последние годы потоки данных в различных системах и между ними только увеличиваются, а в дальнейшем этот тренд наврятли изменится. Для работы с данными всегда требуются различные инструменты.

Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL-процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.

Эта статья посвящена написанию процессора для Apache NiFi на Java и требует базовых знаний в области Apache NiFi, опыт программирования на Java и IDE на борту компьютера.


Читать: https://habr.com/ru/articles/969410/

#ru

@big_data_analysis | Другие наши каналы