Data Analysis / Big Data
2.83K subscribers
568 photos
4 videos
2 files
2.86K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
LLM Evals: движущая сила новой эры ИИ в бизнесе

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.

Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.

Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.


Читать: https://habr.com/ru/articles/969358/

#ru

@big_data_analysis | Другие наши каналы
Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора

Привет, Хабр!
В последние годы потоки данных в различных системах и между ними только увеличиваются, а в дальнейшем этот тренд наврятли изменится. Для работы с данными всегда требуются различные инструменты.

Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL-процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.

Эта статья посвящена написанию процессора для Apache NiFi на Java и требует базовых знаний в области Apache NiFi, опыт программирования на Java и IDE на борту компьютера.


Читать: https://habr.com/ru/articles/969410/

#ru

@big_data_analysis | Другие наши каналы
Особенности SUMMARIZE в Power BI

Привет, Хабр! Некоторые функции DAX из Power BI могут выглядеть интуитивно понятными, но при детальном рассмотрении ведут себя не совсем ожидаемо. Например, SUMMARIZE не агрегирует «сразу», в месте использования, но SUMMARIZE реализуется через «виртуальную», «отложенную» агрегацию за счет сохранения состояния. Для суммы, т.е. SUM, промежуточное состояние и есть сумма и особенности SUMMARIZE не проявляются, но для любой другой агрегации (например, среднего AVERAGE) становится понятно, что в Power BI уже учитывается так называемое состояние для корректного расчета SUMMARIZE, т.е. данные по всем записям сохраняются в состоянии. В других СУБД единственный аналог — только State и Merge комбинаторы из ClickHouse, поэтому для иллюстрации состояний будет рассмотрен пример из ClickHouse, соответствующий DAX с SUMMARIZE и AVERAGE. Интересующимся особенностями SUMMARIZE в Power BI — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/969238/

#ru

@big_data_analysis | Другие наши каналы