Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Что такое большие данные, а что такое маленькие данные?

Каждый год это понятие меняется. Для аналитических систем это важно, ведь мы строим инженерные системы, чтобы обрабатывать большие данные! (Но непонятно, что значит большие данные).

Самое простое определение - данные, которые не помещаются на локальном компьютере и которые мы не можем загрузить в оперативную память, даже если они сжаты.

Мы начинаем смотреть на distributed computing engines - Greenplum, Spark, Snowflake, Trino и т. п. Такие системы умеют обрабатывать данные параллельно.

Часто мы выбираем дорогую систему (distributed) для наших будущих объемов, а кто-то вообще ни разу в жизни ничего не выбирал и работает на legacy всю свою карьеру.

А ведь времена меняются, и теперь мы можем читать 1 ТБ данных с помощью одной машины, если использовать DuckDB. Можете посмотреть подробности в статье -
Processing 1 TB with DuckDB in less than 30 seconds

Товарищ сначала сгенерировал 1 ТБ данных на внешнем SSD, а потом написал к ним запрос. Если использовать MotherDuck и читать данные с S3, будет еще удобнее и быстрее.

В новом году хочу попробовать сократить расходы на Snowflake за счет использования DuckDB.
🐳24❤‍🔥149🌚1
The AI Safety Expert: These Are The Only 5 Jobs That Will Remain In 2030! - Dr. Roman Yampolskiy

Через два года ИИ заменит большинство людей и профессий.
Я имею в виду, что через пять лет мы увидим такой уровень безработицы, которого никогда раньше не было.
Не 10%, а 99%.


Не самое оптимистичное видео про будущее с AI.

Мы точно узнаем, как оно будет, осталось не долго!😌

А вы как думаете? Авось пронесет или будет уже не до шуточек?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈19🙊8🙉5❤‍🔥1🤷1
AI никого не щадит, и уже Тим лидам предлагают 250т
Please open Telegram to view this post
VIEW IN TELEGRAM
1🙈63😭37🌚13🍌2🤷21
Как обещал, я записал видео как я использую Cursor с MCP в повседневной работе, но для начала показал VSCode, Claude Code, Kilo Code, Cline, Openrouter.

https://youtu.be/xYtXv6rqZnA

PS Если у вас есть похожий опыт, можно тоже записать демо и добавить в канал или сделать вебинар.
256❤‍🔥94🍌1
С Новым Годом! 🎄🎉🍾🎊🎆
2❤‍🔥9028🦄21🐳1
Несколько статей, которые рассказывают про терминологию GenAI

Foundation vs. Instruct vs. Thinking Models - Статья объясняет разницу между тремя типами языковых моделей: Base/Foundation модели (предсказывают следующий токен, как библиотека без точки входа), Instruct модели (дообучены выполнять инструкции через SFT и RLHF, как готовое приложение) и Thinking модели (используют chain-of-thought reasoning для сложных задач, как оператор приложения). Автор рекомендует использовать Instruct модели для 90% случаев, Thinking модели для сложной логики (5%), и дообучать Base модели только для специфических доменов (5%).

AI Systems Engineering Patterns - Статья представляет 30 паттернов инженерии AI-систем, сгруппированных в 5 категорий: интерфейс (промпт-шаблоны, структурированный ввод/вывод, санитизация), инструменты (Function Calling, MCP, песочницы), контекст (CAG, RAG, кэширование, память), оркестрация (роутинг, каскадирование, LLM Gateway, Flow Engineering) и агенты (ReAct, планирование, мультиагентные системы). Автор показывает, что опыт традиционной разработки ПО применим к AI-системам через знакомые концепции (кэширование, валидация, композиция), адаптированные для работы с LLM, и для каждого паттерна объясняет применение, компромиссы и риски.


Facilitating AI adoption at Imprint - Статья описывает 18-месячный опыт автора по внедрению AI-инструментов и агентов в компании Imprint, включая подходы к стратегии, обучению сотрудников, созданию внутренних агентов и измерению эффективности. Основной вывод: успешное внедрение AI требует глубокого погружения лидеров в детали, фокуса на реальной продуктивности (а не на имидже), и тесного партнерства между разработчиками платформ и пользователями, а не просто создания инструментов в надежде, что их будут использовать.

Generative AI Strategy - Это презентация в формате слайдов (июнь 2023) с фреймворком для разработки стратегии внедрения generative AI в компании, созданная в ответ на вопрос "Руководство требует внедрить генеративный AI, что делать?". Статья представляет собой набор слайдов с практическим подходом к выбору направлений использования генеративного AI, оценке возможностей и рисков, но автор отмечает, что это ранняя версия идей, которую она планирует развить в полноценную статью позже (есть также видео доклада на YouTube).

Agents - подробная статья (январь 2025, адаптация из книги "AI Engineering") о AI-агентах — системах, которые воспринимают окружение и действуют в нём. Статья охватывает ключевые аспекты: определение агента через окружение и набор инструментов (tools), планирование (разделение на генерацию плана, валидацию и выполнение, дискуссия о способности LLM к планированию), инструменты (три категории: расширение знаний через RAG/поиск, расширение возможностей через калькуляторы/code interpreters, write-действия для изменения данных), рефлексия (паттерны ReAct и Reflexion для анализа и коррекции ошибок), и оценку агентов (режимы отказа в планировании, использовании инструментов и эффективности). Автор подчёркивает, что успех агента зависит от правильного выбора инструментов и качества планировщика, обещая будущие посты про фреймворки и системы памяти.

Common pitfalls when building generative AI applications - Статья описывает 6 типичных ошибок при создании генеративных AI-приложений (январь 2025):
1) использование gen AI там, где он не нужен (многие задачи решаются проще без AI),
2) путаница между "плохим продуктом" и "плохим AI" (часто проблема в UX, а не в технологии,
3) старт со сложных решений (раннее использование фреймворков и fine-tuning вместо простых подходов),
4) переоценка ранних успехов,
5) отказ от человеческой оценки в пользу только AI-судей (лучшие команды ежедневно проверяют 30-1000 примеров вручную для калибровки, обнаружения проблем и улучшения),
6) краудсорсинг use cases без общей стратегии (приводит к множеству мелких низкоэффективных приложений). Автор подчёркивает важность продуктового мышления и стратегии, а не просто технологии.
❤‍🔥10
Building A Generative AI Platform - Это очень подробная статья (июль 2024) о построении платформы для генеративного AI, которая постепенно описывает архитектуру от простейшей (запрос → модель → ответ) до сложной production-системы. Основные компоненты:
1) Context construction (RAG с embedding/term-based поиском, SQL-запросы, веб-поиск, query rewriting),
2) Guardrails (входные для защиты от утечек PII и jailbreaking, выходные для проверки качества/токсичности/галлюцинаций),
3) Router и Gateway (маршрутизация запросов к разным моделям, унифицированный доступ, fallback, контроль доступа),
4) Cache (prompt cache, exact cache, semantic cache для снижения латентности и стоимости),
5) Complex logic (циклы, условное ветвление, write-действия),
6) Observability (метрики, логи, трейсы) и
7) Orchestration (LangChain, LlamaIndex и др., но автор советует начинать без них).

А какие вы порекомендуете свежие ресурсы? Если хотите добавить ее как ссылку в коммент, можно использовать код:



http://ssilka.ru
❤‍🔥10🌚1