🔍 Интерактивное исследование LLM изнутри
Инструмент позволяет буквально пошагово разобрать, как модель приходит к ответу:
✔️ выбираешь модель и промпт — запускаешь инференс
✔️ смотришь граф вкладов (contribution graph)
✔️ выбираешь токен, от которого строится граф
✔️ настраиваешь порог значимости вкладов
✔️ смотришь представление любого токена после любого блока
Для каждого представления можно:
➡️ увидеть проекцию в выходной словарь
➡️ понять, какие токены были усилены или подавлены предыдущим блоком
Всё интерактивно:
✔️ кликабельные рёбра → детали attention head
✔️ кликабельные головы → что именно они усиливают/подавляют
✔️ FFN-блоки → нейроны внутри них
📱 Github
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Инструмент позволяет буквально пошагово разобрать, как модель приходит к ответу:
Для каждого представления можно:
Всё интерактивно:
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
🎉 Вышел Apache Spark 4.1
Релиз получился внушительным — список изменений действительно большой:
👉 https://clc.to/50fxrg
Из основных обновлений и улучшений:
• улучшения в Spark SQL (скрипты, CTE, новые типы данных)
• прокачанный Structured Streaming для real-time сценариев
• Spark Connect стал стабильнее и быстрее
• ускорение Python-UDF через Arrow
• апдейты для Kubernetes и прод-деплоя
• поддержка новых версий Python
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#свежак
Релиз получился внушительным — список изменений действительно большой:
👉 https://clc.to/50fxrg
Из основных обновлений и улучшений:
• улучшения в Spark SQL (скрипты, CTE, новые типы данных)
• прокачанный Structured Streaming для real-time сценариев
• Spark Connect стал стабильнее и быстрее
• ускорение Python-UDF через Arrow
• апдейты для Kubernetes и прод-деплоя
• поддержка новых версий Python
📍 Навигация: Вакансии • Задачи • Собесы
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4
Небольшой, но очень наглядный проект: автор шаг за шагом собирает минималистичную tensor-библиотеку на C, объясняя, как работают нейросети на базовом уровне.
Без PyTorch и NumPy — только математика, структуры данных и явные вычисления.
📖 Статья и проект: https://clc.to/MQ3OGQ
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤1
WANTED: DATA SCIENCE EXPERT
Разыскивается специалист, который видит паттерны там, где остальные видят хаос. Хватит тренировать модели в одиночку — пора обучать людей.
Приметы:
— мастерски владеет
— умеет объяснять сложную математику буквально «на пальцах»;
— реализовал несколько успешных ML-проектов в проде;
— готов делиться знаниями с большой аудиторией.
Суть сделки:
— гонорар за разработку и проведение программ;
— прокачка личного бренда в среде Data Science;
— медийная поддержка от команды Proglib.
Сдаться по ссылке
P.S. Знаешь того, кто «слишком много знает» о нейронках? Сдай его нам.
Разыскивается специалист, который видит паттерны там, где остальные видят хаос. Хватит тренировать модели в одиночку — пора обучать людей.
Приметы:
— мастерски владеет
Python и библиотеками анализа данных;— умеет объяснять сложную математику буквально «на пальцах»;
— реализовал несколько успешных ML-проектов в проде;
— готов делиться знаниями с большой аудиторией.
Суть сделки:
— гонорар за разработку и проведение программ;
— прокачка личного бренда в среде Data Science;
— медийная поддержка от команды Proglib.
Сдаться по ссылке
P.S. Знаешь того, кто «слишком много знает» о нейронках? Сдай его нам.
😢2
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9😁6😢1
This media is not supported in your browser
VIEW IN TELEGRAM
SAM — одна из самых впечатляющих моделей для сегментации изображений. Внутри она состоит из трёх ключевых частей: image encoder, prompt encoder и mask decoder.
Изображение 1024×1024 разбивается на патчи 16×16 → всего 4096 патчей. Каждый патч кодируется в вектор размерности 1280 и проходит через ViT (self-attention).
На выходе получается общее визуальное представление изображения — тензор 256×64×64, своего рода «визуальная память», с которой дальше работает модель.
Обрабатывает пользовательские подсказки:
— точки и bounding box’ы → превращаются в векторы размерности 256
— mask-подсказки → уменьшаются до 64×64 и кодируются свёртками
Важно: никаких трансформеров и self-attention здесь нет, всё максимально лёгкое. Все prompt-векторы объединяются и дополняются специальными токенами для масок и IoU.
Здесь начинается «магия»:
— self-attention между токенами
— cross-attention между токенами и изображением (в обе стороны)
— совместное рассуждение о том, что запросил пользователь и что есть на картинке
Каждый mask-токен в итоге порождает маску, а отдельный IoU-токен оценивает её качество.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍2❤1🎉1
Anthropic выпустили Bloom — open-source фреймворк для поведенческих eval’ов LLM
Идея простая и болезненно актуальная: не тестировать сценарии, которые устаревают быстрее модели, а фиксировать само поведение. Bloom генерирует сценарии автоматически и прогоняет eval за дни, а не недели. Если вы хоть раз переписывали prompt-eval перед релизом — вы целевая аудитория.
Andrej Karpathy — LLM Year in Review 2025
Карпати аккуратно подводит итог: быстрые inference-движки, дистилляция как стандарт, агенты в реальном времени и рост реально сильных open-моделей. Читается как карта местности: где мы есть и куда всё это едет.
Your Year with ChatGPT
OpenAI сделали Spotify Wrapped для ChatGPT. Забавно, но за этим хорошо видно, что ChatGPT всё больше позиционируется как персональный рабочий инструмент, а не просто чат.
NotebookLM научился превращать источники в Data Tables
NotebookLM теперь автоматически собирает структурированные таблицы из документов и сразу готовит их к экспорту в Google Sheets. Мелочь, но именно такие фичи съедают куски ручной аналитической работы.
Google: итоги 2025 — 8 направлений прорывов
Агенты, reasoning, научные открытия — Google подводит итоги года без лишнего маркетинга. Хороший обзор, чтобы понять реальные исследования.
Gemma Scope 2 — интерпретируемость Gemma 3 от DeepMind
Полноценный стек инструментов, который показывает, как модель думает на уровне слоёв и представлений.
Apache Spark 4.1
Улучшения под капотом, оптимизации и стабильность.
📍 Навигация: Вакансии • Задачи • Собесы
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🎉1
От LLM к LMM: переходим к мультиагентным системам и продвинутому RAG 📊
Просто запустить модель — это 10% успеха. Остальные 90% — это логика рассуждений и доступ к актуальным данным. Мы подготовили глубокий курс по созданию автономных AI-агентов.
В фокусе курса:
— реализация паттерна
— глубокий
— использование
— освоение протокола
Ваш результат: готовый проект мультиагентной системы для анализа рынка или автоматизации поддержки.
Глубокое погружение в агентов 🧠
Просто запустить модель — это 10% успеха. Остальные 90% — это логика рассуждений и доступ к актуальным данным. Мы подготовили глубокий курс по созданию автономных AI-агентов.
В фокусе курса:
— реализация паттерна
ReAct (Reasoning + Acting) для автономного планирования;— глубокий
RAG: построение баз знаний, работающих на скоростях ИИ;— использование
CrewAI и AutoGen для координации групп агентов;— освоение протокола
MCP для интеграции с внешними источниками.Ваш результат: готовый проект мультиагентной системы для анализа рынка или автоматизации поддержки.
Глубокое погружение в агентов 🧠
🥱2🥰1
🚀 Запускаем LLM локально — без облаков и лишней боли
Хотите легко запускать большие языковые модели прямо на своём компьютере?
Обратите внимание на LM Studio.
LM Studio — open-source инструмент для локального и приватного запуска LLM:
➡️ загрузка и запуск моделей в пару кликов
➡️ десктоп-приложение
➡️ CLI для автоматизации
➡️ Python / JavaScript SDK
➡️ всё работает локально, без отправки данных в облако
Подходит для экспериментов, прототипов и приватных проектов.
🔗 Репозиторий и сайт: https://clc.to/E3LBMQ
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Хотите легко запускать большие языковые модели прямо на своём компьютере?
Обратите внимание на LM Studio.
LM Studio — open-source инструмент для локального и приватного запуска LLM:
Подходит для экспериментов, прототипов и приватных проектов.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥2😢1
LLMOps_шпаргалка.pdf
84.8 KB
🚀 Шпаргалка по LLMOps
Создавать приложения на базе LLM просто. Настоящий вызов — запускать их надёжно в продакшене.
После деплоя появляются реальные проблемы:
❗️ Латентность — задержки при ответах модели
❗️ Стоимость — расходы на вычисления и API
❗️ Галлюцинации — неверные или вымышленные ответы
❗️ Prompt Drift — отклонения поведения модели со временем
❗️ Evaluation Gaps — пробелы в оценке качества ответов
Эта шпаргалка помогает ориентироваться в LLMOps и управлять жизненным циклом приложений от разработки до продакшена.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Создавать приложения на базе LLM просто. Настоящий вызов — запускать их надёжно в продакшене.
После деплоя появляются реальные проблемы:
Эта шпаргалка помогает ориентироваться в LLMOps и управлять жизненным циклом приложений от разработки до продакшена.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉2❤1👍1🥱1
Линейная регрессия часто представляется как «подгонка прямой к данным». Это удобно, но скрывает истинную математическую суть модели.
На самом деле, модель изучает вероятностное соответствие входов и выходов. Мы предполагаем, что каждое наблюдаемое значение целевой переменной генерируется линейной функцией от входа, искажённой случайным шумом с нормальным распределением.
Это не косметическая деталь — она задаёт всю задачу обучения.
Следствия этой модели:
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2😢1🙏1
Этот год подарил массу ценных материалов: от работы с большими данными и многопоточными системами до LLM и реальных кейсов ML в продакшене.
В подборке для вас:
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉5❤2
📂 ML System Design: 300+ кейсов от ведущих компаний
Ищете реальные примеры построения ML-систем?
Этот репозиторий собрал 300+ кейсов от 80+ ведущих компаний — Netflix, Airbnb, Doordash и других.
➖ Практический опыт, решения и подходы к ML-системам для улучшения продуктов и процессов.
📱 Репозиторий
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Ищете реальные примеры построения ML-систем?
Этот репозиторий собрал 300+ кейсов от 80+ ведущих компаний — Netflix, Airbnb, Doordash и других.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤3👍1🙏1
Если вы работаете с ML в продакшне, этот репозиторий — настоящая находка. Он содержит отборные open-source библиотеки, которые помогут:
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3👍1
Data Science 2026: переход от моделей к автономным агентам
Обучить модель — это полдела. Настоящий вызов сейчас — заставить их работать в команде. Мультиагентность, паттерн
На курсе Proglib Academy мы фокусируемся на практике создания таких систем.
Основные темы:
— сборка
— работа с
— протокол
— создание продвинутых
Инвестируй в стек, который будет кормить тебя весь 2026 год.
🎁 Акция «3 в 1» до 12 января: курс по ИИ-агентам + 2 курса в подарок.
Изучить программу
Обучить модель — это полдела. Настоящий вызов сейчас — заставить их работать в команде. Мультиагентность, паттерн
ReAct и RAG — вот что превращает обычную LLM в боевой бизнес-инструмент.На курсе Proglib Academy мы фокусируемся на практике создания таких систем.
Основные темы:
— сборка
ReAct-агентов: как научить модель рассуждать (Reasoning) и использовать инструменты (Acting);— работа с
CrewAI и AutoGen для оркестрации ролей;— протокол
MCP (Model Context Protocol) от Anthropic;— создание продвинутых
RAG-архитектур для работы с Big Data.Инвестируй в стек, который будет кормить тебя весь 2026 год.
🎁 Акция «3 в 1» до 12 января: курс по ИИ-агентам + 2 курса в подарок.
Изучить программу
🥰1🤔1🥱1
Media is too big
VIEW IN TELEGRAM
Этот проект предлагает другой подход — реализовать более 100 алгоритмов с нуля:
Идеально для тех, кто хочет разобраться как и почему работают модели, а не только как их использовать.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2
Если ты хочешь действительно понимать LLM, а не просто вызывать API, пройди этот roadmap по порядку 👇
Как на самом деле работают attention, токены и self-attention
Что делает трансформеры обучаемыми и эффективными в масштабе
Как архитектура + данные + масштаб превращаются в LLM
Pretraining-объективы и откуда берётся «интеллект» модели
Instruction tuning, alignment и почему fine-tuning критичен
Почему модели ошибаются в логике и что реально это улучшает
Как превратить языковую модель в систему, которая планирует и действует
Как измерять качество моделей, а не «ощущения от демо»
Что меняется прямо сейчас и что будет важно дальше
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤2🤩2🥰1
SVM_шпаргалка.pdf
119.9 KB
SVM часто объясняют как «алгоритм, который рисует линию между классами».
На деле это гораздо более строгая и мощная модель — с чёткой геометрией и оптимизацией.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁15👏1
🚮 Barlow Twins учит эмбеддинги, убирая избыточность
Большинство self-supervised методов (SimCLR, BYOL) делают одно и то же:
— сближают представления разных аугментаций
— избегают коллапса через контрастивные лоссы или предикторы
Но почти не задумываются о том, что происходит внутри самого эмбеддинга.
👉 Barlow Twins — другой.
Он напрямую минимизирует избыточность между измерениями эмбеддинга, заставляя кросс-корреляционную матрицу двух аугментаций стать единичной:
✅ диагональ = 1 → инвариантность к аугментациям
✅ вне диагонали = 0 → никакого дублирования информации между фичами
Каждое измерение обязано нести новую, а не повторяющуюся информацию.
В итоге representation learning превращается в аккуратную компрессию информации:
✅ сохранить всё про объект
✅ забыть искажения
✅ вычистить внутренний шум и повторения
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Большинство self-supervised методов (SimCLR, BYOL) делают одно и то же:
— сближают представления разных аугментаций
— избегают коллапса через контрастивные лоссы или предикторы
Но почти не задумываются о том, что происходит внутри самого эмбеддинга.
Он напрямую минимизирует избыточность между измерениями эмбеддинга, заставляя кросс-корреляционную матрицу двух аугментаций стать единичной:
Каждое измерение обязано нести новую, а не повторяющуюся информацию.
В итоге representation learning превращается в аккуратную компрессию информации:
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🔥2
📊 Graph Laplacian — зачем он нужен и почему везде
Graph Laplacian — это матрица, которая формально описывает, как связаны узлы в графе и насколько каждый узел отличается от среднего по своим соседям.
Где и зачем он используется:
🎲 Теория вероятностей
— Описывает случайные блуждания по графам
— Моделирует диффузию и цепи Маркова
— Показывает, как вероятность «растекается» по сети
🤖 Машинное обучение
— Spectral Clustering — поиск сообществ и кластеров
— Semi-supervised learning — обучение с малым числом меток
— Graph Neural Networks — обучение на графах
— Manifold learning — работа с данными на многообразиях
📐 Анализ структуры
Собственные значения выявляют:
— кластеры и сообщества
— узкие места и bottleneck’и
— самые «гладкие» способы менять функции на данных
Используется для снижения размерности и шумоподавления
🌍 Реальные системы
— Транспортные сети и потоки трафика
— Социальные графы и распространение влияния
— Энергосети и отказоустойчивость
— Рекомендательные системы и распространение информации
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Graph Laplacian — это матрица, которая формально описывает, как связаны узлы в графе и насколько каждый узел отличается от среднего по своим соседям.
Где и зачем он используется:
🎲 Теория вероятностей
— Описывает случайные блуждания по графам
— Моделирует диффузию и цепи Маркова
— Показывает, как вероятность «растекается» по сети
🤖 Машинное обучение
— Spectral Clustering — поиск сообществ и кластеров
— Semi-supervised learning — обучение с малым числом меток
— Graph Neural Networks — обучение на графах
— Manifold learning — работа с данными на многообразиях
📐 Анализ структуры
Собственные значения выявляют:
— кластеры и сообщества
— узкие места и bottleneck’и
— самые «гладкие» способы менять функции на данных
Используется для снижения размерности и шумоподавления
🌍 Реальные системы
— Транспортные сети и потоки трафика
— Социальные графы и распространение влияния
— Энергосети и отказоустойчивость
— Рекомендательные системы и распространение информации
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🙏1