Forwarded from Machinelearning
NVIDIA обучила семейство моделей Nemotron-Terminal для автономной работы в терминале Linux: устанавливать зависимости, писать и запускать код, отлаживать окружения и выполнять сквозные инженерные задачи без участия человека.
Семейство построено на базе Qwen3 и специально собранном датасете Terminal-Corpus. И фишка не в архитектуре, а в данных.
Первый адаптирует готовые датасеты по математике, коду и SWE-задачам под терминальный формат (без участия LLM в процессе адаптации).
Второй генерирует синтетику 2 методами: seed-based (LLM создает новые задачи на основе существующих задач из смежных областей) и skill-based (LLM комбинирует до пяти примитивных навыков из таксономии по 9 доменам: Security, Data Science, System Administration и другим).
Terminal-Corpus: около 366K траекторий выполнения задач, разбитых на два потока: ~226K адаптированных примеров из Math/Code/SWE и ~140K синтетических задач на основе skill-таксономии.
Synthetic-Tasks: задачи в стандартизированном формате: инструкция, Docker-окружение из 9 преднастроенных образов и верификационный набор на pytest.
На Terminal-Bench 2.0 все 3 модели показали кратный рост относительно базовой Qwen3: 8B - с 2.5% до 13%, 14B - с 4% до 20.2%, 32B - с 3.4% до 27.4%.
Для сравнения: Qwen3-Coder на 480B параметров набирает 23.9%, GPT-5-Mini - 24.0%, Grok 4 - 23.1%. Nemotron-Terminal-32B превосходит или вплотную конкурирует с ними всеми при разнице в размере на порядок.
Фильтрация неудачных траекторий вредит. Модель, обученная на всех траекториях включая ошибочные, набирает 12.4% против 5.06% у варианта только с успешными.
Curriculum learning (сначала простые данные, потом сложные) не дал преимуществ перед простым смешанным обучением.
Увеличение контекстного окна с 32K до 65K токенов также не помогло, длинные траектории оказались шумнее.
@ai_machinelearning_big_data
#AI #ML #LLM #NemotronTerminal #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
PG BootCamp Russia 2026 — комьюнити-конференция российского сообщества PostgreSQL с подтвержденным официальным международным статусом.
Мероприятие бесплатное, онлайн+офлайн, ориентировано на администраторов БД, разработчиков, инженеров, аналитиков, архитекторов.
Эксперты из Tantor, Яндекс, СберТех, Тензор, Хи-квадрат, Luxms BI и других компаний выступят по темам, связанным с разработкой, эксплуатацией и взаимодействием PostgreSQL с другими системами.
В предварительной программе:
📎 Решение застарелых архитектурных проблем PostgreSQL для современных нагрузок и масштабирования📎 Временные таблицы для Postgres. Почему это важно для платформы 1С и что можно улучшить?📎 Разделение Compute и Storage: архитектурный прорыв для PostgreSQL в облаке📎 Опыт вынесения OLAP-нагрузки на реплику📎 Highload "из ниоткуда": когда проблема не в СУБД, а в клиентской архитектуре📎 Опыт эксплуатации, проблемы и производительность PostgreSQL на Эльбрус, Baikal-S, Loongson, Repka Pi, x86📎 Поиск проблем планирования запросов до их воздействия на производительность📎 Тестирование, баги и уроки работы с патчем 64-битного счетчика транзакций PostgreSQL📎 Работа с логами PostgreSQL📎 …и другие (всего 25 выступлений)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👏1
У вас есть таблица sales с колонками country, product, amount. Как получить общий объем продаж для каждого продукта и для каждой страны, а также общую сумму продаж для всех стран и продуктов?
Anonymous Quiz
28%
A) SELECT country, product, SUM(amount) FROM sales GROUP BY CUBE(country, product);
19%
B) SELECT country, product, SUM(amount) FROM sales GROUP BY ROLLUP(country, product);
29%
C) SELECT country, product, SUM(amount) FROM sales GROUP BY GROUPING SETS(country, product, ());
24%
D) SELECT country, product, SUM(amount) FROM sales GROUP BY country, product WITH CUBE;
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Как ROSTIC'S ускорили аналитику в 3 раза: кейс от Яндекса
Yandex B2B Tech выпустила «Техно на прокачку» — шоу, где показывают работу платформы данных на примере сети ROSTIC'S.
Суть проекта:
• Еженедельно рестораны генерируют больше 100 Гб данных: чеки, транзакции, история заказов
• Чтобы бизнес получал аналитику без задержек, внедрили платформу данных от Яндекса
• Отчеты теперь загружаются в 3 раза быстрее
В шоу разобрали архитектуру решения: от интеграции касс и терминалов до managed-сервисов для опенсорсных баз данных. А комик Егор Кукса в роли «гуру успеха» проверяет инженеров на прочность и предлагает свои надежные, но не очень технологичные решения, от мотивационных речей до флешки деверя.
Посмотреть как это было уже можно на YouTube, VK Видео или Кинопоиске.
Yandex B2B Tech выпустила «Техно на прокачку» — шоу, где показывают работу платформы данных на примере сети ROSTIC'S.
Суть проекта:
• Еженедельно рестораны генерируют больше 100 Гб данных: чеки, транзакции, история заказов
• Чтобы бизнес получал аналитику без задержек, внедрили платформу данных от Яндекса
• Отчеты теперь загружаются в 3 раза быстрее
В шоу разобрали архитектуру решения: от интеграции касс и терминалов до managed-сервисов для опенсорсных баз данных. А комик Егор Кукса в роли «гуру успеха» проверяет инженеров на прочность и предлагает свои надежные, но не очень технологичные решения, от мотивационных речей до флешки деверя.
Посмотреть как это было уже можно на YouTube, VK Видео или Кинопоиске.
❤5👎1
Трюк дня. Сравнение с предыдущим. Решение.
Решение: использование
Если сформулировать обычным языком следующий запрос, то окажется, что он выражает следующую идею: нужно выбрать такие идентификаторы, чтобы температура, соответствующая представляемым ими датам, была бы больше, чем температура на «вчерашние» по отношению к ним даты.
#tips
Решение: использование
DATEDIFF
DATEDIFF: эта функция вычисляет разницу между двумя датами. Она используется для того, чтобы обеспечить сравнение именно «сегодняшних» и «вчерашних» температур.Если сформулировать обычным языком следующий запрос, то окажется, что он выражает следующую идею: нужно выбрать такие идентификаторы, чтобы температура, соответствующая представляемым ими датам, была бы больше, чем температура на «вчерашние» по отношению к ним даты.
SELECT DISTINCT a.Id
FROM Weather a, Weather b
WHERE a.Temperature > b.Temperature
AND DATEDIFF(a.Recorddate, b.Recorddate) = 1
#tips
👍5❤3🤔2
Типичная работа с ИИ?
— Зачем ты удалил продакшн-базу данных?
— Ты абсолютно прав!
🚀 Полезный ресурсы по БД⚡️ Max
— Зачем ты удалил продакшн-базу данных?
— Ты абсолютно прав!
🚀 Полезный ресурсы по БД⚡️ Max
😁20❤5👍3
Вот где большинство агент-фреймворков ошибаются:
Память хранится в одном месте.
Ресурсы — в другом.
Навыки разбросаны по системе.
Когда агенту нужен контекст, обычно делают плоский векторный поиск и просто надеются на лучший результат.
Именно это и проблема. OpenViking решает её одной идеей:
рассматривать контекст агента как файловую систему.
Всё работает через единый протокол:
viking://Память, ресурсы и навыки организованы как директории с уникальными URI.
Агент может ls, find и навигировать по контексту, как разработчик в терминале.
Главный прорыв — многоуровневая загрузка контекста:
- L0 — одно предложение для быстрого поиска
- L1 — обзор ~2000 токенов для принятия решений
- L2 — полные детали, загружаются только когда действительно нужны
Большинство агентов просто загружает всё в контекст и надеется на лучшее.
OpenViking загружает только нужные данные и только в нужный момент.
Результат:
- меньше расходов на токены
- выше точность
- быстрее работа агентов
Retrieval теперь тоже работает логичнее.
Вместо одного плоского семантического поиска:
1. сначала происходит позиционирование на уровне директорий
2. затем рекурсивный поиск внутри наиболее релевантных директорий
Можно буквально видеть траекторию поиска — это больше не чёрный ящик.
Есть и механизм самоэволюции агента.
В конце каждой сессии система автоматически:
- извлекает новые знания
- обновляет память агента
- обновляет память пользователя
То есть агент становится умнее с каждым использованием.
Проект уже имеет:
- 9K звёзд на GitHub
- 13 контрибьюторов
Разработан командой ByteDance Viking, которая строит инфраструктуру векторного поиска с 2019 года.
Проект полностью open-source под лицензией Apache 2.0.
https://github.com/volcengine/OpenViking
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥3
🔥Есть план на 27 марта
Мы узнали, что AvitoTech собирает Database meetup, и решили, что мимо такого проходить нельзя. Тематика — самая что ни на есть хайповая: базы данных, масштабирование, безопасность.
Что обещают организаторы:
— Никита Жига поделится чек-листом по защите чувствительных данных на DBaaS и расскажет, как она устроена в Авито
— Роман Ананьев покажет различия и преимущества FoundationDB и Cassandra 5 на практике
— Игорь Конев проведёт по пути масштабирования S3, который отличается от других подходов в бигтехе
Встречаемся в офисе коллег в последнюю пятницу месяца. Если вдруг будете не в городе или просто лень выходить из дома — включайте онлайн-трансляцию.
Осталось только зарегистрироваться, оставляем ссылку
Мы узнали, что AvitoTech собирает Database meetup, и решили, что мимо такого проходить нельзя. Тематика — самая что ни на есть хайповая: базы данных, масштабирование, безопасность.
Что обещают организаторы:
— Никита Жига поделится чек-листом по защите чувствительных данных на DBaaS и расскажет, как она устроена в Авито
— Роман Ананьев покажет различия и преимущества FoundationDB и Cassandra 5 на практике
— Игорь Конев проведёт по пути масштабирования S3, который отличается от других подходов в бигтехе
Встречаемся в офисе коллег в последнюю пятницу месяца. Если вдруг будете не в городе или просто лень выходить из дома — включайте онлайн-трансляцию.
Осталось только зарегистрироваться, оставляем ссылку
👍1
Forwarded from Machinelearning
Он взял данные по 342 профессиям из статистики BLS (≈143 млн работников в США) и с помощью LLM оценил, насколько каждая из них подвержена влиянию AI по шкале 0–10.
Результат он визуализировал в виде treemap.
Средний показатель по всем профессиям: 5.3 / 10.
Примеры:
• разработчики ПО: 8–9
• кровельщики: 0–1
• специалисты по расшифровке медицинских записей: 10 / 10 💀💀
Паттерн довольно простой.
Если вся работа происходит за экраном, риск автоматизации высокий.
Если она требует физического труда и непредсказуемой среды, вы гораздо безопаснее.
По оценке Карпати, около 57 млн работников в США - почти 40% всей рабочей силы - находятся в зоне высокого риска изменений из-за AI.
https://karpathy.ai/jobs/
@ai_machinelearning_big_data
#ai #ml #future #jobs #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👎6😁1
Media is too big
VIEW IN TELEGRAM
🌶 Базы данных за 30 секунд 🧠
🗄️ Реляционные базы данных (SQL)
• Данные хранятся в таблицах
• Фиксированная схема
• Поддержка ACID-транзакций
Примеры → PostgreSQL, MySQL
📦 NoSQL базы данных
• Гибкая схема данных
• Созданы для горизонтального масштабирования
Примеры → MongoDB, DynamoDB
⚡ Key-Value хранилища
• Простая модель: ключ → значение
• Очень высокая скорость работы
Примеры → Redis, etcd
🧱 Wide-Column базы данных
• Данные хранятся в семействах колонок
• Подходят для огромных объёмов данных
Примеры → Cassandra, HBase
🕸️ Графовые базы данных
• Основной фокус — связи между данными
• Идеальны для связанных структур
Примеры → Neo4j
📈 Time-Series базы данных
• Данные индексируются по времени
• Используются для метрик и мониторинга
Примеры → Prometheus, InfluxDB
🎯 Базу данных выбирают
по задаче, а не по тренду.
https://www.youtube.com/shorts/6mpZyksUTdg
🗄️ Реляционные базы данных (SQL)
• Данные хранятся в таблицах
• Фиксированная схема
• Поддержка ACID-транзакций
Примеры → PostgreSQL, MySQL
📦 NoSQL базы данных
• Гибкая схема данных
• Созданы для горизонтального масштабирования
Примеры → MongoDB, DynamoDB
⚡ Key-Value хранилища
• Простая модель: ключ → значение
• Очень высокая скорость работы
Примеры → Redis, etcd
🧱 Wide-Column базы данных
• Данные хранятся в семействах колонок
• Подходят для огромных объёмов данных
Примеры → Cassandra, HBase
🕸️ Графовые базы данных
• Основной фокус — связи между данными
• Идеальны для связанных структур
Примеры → Neo4j
📈 Time-Series базы данных
• Данные индексируются по времени
• Используются для метрик и мониторинга
Примеры → Prometheus, InfluxDB
🎯 Базу данных выбирают
по задаче, а не по тренду.
https://www.youtube.com/shorts/6mpZyksUTdg
👍5❤1👎1🤔1
🚀 Умный помощник для Claude Code
gstack превращает Claude Code в команду специалистов, доступных по запросу. Он предлагает восемь навыков для управления рабочими процессами, включая планирование, ревью кода и автоматизацию браузера, все через удобные команды.
🚀 Основные моменты:
- Многофункциональные команды для разных ролей (CEO, инженер, QA).
- Интеграция с Conductor для параллельной работы.
- Полная автоматизация тестирования и ревью.
📌 GitHub: https://github.com/garrytan/gstack
gstack превращает Claude Code в команду специалистов, доступных по запросу. Он предлагает восемь навыков для управления рабочими процессами, включая планирование, ревью кода и автоматизацию браузера, все через удобные команды.
🚀 Основные моменты:
- Многофункциональные команды для разных ролей (CEO, инженер, QA).
- Интеграция с Conductor для параллельной работы.
- Полная автоматизация тестирования и ревью.
📌 GitHub: https://github.com/garrytan/gstack
❤2👍2👎1🔥1😁1🤔1
🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇
🖥 ИИ: t.me/ai_machinelearning_big_data
🖥 Python: t.me/pythonl
🖥 Linux: t.me/linuxacademiya
🖥 C++ t.me/cpluspluc
🖥 Docker: t.me/DevopsDocker
🖥 Хакинг: t.me/linuxkalii
🖥 Devops: t.me/DevOPSitsec
👣 Golang: t.me/Golang_google
🖥 Аналитика: t.me/data_analysis_ml
🖥 Javascript: t.me/javascriptv
🖥 C#: t.me/csharp_ci
🖥 Java: t.me/javatg
🖥 Базы данных: t.me/databases_tg
👣 Rust: t.me/rust_code
🤖 Технологии: t.me/vistehno
💰 Экономика и инвестиции в ИИ t.me/financeStable
💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi
🖥 Подборка по Golang: https://xn--r1a.website/addlist/MUtJEeJSxeY2YTFi
⚡️ Лучшие ИИ ресурсы: https://xn--r1a.website/addlist/2Ls-snqEeytkMDgy
Max ИИ: https://max.ru/ai_machinelearning_big_data
Max Ml: https://max.ru/vistehno
Max python: https://max.ru/pythonl
Max Go: https://max.ru/Golang_google
Max Linux: https://max.ru/linuxkalii
Max Java: https://max.ru/javatg
Max Sql: https://max.ru/sqlhub
Max Devops: https://max.ru/DevOPSitsec
Анализ данных: https://max.ru/data_analysis_ml
C++ : https://max.ru/cpluspluc
C#: https://max.ru/csharp_ci
🖥 Chatgpt бот в тг: t.me/Chatgpturbobot
📚 Бесплатные ит-книги: https://xn--r1a.website/addlist/HwywK4fErd8wYzQy
💰 Экономика и инвестиции в ИИ t.me/financeStable
💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi
⚡️ Лучшие ИИ ресурсы: https://xn--r1a.website/addlist/2Ls-snqEeytkMDgy
Max ИИ: https://max.ru/ai_machinelearning_big_data
Max Ml: https://max.ru/vistehno
Max python: https://max.ru/pythonl
Max Go: https://max.ru/Golang_google
Max Linux: https://max.ru/linuxkalii
Max Java: https://max.ru/javatg
Max Sql: https://max.ru/sqlhub
Max Devops: https://max.ru/DevOPSitsec
Анализ данных: https://max.ru/data_analysis_ml
C++ : https://max.ru/cpluspluc
C#: https://max.ru/csharp_ci
📚 Бесплатные ит-книги: https://xn--r1a.website/addlist/HwywK4fErd8wYzQy
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1🔥1
• CRUD → SELECT, INSERT, UPDATE, DELETE
• Ключи → PRIMARY KEY, FOREIGN KEY
• Ограничения → NOT NULL, UNIQUE, CHECK, DEFAULT
• JOIN’ы → INNER JOIN, LEFT JOIN, RIGHT JOIN
• Агрегации → COUNT, SUM, AVG, MIN, MAX
• Группировка → GROUP BY, HAVING
• Фильтрация → WHERE, BETWEEN, IN, LIKE
• Сортировка → ORDER BY
• Подзапросы → SELECT (SELECT …)
• Индексы → CREATE INDEX
• Представления → CREATE VIEW
• Транзакции → BEGIN, COMMIT, ROLLBACK
• Пагинация → LIMIT, OFFSET
• Оптимизация → EXPLAIN
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍8🔥5
🔥 Очень любопытный проект: Supermemory показал 99% на SOTA-бенчмарке памяти
• Supermemory набрал ~99% на LongMemEval_s с использованием экспериментальной техники ASMR (Agentic Search and Memory Retrieval)
• Вместо классического vector search и embeddings используется система параллельных агентов-наблюдателей, которые извлекают структурированные знания из истории взаимодействий сразу по нескольким направлениям
• Используются специализированные поисковые агенты:
→ для точных фактов
→ для связанного контекста
→ для восстановления временной последовательности
• И самое интересное, никакой векторной базы данных не требуется
🚀 Проект станет open-source уже через 11 дней, следим:
https://x.com/DhravyaShah/status/2035517012647272689
🎯Полезные Мл-ресурсы 🚀 Max
@sqlhub
• Supermemory набрал ~99% на LongMemEval_s с использованием экспериментальной техники ASMR (Agentic Search and Memory Retrieval)
• Вместо классического vector search и embeddings используется система параллельных агентов-наблюдателей, которые извлекают структурированные знания из истории взаимодействий сразу по нескольким направлениям
• Используются специализированные поисковые агенты:
→ для точных фактов
→ для связанного контекста
→ для восстановления временной последовательности
• И самое интересное, никакой векторной базы данных не требуется
🚀 Проект станет open-source уже через 11 дней, следим:
https://x.com/DhravyaShah/status/2035517012647272689
🎯Полезные Мл-ресурсы 🚀 Max
@sqlhub
❤1👍1🔥1
На Stepik вышел курс
ML Engineer / Data Scientist: табличные модели в продакшн
Практический курс по табличному ML для тех, кто хочет прокачаться в сторону ML Engineer / Data Scientist и увереннее чувствовать себя в реальных задачах на табличных данных.
Внутри:
— CatBoost / LightGBM
— feature engineering (генерация признаков)
— корректная валидация
— анти-leakage
— тюнинг через Optuna
— SHAP
— batch inference
— REST API для предсказаний
Акцент курса — не только на качестве модели, но и на том, как собрать вменяемый и цельный ML-пайплайн для практических задач.
В течение 48 часов после публикации действует скидка 25%.
Записаться на курс можно здесь
Ип Малышкин А.А.
ИНН: 402571325199, Erid: 2Vtzqv1KLw7
ML Engineer / Data Scientist: табличные модели в продакшн
Практический курс по табличному ML для тех, кто хочет прокачаться в сторону ML Engineer / Data Scientist и увереннее чувствовать себя в реальных задачах на табличных данных.
Внутри:
— CatBoost / LightGBM
— feature engineering (генерация признаков)
— корректная валидация
— анти-leakage
— тюнинг через Optuna
— SHAP
— batch inference
— REST API для предсказаний
Акцент курса — не только на качестве модели, но и на том, как собрать вменяемый и цельный ML-пайплайн для практических задач.
В течение 48 часов после публикации действует скидка 25%.
Записаться на курс можно здесь
Ип Малышкин А.А.
ИНН: 402571325199, Erid: 2Vtzqv1KLw7
❤2