Data Science. SQL hub
36K subscribers
1.06K photos
80 videos
37 files
1.09K links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo

#VRHSZ
Download Telegram
Forwarded from Machinelearning
🌟 Nemotron-Terminal: небольшое семейство для терминальных задач.

NVIDIA обучила семейство моделей Nemotron-Terminal для автономной работы в терминале Linux: устанавливать зависимости, писать и запускать код, отлаживать окружения и выполнять сквозные инженерные задачи без участия человека.

Семейство построено на базе Qwen3 и специально собранном датасете Terminal-Corpus. И фишка не в архитектуре, а в данных.

🟡NVIDIA собрала пайплайн Terminal-Task-Gen с 2 потоками.

Первый адаптирует готовые датасеты по математике, коду и SWE-задачам под терминальный формат (без участия LLM в процессе адаптации).

Второй генерирует синтетику 2 методами: seed-based (LLM создает новые задачи на основе существующих задач из смежных областей) и skill-based (LLM комбинирует до пяти примитивных навыков из таксономии по 9 доменам: Security, Data Science, System Administration и другим).

🟡В открытый релиз вошли все три модели на 8B, 14B, 32B параметров и 2 датасета:

Terminal-Corpus: около 366K траекторий выполнения задач, разбитых на два потока: ~226K адаптированных примеров из Math/Code/SWE и ~140K синтетических задач на основе skill-таксономии.

Synthetic-Tasks: задачи в стандартизированном формате: инструкция, Docker-окружение из 9 преднастроенных образов и верификационный набор на pytest.


🟡Результаты прогонов на бенчах.

На Terminal-Bench 2.0 все 3 модели показали кратный рост относительно базовой Qwen3: 8B - с 2.5% до 13%, 14B - с 4% до 20.2%, 32B - с 3.4% до 27.4%.

Для сравнения: Qwen3-Coder на 480B параметров набирает 23.9%, GPT-5-Mini - 24.0%, Grok 4 - 23.1%. Nemotron-Terminal-32B превосходит или вплотную конкурирует с ними всеми при разнице в размере на порядок.


🟡Несколько внезапных выводов из абляции.

Фильтрация неудачных траекторий вредит. Модель, обученная на всех траекториях включая ошибочные, набирает 12.4% против 5.06% у варианта только с успешными.

Curriculum learning (сначала простые данные, потом сложные) не дал преимуществ перед простым смешанным обучением.

Увеличение контекстного окна с 32K до 65K токенов также не помогло, длинные траектории оказались шумнее.


📌Лицензирование моделей: NVIDIA Open Model License

📌Лицензирование датасетов : CC-BY-4.0 License.


🟡Набор моделей
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #NemotronTerminal #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
🐘 Бесплатная конференция по PostgreSQL — Москва, 19 марта

PG BootCamp Russia 2026 — комьюнити-конференция российского сообщества PostgreSQL с подтвержденным официальным международным статусом.

Мероприятие бесплатное, онлайн+офлайн, ориентировано на администраторов БД, разработчиков, инженеров, аналитиков, архитекторов.

Эксперты из Tantor, Яндекс, СберТех, Тензор, Хи-квадрат, Luxms BI и других компаний выступят по темам, связанным с разработкой, эксплуатацией и взаимодействием PostgreSQL с другими системами.

В предварительной программе:
📎Решение застарелых архитектурных проблем PostgreSQL для современных нагрузок и масштабирования
📎Временные таблицы для Postgres. Почему это важно для платформы 1С и что можно улучшить?
📎Разделение Compute и Storage: архитектурный прорыв для PostgreSQL в облаке
📎Опыт вынесения OLAP-нагрузки на реплику
📎Highload "из ниоткуда": когда проблема не в СУБД, а в клиентской архитектуре
📎Опыт эксплуатации, проблемы и производительность PostgreSQL на Эльбрус, Baikal-S, Loongson, Repka Pi, x86
📎Поиск проблем планирования запросов до их воздействия на производительность
📎Тестирование, баги и уроки работы с патчем 64-битного счетчика транзакций PostgreSQL
📎Работа с логами PostgreSQL
📎…и другие (всего 25 выступлений)


🗓 19 марта
📍 Москва, офлайн + онлайн

➡️ БЕСПЛАТНАЯ РЕГИСТРАЦИЯ
Please open Telegram to view this post
VIEW IN TELEGRAM
4👏1
У вас есть таблица sales с колонками country, product, amount. Как получить общий объем продаж для каждого продукта и для каждой страны, а также общую сумму продаж для всех стран и продуктов?
Anonymous Quiz
28%
A) SELECT country, product, SUM(amount) FROM sales GROUP BY CUBE(country, product);
19%
B) SELECT country, product, SUM(amount) FROM sales GROUP BY ROLLUP(country, product);
29%
C) SELECT country, product, SUM(amount) FROM sales GROUP BY GROUPING SETS(country, product, ());
24%
D) SELECT country, product, SUM(amount) FROM sales GROUP BY country, product WITH CUBE;
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Как ROSTIC'S ускорили аналитику в 3 раза: кейс от Яндекса

Yandex B2B Tech выпустила «Техно на прокачку» — шоу, где показывают работу платформы данных на примере сети ROSTIC'S.

Суть проекта:
• Еженедельно рестораны генерируют больше 100 Гб данных: чеки, транзакции, история заказов
• Чтобы бизнес получал аналитику без задержек, внедрили платформу данных от Яндекса
• Отчеты теперь загружаются в 3 раза быстрее

В шоу разобрали архитектуру решения: от интеграции касс и терминалов до managed-сервисов для опенсорсных баз данных. А комик Егор Кукса в роли «гуру успеха» проверяет инженеров на прочность и предлагает свои надежные, но не очень технологичные решения, от мотивационных речей до флешки деверя.

Посмотреть как это было уже можно на YouTube, VK Видео или Кинопоиске.
5👎1
Трюк дня. Сравнение с предыдущим. Решение.

Решение: использование DATEDIFF

DATEDIFF
: эта функция вычисляет разницу между двумя датами. Она используется для того, чтобы обеспечить сравнение именно «сегодняшних» и «вчерашних» температур.

Если сформулировать обычным языком следующий запрос, то окажется, что он выражает следующую идею: нужно выбрать такие идентификаторы, чтобы температура, соответствующая представляемым ими датам, была бы больше, чем температура на «вчерашние» по отношению к ним даты.

SELECT DISTINCT a.Id
FROM Weather a, Weather b
WHERE a.Temperature > b.Temperature
AND DATEDIFF(a.Recorddate, b.Recorddate) = 1

#tips
👍53🤔2
Типичная работа с ИИ?

— Зачем ты удалил продакшн-базу данных?

— Ты абсолютно прав!

🚀 Полезный ресурсы по БД⚡️ Max
😁205👍3
🖥 ByteDance только что open-sourced OpenViking, и этот проект показывает, что именно не так с тем, как сегодня строят память для AI-агентов.

Вот где большинство агент-фреймворков ошибаются:

Память хранится в одном месте.
Ресурсы — в другом.
Навыки разбросаны по системе.

Когда агенту нужен контекст, обычно делают плоский векторный поиск и просто надеются на лучший результат.

Именно это и проблема. OpenViking решает её одной идеей:
рассматривать контекст агента как файловую систему.

Всё работает через единый протокол:

viking://

Память, ресурсы и навыки организованы как директории с уникальными URI.
Агент может ls, find и навигировать по контексту, как разработчик в терминале.

Главный прорыв — многоуровневая загрузка контекста:

- L0 — одно предложение для быстрого поиска
- L1 — обзор ~2000 токенов для принятия решений
- L2 — полные детали, загружаются только когда действительно нужны

Большинство агентов просто загружает всё в контекст и надеется на лучшее.

OpenViking загружает только нужные данные и только в нужный момент.

Результат:

- меньше расходов на токены
- выше точность
- быстрее работа агентов

Retrieval теперь тоже работает логичнее.

Вместо одного плоского семантического поиска:

1. сначала происходит позиционирование на уровне директорий
2. затем рекурсивный поиск внутри наиболее релевантных директорий

Можно буквально видеть траекторию поиска — это больше не чёрный ящик.

Есть и механизм самоэволюции агента.

В конце каждой сессии система автоматически:

- извлекает новые знания
- обновляет память агента
- обновляет память пользователя

То есть агент становится умнее с каждым использованием.

Проект уже имеет:

- 9K звёзд на GitHub
- 13 контрибьюторов

Разработан командой ByteDance Viking, которая строит инфраструктуру векторного поиска с 2019 года.

Проект полностью open-source под лицензией Apache 2.0.

https://github.com/volcengine/OpenViking
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥3
🔥Есть план на 27 марта

Мы узнали, что AvitoTech собирает Database meetup, и решили, что мимо такого проходить нельзя. Тематика — самая что ни на есть хайповая: базы данных, масштабирование, безопасность.

Что обещают организаторы:
— Никита Жига поделится чек-листом по защите чувствительных данных на DBaaS и расскажет, как она устроена в Авито
— Роман Ананьев покажет различия и преимущества FoundationDB и Cassandra 5 на практике
— Игорь Конев проведёт по пути масштабирования S3, который отличается от других подходов в бигтехе
Встречаемся в офисе коллег в последнюю пятницу месяца. Если вдруг будете не в городе или просто лень выходить из дома — включайте онлайн-трансляцию.

Осталось только зарегистрироваться, оставляем ссылку
👍1
Forwarded from Machinelearning
📌 Андрей Карпаты выложил новый проект - karpathy/jobs.

Он взял данные по 342 профессиям из статистики BLS (≈143 млн работников в США) и с помощью LLM оценил, насколько каждая из них подвержена влиянию AI по шкале 0–10.

Результат он визуализировал в виде treemap.

Средний показатель по всем профессиям: 5.3 / 10.

Примеры:

разработчики ПО: 8–9
кровельщики: 0–1
специалисты по расшифровке медицинских записей: 10 / 10 💀💀

Паттерн довольно простой.

Если вся работа происходит за экраном, риск автоматизации высокий.

Если она требует физического труда и непредсказуемой среды, вы гораздо безопаснее.

По оценке Карпати, около 57 млн работников в США - почти 40% всей рабочей силы - находятся в зоне высокого риска изменений из-за AI.

https://karpathy.ai/jobs/

@ai_machinelearning_big_data

#ai #ml #future #jobs #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👎6😁1
Парень рассказал, что Claude удалил его базу данных, хотя понимал, что это нужно сделать только после загрузки на прод.

После удаления модель ответила:

«Это моя ошибка. Сейчас восстановить неоткуда. Прости.»
😁35👍12😱115🔥3
Media is too big
VIEW IN TELEGRAM
🌶 Базы данных за 30 секунд 🧠

🗄️ Реляционные базы данных (SQL)
• Данные хранятся в таблицах
• Фиксированная схема
• Поддержка ACID-транзакций
Примеры → PostgreSQL, MySQL

📦 NoSQL базы данных
• Гибкая схема данных
• Созданы для горизонтального масштабирования
Примеры → MongoDB, DynamoDB

Key-Value хранилища
• Простая модель: ключ → значение
• Очень высокая скорость работы
Примеры → Redis, etcd

🧱 Wide-Column базы данных
• Данные хранятся в семействах колонок
• Подходят для огромных объёмов данных
Примеры → Cassandra, HBase

🕸️ Графовые базы данных
• Основной фокус — связи между данными
• Идеальны для связанных структур
Примеры → Neo4j

📈 Time-Series базы данных
• Данные индексируются по времени
• Используются для метрик и мониторинга
Примеры → Prometheus, InfluxDB

🎯 Базу данных выбирают
по задаче, а не по тренду.

https://www.youtube.com/shorts/6mpZyksUTdg
👍51👎1🤔1
🚀 Умный помощник для Claude Code

gstack превращает Claude Code в команду специалистов, доступных по запросу. Он предлагает восемь навыков для управления рабочими процессами, включая планирование, ревью кода и автоматизацию браузера, все через удобные команды.

🚀 Основные моменты:
- Многофункциональные команды для разных ролей (CEO, инженер, QA).
- Интеграция с Conductor для параллельной работы.
- Полная автоматизация тестирования и ревью.

📌 GitHub: https://github.com/garrytan/gstack
2👍2👎1🔥1😁1🤔1
🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇

🖥 ИИ: t.me/ai_machinelearning_big_data

🖥 Python: t.me/pythonl

🖥 Linux: t.me/linuxacademiya

🖥 C++ t.me/cpluspluc

🖥 Docker: t.me/DevopsDocker

🖥 Хакинг: t.me/linuxkalii

🖥 Devops: t.me/DevOPSitsec

👣 Golang: t.me/Golang_google

🖥 Аналитика: t.me/data_analysis_ml

🖥 Javascript: t.me/javascriptv

🖥 C#: t.me/csharp_ci

🖥 Java: t.me/javatg

🖥 Базы данных: t.me/databases_tg

👣 Rust: t.me/rust_code

🤖 Технологии: t.me/vistehno

💰 Экономика и инвестиции в ИИ t.me/financeStable

💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi


🖥Подборка по Golang: https://xn--r1a.website/addlist/MUtJEeJSxeY2YTFi
⚡️ Лучшие ИИ ресурсы: https://xn--r1a.website/addlist/2Ls-snqEeytkMDgy

Max ИИ: https://max.ru/ai_machinelearning_big_data
Max Ml: https://max.ru/vistehno
Max python: https://max.ru/pythonl
Max Go: https://max.ru/Golang_google
Max Linux: https://max.ru/linuxkalii
Max Java: https://max.ru/javatg
Max Sql: https://max.ru/sqlhub
Max Devops: https://max.ru/DevOPSitsec
Анализ данных: https://max.ru/data_analysis_ml
C++ : https://max.ru/cpluspluc
C#: https://max.ru/csharp_ci

🖥 Chatgpt бот в тг: t.me/Chatgpturbobot
📚 Бесплатные ит-книги: https://xn--r1a.website/addlist/HwywK4fErd8wYzQy
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1🔥1
🖥 SQL-концепции, которые реально нужно знать:

• CRUD → SELECT, INSERT, UPDATE, DELETE
• Ключи → PRIMARY KEY, FOREIGN KEY
• Ограничения → NOT NULL, UNIQUE, CHECK, DEFAULT
• JOIN’ы → INNER JOIN, LEFT JOIN, RIGHT JOIN
• Агрегации → COUNT, SUM, AVG, MIN, MAX
• Группировка → GROUP BY, HAVING
• Фильтрация → WHERE, BETWEEN, IN, LIKE
• Сортировка → ORDER BY
• Подзапросы → SELECT (SELECT …)
• Индексы → CREATE INDEX
• Представления → CREATE VIEW
• Транзакции → BEGIN, COMMIT, ROLLBACK
• Пагинация → LIMIT, OFFSET
• Оптимизация → EXPLAIN
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍8🔥5
🔥 Очень любопытный проект: Supermemory показал 99% на SOTA-бенчмарке памяти

• Supermemory набрал ~99% на LongMemEval_s с использованием экспериментальной техники ASMR (Agentic Search and Memory Retrieval)

• Вместо классического vector search и embeddings используется система параллельных агентов-наблюдателей, которые извлекают структурированные знания из истории взаимодействий сразу по нескольким направлениям

• Используются специализированные поисковые агенты:
→ для точных фактов
→ для связанного контекста
→ для восстановления временной последовательности

• И самое интересное, никакой векторной базы данных не требуется

🚀 Проект станет open-source уже через 11 дней, следим:

https://x.com/DhravyaShah/status/2035517012647272689

🎯Полезные Мл-ресурсы 🚀 Max

@sqlhub
1👍1🔥1
На Stepik вышел курс
ML Engineer / Data Scientist: табличные модели в продакшн

Практический курс по табличному ML для тех, кто хочет прокачаться в сторону ML Engineer / Data Scientist и увереннее чувствовать себя в реальных задачах на табличных данных.

Внутри:
— CatBoost / LightGBM
— feature engineering (генерация признаков)
— корректная валидация
— анти-leakage
— тюнинг через Optuna
— SHAP
— batch inference
— REST API для предсказаний

Акцент курса — не только на качестве модели, но и на том, как собрать вменяемый и цельный ML-пайплайн для практических задач.

В течение 48 часов после публикации действует скидка 25%.

Записаться на курс можно здесь

Ип Малышкин А.А.
ИНН: 402571325199, Erid: 2Vtzqv1KLw7
2