Исследователи представили метод, позволяющий небольшим моделям рассуждать глубже - за счёт повторного объединения собственных решений.
С помощью этого цикла 4B-модель достигает уровня гораздо более крупных reasoning-моделей.
Идея основана на test-time scaling - использовании дополнительного вычислительного времени при ответе для повышения точности.
Recursive Self-Aggregation (RSA) хранит пул цепочек решений, выбирает небольшие группы, комбинирует удачные фрагменты и повторяет процесс.
Так модель «вытягивает» правильные шаги даже из неудачных попыток и улучшает их с каждым циклом.
Три параметра управляют поведением:
- pool size - охват решений
- group size - скорость смешивания
- step count - глубина размышления
Большие пулы повышают потолок качества, но требуют больше шагов или групп для распространения успешных паттернов.
Внешняя проверка не нужна - модель сама сравнивает и сшивает решения. Для выбора финального ответа достаточно простого голосования.
Дополнительно обучена aggregation-aware policy, умеющая комбинировать кандидатов - она превосходит стандартное RL и улучшает результаты в задачах по математике, коду, планированию и знаниям.
Подробнее - arxiv.org/abs/2509.26626
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥2
🧠 NVIDIA: обучай рассуждать с самого начала
Новый препринт от Nvidia показывает: если внедрять reasoning уже на этапе предобучения, модель позже показывает способности, которые нельзя восстановить даже самым тщательным дообучением.
📊 Результаты:
- +19% к точности на сложных задачах после всех стадий обучения
- Разнообразие данных на предобучении даёт +11%
- Качество данных при supervised fine-tuning даёт +15%
- Если пропустить раннее обучение рассуждению, модель отстаёт навсегда
- Добавление «грязных» данных на fine-tuning снижает точность в математике на ~5%
🧩 Этапы обучения LLM:
1. Pretraining - модель учится предсказывать следующее слово по огромному корпусу текста.
2. Supervised fine-tuning - изучает решения по пошаговым размеченным примерам.
3. Reinforcement learning - получает награды за лучшие ответы и дорабатывает поведение.
🔍 Главная идея:
Лучше «влить» рассуждение на этапе предобучения,
использовать мало, но качественных данных для fine-tuning
и закрепить поведение через RL.
📄 arxiv: https://arxiv.org/abs/2510.03264
Новый препринт от Nvidia показывает: если внедрять reasoning уже на этапе предобучения, модель позже показывает способности, которые нельзя восстановить даже самым тщательным дообучением.
📊 Результаты:
- +19% к точности на сложных задачах после всех стадий обучения
- Разнообразие данных на предобучении даёт +11%
- Качество данных при supervised fine-tuning даёт +15%
- Если пропустить раннее обучение рассуждению, модель отстаёт навсегда
- Добавление «грязных» данных на fine-tuning снижает точность в математике на ~5%
🧩 Этапы обучения LLM:
1. Pretraining - модель учится предсказывать следующее слово по огромному корпусу текста.
2. Supervised fine-tuning - изучает решения по пошаговым размеченным примерам.
3. Reinforcement learning - получает награды за лучшие ответы и дорабатывает поведение.
🔍 Главная идея:
Лучше «влить» рассуждение на этапе предобучения,
использовать мало, но качественных данных для fine-tuning
и закрепить поведение через RL.
📄 arxiv: https://arxiv.org/abs/2510.03264
❤7👍1
Forwarded from Machinelearning
Это подборка интерактивных ноутбуков, демонстрирующих возможности Qwen3-VL - как при локальном запуске, так и через API.
Внутри - десятки реальных примеров с разборами:
▪ Работа с изображениями и рассуждение по ним
▪ Агент для взаимодействия с интерфейсами (Computer-Use Agent)
▪ Мультимодальное программирование
▪ Распознавание объектов и сцен (Omni Recognition)
▪ Продвинутое извлечение данных из документов
▪ Точное определение объектов на изображении
▪ OCR и извлечение ключевой информации
▪ 3D-анализ и привязка объектов
▪ Понимание длинных документов
▪ Пространственное рассуждение
▪ Мобильный агент
▪ Анализ и понимание видео
@ai_machinelearning_big_data
#Qwen #Qwen3VL #AI #VisionLanguage #Multimodal #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4
Здесь на пальцах объясняют не только как писать SQL-запросы, а строить настоящие backend-сервисы с базой данных как у профи.
В этом курсе ты шаг за шагом создашь REST API на FastAPI + PostgreSQL:
от установки среды и первых таблиц - до масштабируемого приложения с безопасностью и CRUD-операциями.
🔹 На практике разберете:
• SQL-запросы, фильтры, агрегаты и подзапросы
• Связи между таблицами и нормализацию БД
• Взаимодействие Python и PostgreSQL
• Реализацию REST API и подключение базы
• Оптимизацию и разбор реальных задач с собеседований
⚡ После курса у вас будет свой работающий API-проект и реальные навыки работы с PostgreSQL в продакшене.
🎁 Сегодня дарим промокод –30% от цены:
SQLISGREAT🚀 Прокачаю свои знания: https://stepik.org/course/255542/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
NVFP4 - новый формат, который обучает 12B Mamba Transformer в 4 бита без потери точности
Исследователи представили NVFP4 - способ хранить числа в 4 битах вместо 8 или 16, почти без потери качества обучения.
Главная идея - умное блочное квантование:
- Все значения делятся на блоки по 16 чисел.
- Каждый блок имеет свой локальный scale (8 бит).
- Весь тензор получает глобальный scale (32 бита).
Так сохраняется высокая точность локальных значений и не теряются экстремально большие или маленькие числа.
📊 Результаты:
- Обучение 12B Mamba Transformer на 10T токенов в 4 битах показало точность, сопоставимую с FP8.
- Вычисления стали в 2–3 раза быстрее, а использование памяти снизилось на 50%.
- Потеря точности не превышает 1–1.5% по метрикам.
- MMLU Pro: 62.58% (NVFP4) против 62.62% (FP8).
- MBPP+: 55.91% против 59.11%.
- Градиенты используют стохастическое округление, чтобы избежать накопления ошибок.
- По сравнению с MXFP4, NVFP4 требует на 36% меньше данных для того же уровня потерь.
На поздних этапах обучения переход на BF16 почти устраняет разрыв в качестве.
NVFP4 уже поддерживается в Transformer Engine и на Blackwell GPU, включая все нужные режимы округления.
📄 Исследование: https://arxiv.org/abs/2509.25149
Исследователи представили NVFP4 - способ хранить числа в 4 битах вместо 8 или 16, почти без потери качества обучения.
Главная идея - умное блочное квантование:
- Все значения делятся на блоки по 16 чисел.
- Каждый блок имеет свой локальный scale (8 бит).
- Весь тензор получает глобальный scale (32 бита).
Так сохраняется высокая точность локальных значений и не теряются экстремально большие или маленькие числа.
📊 Результаты:
- Обучение 12B Mamba Transformer на 10T токенов в 4 битах показало точность, сопоставимую с FP8.
- Вычисления стали в 2–3 раза быстрее, а использование памяти снизилось на 50%.
- Потеря точности не превышает 1–1.5% по метрикам.
- MMLU Pro: 62.58% (NVFP4) против 62.62% (FP8).
- MBPP+: 55.91% против 59.11%.
- Градиенты используют стохастическое округление, чтобы избежать накопления ошибок.
- По сравнению с MXFP4, NVFP4 требует на 36% меньше данных для того же уровня потерь.
На поздних этапах обучения переход на BF16 почти устраняет разрыв в качестве.
NVFP4 уже поддерживается в Transformer Engine и на Blackwell GPU, включая все нужные режимы округления.
📄 Исследование: https://arxiv.org/abs/2509.25149
❤🔥6❤3
🧠 Новый 92-страничный обзор на тему- “Vibe Coding”
Исследователи описали, как взаимодействуют люди, проекты и код-агенты, и почему успех зависит не только от мощности модели, но и от дизайна всей системы.
🔹 Ключевые выводы:
- Хорошие результаты возможны только при четком контексте, надёжных инструментах и тесном взаимодействии человека с агентом.
Авторы выделили 5 стилей работы:
- Полная автоматизация
- Пошаговое сотрудничество
- План-ориентированный подход
- Тест-ориентированная разработка
- Контекстно-усиленные модели
Каждый стиль по-своему балансирует контроль и автономию.
❗️Неясные задачи и “грязные” промпты снижают продуктивность,а структурированные инструкции, TDD и циклы обратной связи решают эту проблему.
Отдельно подчеркивается важность безопасности - агенты должны работать в песочницах с проверками и встроенными правилами.
📖 Если вы строите агентные IDE или AutoDev-системы, этот обзор — настоящее руководство по архитектуре “человек + агент”.
Подробности: https://arxiv.org/abs/2510.12399
Исследователи описали, как взаимодействуют люди, проекты и код-агенты, и почему успех зависит не только от мощности модели, но и от дизайна всей системы.
🔹 Ключевые выводы:
- Хорошие результаты возможны только при четком контексте, надёжных инструментах и тесном взаимодействии человека с агентом.
Авторы выделили 5 стилей работы:
- Полная автоматизация
- Пошаговое сотрудничество
- План-ориентированный подход
- Тест-ориентированная разработка
- Контекстно-усиленные модели
Каждый стиль по-своему балансирует контроль и автономию.
❗️Неясные задачи и “грязные” промпты снижают продуктивность,а структурированные инструкции, TDD и циклы обратной связи решают эту проблему.
Отдельно подчеркивается важность безопасности - агенты должны работать в песочницах с проверками и встроенными правилами.
📖 Если вы строите агентные IDE или AutoDev-системы, этот обзор — настоящее руководство по архитектуре “человек + агент”.
Подробности: https://arxiv.org/abs/2510.12399
❤8👍4🔥3😁1
🚀 Nvidia снова в огне!
Их новы метод GenCluster впервые позволил *открытой модели* догнать лидеров из закрытых лабораторий.
🧠 Модель gpt-oss-120b взяла золото на IOI 2025 (International Olympiad in Informatics) — впервые в истории open-source-ИИ!
Модель генерирует тысячи решений с кодом,тестирует их, группирует уникальные стратегии и устраивает «турнир» между лучшими — судит всё это другой ИИ.
📊 Результат: 446.75 балла, официально подтверждён золотой медалью.
Теперь это новый подход к решению *по-настоящему сложных задач* - масштабируемое вычисление во время теста.
https://arxiv.org/abs/2510.14232v1
Их новы метод GenCluster впервые позволил *открытой модели* догнать лидеров из закрытых лабораторий.
🧠 Модель gpt-oss-120b взяла золото на IOI 2025 (International Olympiad in Informatics) — впервые в истории open-source-ИИ!
Модель генерирует тысячи решений с кодом,тестирует их, группирует уникальные стратегии и устраивает «турнир» между лучшими — судит всё это другой ИИ.
📊 Результат: 446.75 балла, официально подтверждён золотой медалью.
Теперь это новый подход к решению *по-настоящему сложных задач* - масштабируемое вычисление во время теста.
https://arxiv.org/abs/2510.14232v1
❤7
📚 Perplexity выпустили мощный гайд - 43 страницы чистой пользы по работе с ИИ.
Если хотите выжать максимум из нейросетей — будь то Perplexity, ChatGPT или любой другой чат-бот — этот гайд для вас.
Внутри:
✅ Готовые промпты
✅ Пошаговые сценарии
✅ Практические воркфлоу
✅ Реальные кейсы автоматизации рутинных задач
Хотя примеры заточены под инструменты Perplexity, подавляющее большинство советов универсальны и сработают в любом ИИ-ассистенте.
🔥 Сохраняйте пригодится: https://r2cdn.perplexity.ai/pdf/pplx-at-work.pdf
Если хотите выжать максимум из нейросетей — будь то Perplexity, ChatGPT или любой другой чат-бот — этот гайд для вас.
Внутри:
✅ Готовые промпты
✅ Пошаговые сценарии
✅ Практические воркфлоу
✅ Реальные кейсы автоматизации рутинных задач
Хотя примеры заточены под инструменты Perplexity, подавляющее большинство советов универсальны и сработают в любом ИИ-ассистенте.
🔥 Сохраняйте пригодится: https://r2cdn.perplexity.ai/pdf/pplx-at-work.pdf
🔥6👎1
Исследователи AMD представили метод, который позволяет добавить способность к рассуждению в мультимодальные модели - просто и дешево. Новый подход, названный DRIFT, достигает почти тех же результатов, что и сложные методы, используя лишь около 4 000 примеров и два часа дообучения.
Главная идея: вместо объединения весов языковой и визуальной моделей, что часто ломает баланс, DRIFT вычисляет “направление рассуждения” — разницу между весами сильного текстового reasoner-а и мультимодальной модели. Во время обучения градиенты направляются в эту сторону, усиливая логические способности, но сохраняя навыки восприятия изображений.
Метод не требует дополнительных модулей: направление вычисляется один раз, хранится на CPU и применяется для коррекции выбранных слоёв. В результате модель учится не только видеть, но и логически связывать шаги, исправляя случаи, где восприятие верное, но вывод — ошибочный.
Исследование: arxiv.org/abs/2510.15050
Главная идея: вместо объединения весов языковой и визуальной моделей, что часто ломает баланс, DRIFT вычисляет “направление рассуждения” — разницу между весами сильного текстового reasoner-а и мультимодальной модели. Во время обучения градиенты направляются в эту сторону, усиливая логические способности, но сохраняя навыки восприятия изображений.
Метод не требует дополнительных модулей: направление вычисляется один раз, хранится на CPU и применяется для коррекции выбранных слоёв. В результате модель учится не только видеть, но и логически связывать шаги, исправляя случаи, где восприятие верное, но вывод — ошибочный.
Исследование: arxiv.org/abs/2510.15050
👍7❤4👎1
🚀 Новый курс на Stepik: AI Agents PRO
Если вы работаете с ML/DS и хотите перейти от моделей → к готовым продуктам на базе LLM, без понимания агентов уже никуда.
🔹 Что внутри:
Архитектура агентов (FSM, DAG, Supervisor–Worker, Critic–Executor).
Интеграции: API, БД, браузеры, CRM.
Retrieval-Augmented Generation (Qdrant, Weaviate, FAISS).
Надёжность: ретраи, guardrails, работа с PII.
LLMOps: метрики качества, A/B-тесты, дашборды.
Продакшн-деплой: Docker, очереди сообщений, CI/CD.
Итоговый проект: собственный агент под реальный бизнес-кейс.
🎯 По итогу вы сможете строить и выкатывать production-ready AI-агентов, а не просто писать демки в ноутбуках.
🔥 Спец-условия: только по промо RAG30 — -30% на старт (действует 48ч).
👉 Пройти курс со скидкой
Если вы работаете с ML/DS и хотите перейти от моделей → к готовым продуктам на базе LLM, без понимания агентов уже никуда.
🔹 Что внутри:
Архитектура агентов (FSM, DAG, Supervisor–Worker, Critic–Executor).
Интеграции: API, БД, браузеры, CRM.
Retrieval-Augmented Generation (Qdrant, Weaviate, FAISS).
Надёжность: ретраи, guardrails, работа с PII.
LLMOps: метрики качества, A/B-тесты, дашборды.
Продакшн-деплой: Docker, очереди сообщений, CI/CD.
Итоговый проект: собственный агент под реальный бизнес-кейс.
🎯 По итогу вы сможете строить и выкатывать production-ready AI-агентов, а не просто писать демки в ноутбуках.
🔥 Спец-условия: только по промо RAG30 — -30% на старт (действует 48ч).
👉 Пройти курс со скидкой
❤1👍1
🕵️ Великобритания сталкивается с новой волной мошенничества, усиленной ИИ
Количество подтверждённых случаев мошенничества превысило 2 миллиона в первой половине года - рост на 17%. Общие потери достигли £629 млн, увеличившись на 3%.
Особенно выросли инвестиционные схемы, плюс 55%, почти £100 млн ущерба, со средней потерей более £15 000 на человека. Мошенники используют дипфейки известных людей и профессионально оформленные многоязычные предложения, делая подделки крайне правдоподобными.
Они создают фальшивые «инвестиционные» панели с якобы растущими доходами, разрешая жертвам делать мелкие выводы, чтобы вызвать доверие, а затем убеждают перевести крупные суммы.
Романтическое мошенничество выросло на 19% по количеству случаев и на 35% по потерям - до £20,5 млн. Средний случай длится несколько месяцев и включает до 9 платежей, иногда более 100 переводов.
Мошенники также массово рассылают спам-сообщения через устройства, имитирующие мобильные вышки, перенаправляя людей на фишинговые сайты, где жертвы вводят свои данные.
Банки отвечают своими ИИ-системами, которые в реальном времени отслеживают подозрительные платежи и шаблоны поведения. За полгода они предотвратили £870 млн несанкционированных переводов - на 20% больше, чем в первой половине 2024 года (примерно **70 пенсов блокируется на каждый фунт, который пытаются украсть**).
Преступники адаптируются - всё чаще используют мелкие покупки и подарочные карты, которые проще перепродать и труднее отследить.
ft.com/content/11db17de-cad7-4217-8816-d5a3ac9c1beb
Количество подтверждённых случаев мошенничества превысило 2 миллиона в первой половине года - рост на 17%. Общие потери достигли £629 млн, увеличившись на 3%.
Особенно выросли инвестиционные схемы, плюс 55%, почти £100 млн ущерба, со средней потерей более £15 000 на человека. Мошенники используют дипфейки известных людей и профессионально оформленные многоязычные предложения, делая подделки крайне правдоподобными.
Они создают фальшивые «инвестиционные» панели с якобы растущими доходами, разрешая жертвам делать мелкие выводы, чтобы вызвать доверие, а затем убеждают перевести крупные суммы.
Романтическое мошенничество выросло на 19% по количеству случаев и на 35% по потерям - до £20,5 млн. Средний случай длится несколько месяцев и включает до 9 платежей, иногда более 100 переводов.
Мошенники также массово рассылают спам-сообщения через устройства, имитирующие мобильные вышки, перенаправляя людей на фишинговые сайты, где жертвы вводят свои данные.
Банки отвечают своими ИИ-системами, которые в реальном времени отслеживают подозрительные платежи и шаблоны поведения. За полгода они предотвратили £870 млн несанкционированных переводов - на 20% больше, чем в первой половине 2024 года (примерно **70 пенсов блокируется на каждый фунт, который пытаются украсть**).
Преступники адаптируются - всё чаще используют мелкие покупки и подарочные карты, которые проще перепродать и труднее отследить.
ft.com/content/11db17de-cad7-4217-8816-d5a3ac9c1beb
❤1
🛠 Архитектура рекомендаций в Яндекс Лавке: от эвристик до ML
Команда Яндекс Лавки выкатила подробный разбор своей системы рекомендаций смен. Настоящий честный рассказ про непростой инженерный путь.
В статье очень наглядно показана эволюция продукта, где каждая следующая итерация решала проблемы предыдущей.
Кратко, о чём пишут:
🔹 MVP на векторах: как оцифровать предпочтения и считать скор простым скалярным произведением.
🔹 Переход в real-time: почему офлайн-пайплайн не справился и как построили асинхронный сервис.
🔹 Гибридная архитектура: как совместили плановую и рантайм-логику, не выбрасывая старый код.
🔹 Будущее в ML: какие фичи готовят для модели на бустинге.
Отличный пример того, как можно пошагово прийти к сложному и эффективному решению.
👉 Почитать разбор
Команда Яндекс Лавки выкатила подробный разбор своей системы рекомендаций смен. Настоящий честный рассказ про непростой инженерный путь.
В статье очень наглядно показана эволюция продукта, где каждая следующая итерация решала проблемы предыдущей.
Кратко, о чём пишут:
🔹 MVP на векторах: как оцифровать предпочтения и считать скор простым скалярным произведением.
🔹 Переход в real-time: почему офлайн-пайплайн не справился и как построили асинхронный сервис.
🔹 Гибридная архитектура: как совместили плановую и рантайм-логику, не выбрасывая старый код.
🔹 Будущее в ML: какие фичи готовят для модели на бустинге.
Отличный пример того, как можно пошагово прийти к сложному и эффективному решению.
👉 Почитать разбор
❤1