Суть: не революция, а апдейт «двигателя». Скорость, точность, стабильность — без принципиально новых фич. Прям история с айфонами после Джобса вспоминается.
Что улучшили:
Три версии:
Цены API: $1,75/1M input, $14/1M output (Thinking). Дороже чем GPT-5.1 ($1,25/$10), но дешевле Gemini 3 Pro. Prompt caching — скидка 90% на повторные запросы.
Важно для разработчиков: старые промпты работают, но модель буквальнее следует инструкциям. Переписывать не нужно, но протестировать стоит — quirks GPT-5.1 могут измениться.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4⚡2❤2🤣1
Unsloth выкатили апдейт с новыми Triton-ядрами — обучение LLM теперь до 3-5 раз быстрее и на 30-90% меньше VRAM. Qwen3-4B можно дообучить всего на 3,9 ГБ видеопамяти.
Что сделали:
🔘 Объединили два отдельных ядра для Q и K в RoPE в одно — получили 2,3x ускорение на длинных контекстах
🔘 RoPE теперь полностью inplace — никаких лишних копирований тензоров
🔘 Добавили int64 индексацию для SwiGLU/GeGLU — без этого на контекстах 500K+ вылетало с CUDA out of bounds
🔘 Умный packing включён по умолчанию — потери от паддинга исчезают
Зачем нужен packing: в реальных датасетах последовательности разной длины. Если в батче смешать короткие и длинные — короткие забиваются нулями до размера самых длинных. При batch_size=8 почти 50% токенов — паддинг. Packing склеивает несколько примеров в один длинный тензор с маской, чтобы attention не утекал между ними. Чем больше коротких примеров в датасете — тем больше выигрыш.
Как использовать: просто обновите Unsloth — padding-free включён автоматически. Для полного packing добавьте
Работает с FA2, FA3, xFormers, SDPA и даже на старых GPU типа T4/RTX 2080. Loss-кривые идентичны unpacked версии — точность не страдает.
Код на GitHub, на графике сравнение скорости для разных размеров батча.
@neuro_channel
Что сделали:
Зачем нужен packing: в реальных датасетах последовательности разной длины. Если в батче смешать короткие и длинные — короткие забиваются нулями до размера самых длинных. При batch_size=8 почти 50% токенов — паддинг. Packing склеивает несколько примеров в один длинный тензор с маской, чтобы attention не утекал между ними. Чем больше коротких примеров в датасете — тем больше выигрыш.
Как использовать: просто обновите Unsloth — padding-free включён автоматически. Для полного packing добавьте
packing=True в SFTConfig:pip install --upgrade unsloth unsloth_zoo
trainer = SFTTrainer(
model=model,
args=SFTConfig(..., packing=True),
)
Работает с FA2, FA3, xFormers, SDPA и даже на старых GPU типа T4/RTX 2080. Loss-кривые идентичны unpacked версии — точность не страдает.
Код на GitHub, на графике сравнение скорости для разных размеров батча.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9
Топ трендов на HuggingFace за неделю — экспансия ZAI, свежие кодинг-модели и новые генераторы изображений.
➡️ Генерация изображений
Z-Image-Turbo удерживает лидерство — скачивания выросли с 153k до 278k за неделю. Подробнее про эту модель в посте.
Также появились новички:
1️⃣ LongCat-Image — 6B модель, билингвальная (китайский-английский), SOTA в рендеринге китайских иероглифов, умеет и генерить, и редактировать, влезает в 16GB.
2️⃣ NewBie-image-Exp0.1 — 3,5B DiT на архитектуре Next-DiT, заточена под аниме. Использует XML-формат промптов для лучшего связывания атрибутов. Легче Z-Image, работает даже на 8GB VRAM.
3️⃣ Qwen-Image-i2L генерирует LoRA из изображений без обучения. Закинул картинку — получил готовую LoRA для стилизации.
4️⃣ Qwen-Edit-2509-Light-Migration — LoRA для Qwen-Image-Edit-2509 для работы со светом на картинках: перенос с одной на другую, установка света, удаление освещения и т.п. От того же автора, что сделал управление виртуальной камерой.
➡️ LLM
DeepSeek-V3.2 остаётся в топе с 61k скачиваний, 920 лайков. И на то есть причины.
Отдельно новички топа:
1️⃣ rnj-1-instruct — 8B модель от авторов «Attention Is All You Need», заточена на агентный кодинг: 62,2% на BFCL (tool use), Apache 2.0.
2️⃣ nomos-1 от Nous Research — 30B MoE (3B активных), набрал 87/120 на Putnam 2025 (второе место среди 3988 людей), базовая Qwen3-30B получила лишь 24.
3️⃣ И, конечно, SamKash-Tolstoy — загадочный проект для работы с русскоязычными литературными текстами: анализ, стилизация, генерация в духе классиков.
➡️ Кодинг
Главная новинка недели — Devstral 2 от Mistral. Две версии: флагман на 123B с 72% на SWE-bench Verified и контекстом 256K, и компактный Devstral Small 2 на 24B с 68% на том же бенчмарке. Маленькая версия работает на одной GPU и обходит конкурентов класса 70B. Если пропустили этот релиз — читайте отдельный пост, модельки крайне годные.
➡️ Мультимодальные
ZAI (экс-Zhipu) захватил топ серией GLM-4.6V. Флагман GLM-4.6V на 106B — SOTA на 42 бенчмарках визуального понимания среди открытых моделей. Контекст 128K, впервые нативный function calling для VLM — мост между «увидел» и «сделал». Лёгкая GLM-4.6V-Flash на 10B с 67k скачиваний для локального деплоя. Подробнее в этом посте. Если работаете распознаванием картинок, то обязательно гляньте, топ-модельки.
Также из интересного есть Apriel-1.6-15b-Thinker от ServiceNow — 15B reasoning модель, которая набирает 57 на AA Intelligence Index наравне с Qwen-235B и DeepSeek-v3.2-Exp, будучи в 15 раз меньше.
➡️ Агенты
Новинка AutoGLM-Phone-9B от ZAI — агент для управления Android через естественный язык. Понимает UI, кликает, навигирует по приложениям через ADB. Есть мультиязычная версия.
➡️ Аудио
VibeVoice-Realtime-0.5B от Microsoft на втором месте общего топа с 131k скачиваний, но всё ещё только английский, без поддержки русского. Новинки от ZAI: GLM-TTS — zero-shot клонирование голоса с 3 секунд аудио с Multi-Reward RL, и GLM-ASR-Nano-2512 — компактная ASR модель на 1,5B для продакшна с поддержкой диалектов. Звучит круто, но только английский и китайский.
Если на прошлой неделе топ делили Alibaba, DeepSeek и Microsoft, то сейчас ZAI буквально доминирует — 6 моделей из 20. Китайские компании продолжают захватывать open-source.
@neuro_channel
Z-Image-Turbo удерживает лидерство — скачивания выросли с 153k до 278k за неделю. Подробнее про эту модель в посте.
Также появились новички:
DeepSeek-V3.2 остаётся в топе с 61k скачиваний, 920 лайков. И на то есть причины.
Отдельно новички топа:
Главная новинка недели — Devstral 2 от Mistral. Две версии: флагман на 123B с 72% на SWE-bench Verified и контекстом 256K, и компактный Devstral Small 2 на 24B с 68% на том же бенчмарке. Маленькая версия работает на одной GPU и обходит конкурентов класса 70B. Если пропустили этот релиз — читайте отдельный пост, модельки крайне годные.
ZAI (экс-Zhipu) захватил топ серией GLM-4.6V. Флагман GLM-4.6V на 106B — SOTA на 42 бенчмарках визуального понимания среди открытых моделей. Контекст 128K, впервые нативный function calling для VLM — мост между «увидел» и «сделал». Лёгкая GLM-4.6V-Flash на 10B с 67k скачиваний для локального деплоя. Подробнее в этом посте. Если работаете распознаванием картинок, то обязательно гляньте, топ-модельки.
Также из интересного есть Apriel-1.6-15b-Thinker от ServiceNow — 15B reasoning модель, которая набирает 57 на AA Intelligence Index наравне с Qwen-235B и DeepSeek-v3.2-Exp, будучи в 15 раз меньше.
Новинка AutoGLM-Phone-9B от ZAI — агент для управления Android через естественный язык. Понимает UI, кликает, навигирует по приложениям через ADB. Есть мультиязычная версия.
VibeVoice-Realtime-0.5B от Microsoft на втором месте общего топа с 131k скачиваний, но всё ещё только английский, без поддержки русского. Новинки от ZAI: GLM-TTS — zero-shot клонирование голоса с 3 секунд аудио с Multi-Reward RL, и GLM-ASR-Nano-2512 — компактная ASR модель на 1,5B для продакшна с поддержкой диалектов. Звучит круто, но только английский и китайский.
Если на прошлой неделе топ делили Alibaba, DeepSeek и Microsoft, то сейчас ZAI буквально доминирует — 6 моделей из 20. Китайские компании продолжают захватывать open-source.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3
Исследователь OpenAI уволился, обвинив компанию в цензуре неудобных исследований
➡️ Что произошло
По данным Wired, минимум двое сотрудников экономического отдела уволились из-за того, что OpenAI стала блокировать публикации исследований, показывающих негативное влияние ИИ на экономику и рынок труда. После ухода Каннингема директор по стратегии Джейсон Квон разослал письмо о том, что компания должна «создавать решения», а не публиковать исследования на «сложные темы».
➡️ Контекст
OpenAI основана в 2016 как некоммерческая организация с фокусом на открытые исследования. Сегодня — закрытые модели, реструктуризация в коммерческую корпорацию и планы на IPO с оценкой $1 трлн. На кону контракты на сотни миллиардов: $100B от производителя чипов, $250B за Azure от Microsoft.
➡️ Не первый случай, ранее
🔘 Уильям Сондерс (Superalignment) — ушёл, заявив что компания ставит «новые блестящие продукты» выше безопасности
🔘 Стивен Адлер (safety research) — после ухода критикует подход к разработке
🔘 Майлз Брандейдж (policy research) — жаловался, что стало «сложно» публиковать исследования на важные темы
Когда на кону триллион долларов, публикация исследования о том, что ИИ может уничтожать рабочие места как будто и правда не очень позитивно влияет на бизнес.
Хотя вот CEO Anthropic Дарио Амодеи, напротив, публично предупреждает, что ИИ может заменить до половины офисных позиций к 2030 году — и считает такие предупреждения необходимыми для общественной дискуссии.
С одной стороны ничего нового, а с другой — очередное напоминание, что любые исследования нельзя принимать на веру и относиться к ним критически.
@neuro_channel
По данным Wired, минимум двое сотрудников экономического отдела уволились из-за того, что OpenAI стала блокировать публикации исследований, показывающих негативное влияние ИИ на экономику и рынок труда. После ухода Каннингема директор по стратегии Джейсон Квон разослал письмо о том, что компания должна «создавать решения», а не публиковать исследования на «сложные темы».
OpenAI основана в 2016 как некоммерческая организация с фокусом на открытые исследования. Сегодня — закрытые модели, реструктуризация в коммерческую корпорацию и планы на IPO с оценкой $1 трлн. На кону контракты на сотни миллиардов: $100B от производителя чипов, $250B за Azure от Microsoft.
Когда на кону триллион долларов, публикация исследования о том, что ИИ может уничтожать рабочие места как будто и правда не очень позитивно влияет на бизнес.
Хотя вот CEO Anthropic Дарио Амодеи, напротив, публично предупреждает, что ИИ может заменить до половины офисных позиций к 2030 году — и считает такие предупреждения необходимыми для общественной дискуссии.
С одной стороны ничего нового, а с другой — очередное напоминание, что любые исследования нельзя принимать на веру и относиться к ним критически.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
🤷♂2❤1
В открытый доступ выложили две аудио-модели: Fun-CosyVoice3 (TTS, 0.5B) и Fun-ASR-Nano (распознавание речи, 0.8B). Обе можно запускать локально и дообучать под свои задачи.
➡️ Fun-CosyVoice3 — zero-shot TTS с клонированием голоса. Даёшь 3-10 секунд аудио с голосом — модель синтезирует речь этим голосом на любом из поддерживаемых языков. Поддерживает китайский, английский, японский, корейский, кантонский и русский. По сравнению с CosyVoice 2 масштабировали данные с 10K до 1M часов аудио.
Что улучшили в третьей версии:
🔘 Новый speech tokenizer с multi-task обучением (ASR + распознавание эмоций + определение языка + детекция событий)
🔘 Меньше ошибок произношения — на 30-50% по сравнению с первой версией
🔘 Поддержка mixed sequences — можно смешивать слова и фонемы для точного контроля произношения
🔘 Стриминг с latency от 150ms
➡️ Fun-ASR-Nano — лёгкая ASR-модель, которая хорошо справляется с шумом и тихой речью. Hallucination rate снизили с 78,5% до 10,7% благодаря новому Context-модулю. Работает с далёкими микрофонами, фоновым шумом, несколькими говорящими.
Модели на хагинфейсе, демо на сайте.
Послушайте как генерит русскую речь, вполне себе годно получается!
@neuro_channel
Что улучшили в третьей версии:
Модели на хагинфейсе, демо на сайте.
Послушайте как генерит русскую речь, вполне себе годно получается!
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
MiMo-V2-Flash — Xiaomi выкатила конкурента DeepSeek и Claude. Тот самый случай, когда Xiaomi MiMo — совсем не мимо (фииить-ха!)
309B параметров, 15B активных (MoE). Гибридный attention: sliding window + full в соотношении 5:1. Контекст 256k токенов.
➡️ Зачем нужна
Reasoning, код, агентские сценарии. На SWE-bench Verified (73,4%) — #1 среди open-source, на уровне GPT-5 High. На AIME 2025 (94,1%) — топ-2 среди открытых моделей. Умеет hybrid thinking: можно включать/выключать «размышления».
➡️ Скорость и цена
🔘 150 токенов/сек на инференсе
🔘 $0,1 / 1M input, $0,3 / 1M output
🔘 Self-speculative decoding через MTP даёт ускорение 2,0-2.6x
➡️ Что под капотом
Multi-Token Prediction (MTP) — модель предсказывает несколько токенов за раз и верифицирует параллельно. Sliding Window Attention вместо Linear Attention — фиксированный KV-кэш, проще интеграция. MOPD (Multi-Teacher Online Policy Distillation) — новый подход к post-training: <1/50 вычислений от классического SFT+RL пайплайна при сопоставимом качестве.
MIT лицензия, API временно бесплатный. На картинке явно видно чем интересна модель — эффективностью при бенчмарках на уровне пред-топовых моделей.
📎 HuggingFace, официальный блог, API
@neuro_channel
309B параметров, 15B активных (MoE). Гибридный attention: sliding window + full в соотношении 5:1. Контекст 256k токенов.
Reasoning, код, агентские сценарии. На SWE-bench Verified (73,4%) — #1 среди open-source, на уровне GPT-5 High. На AIME 2025 (94,1%) — топ-2 среди открытых моделей. Умеет hybrid thinking: можно включать/выключать «размышления».
Multi-Token Prediction (MTP) — модель предсказывает несколько токенов за раз и верифицирует параллельно. Sliding Window Attention вместо Linear Attention — фиксированный KV-кэш, проще интеграция. MOPD (Multi-Teacher Online Policy Distillation) — новый подход к post-training: <1/50 вычислений от классического SFT+RL пайплайна при сопоставимом качестве.
MIT лицензия, API временно бесплатный. На картинке явно видно чем интересна модель — эффективностью при бенчмарках на уровне пред-топовых моделей.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
GPT Image 1.5 — OpenAI обновила генерацию картинок в ChatGPT
Новая флагманская модель для генерации и редактирования изображений. Ответ на Google Nano Banana Pro, который вышел три недели назад.
➡️ Что изменилось
🔘 4x быстрее предыдущей версии
🔘 Точнее следует инструкциям — меняет только то, что просишь, сохраняя освещение, композицию и лица
🔘 Лучше рендерит текст на изображениях (извечная боль генераторов)
🔘 API на 20% дешевле предыдущей модели
➡️ Новый интерфейс
В ChatGPT появился отдельный раздел Images в сайдбаре — с пресетами, фильтрами и стилями. Работает как «creative studio», а не просто генерация через чат.
➡️ Позиционирование
OpenAI говорит о «переходе от novelty к практическому визуальному продакшну». Фокус на продуктовых и профессиональных изображениях, итеративном редактировании без потери консистентности.
Модель уже доступна всем пользователям ChatGPT. В API — как
@neuro_channel
Новая флагманская модель для генерации и редактирования изображений. Ответ на Google Nano Banana Pro, который вышел три недели назад.
В ChatGPT появился отдельный раздел Images в сайдбаре — с пресетами, фильтрами и стилями. Работает как «creative studio», а не просто генерация через чат.
OpenAI говорит о «переходе от novelty к практическому визуальному продакшну». Фокус на продуктовых и профессиональных изображениях, итеративном редактировании без потери консистентности.
Модель уже доступна всем пользователям ChatGPT. В API — как
gpt-image-1.5.@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Meta выпустила SAM Audio — «Segment Anything» теперь для звука*
Помните SAM для картинок — кликаешь на объект, и сетка его выделяет? Теперь то же самое есть для аудио. Можете попросить модель вытащить из микса кряканье утки, голос конкретного человека или звук гитары — и она изолирует только это.
➡️ Три типа промптов
1️⃣ Текст: пишете «dog barking» — получаете только лай
2️⃣ Визуальный: кликаете на человека в видео — получаете только его голос
3️⃣ Span: выделяете временной отрезок, где слышен нужный звук — модель найдёт его по всей записи
➡️ Какие выложили модели
🔘 SAM-Audio (small/base/large) — основные модели для изоляции звука по текстовому промпту
🔘 SAM-Audio-TV — версии с поддержкой видео: можете кликнуть на объект в кадре
🔘 PE-A-Frame (small/base/large, 0.4B-1B) — эмбединги из аудио и текста, причём из текста один, а из аудио — серия по времени, где похожие звуки получат близкие эмбединги т.е. можно свой пайплайн строить
🔘 PE-AV (small → large, 0.8B-2B) — эмбединги для трёх доменов: понимает и звук, и картинку, мапит всё в единое пространство
🔘 PE-AV-16-frame — версии энкодера для длинных видео (16 кадров вместо 1)
🔘 SAM-Audio-Judge — модель-судья для оценки качества сегментации
➡️ Ограничения
Пока плохо справляется с очень похожими звуками (один голос из толпы, одна скрипка из оркестра). Нельзя использовать аудио как промт.
⚡️ Лицензия разрешает research и коммерческое использование.
📎 GitHub, HuggingFace
@neuro_channel
*Meta признана экстремистской организацией, её деятельность запрещена в РФ
Помните SAM для картинок — кликаешь на объект, и сетка его выделяет? Теперь то же самое есть для аудио. Можете попросить модель вытащить из микса кряканье утки, голос конкретного человека или звук гитары — и она изолирует только это.
Пока плохо справляется с очень похожими звуками (один голос из толпы, одна скрипка из оркестра). Нельзя использовать аудио как промт.
@neuro_channel
*Meta признана экстремистской организацией, её деятельность запрещена в РФ
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3
Как-то я пропустил, а в декабре, оказывается, Hugging Face выпустила первый релиз-кандидат Transformers v5 — крупнейшее обновление библиотеки за пять лет. С 2020 года количество поддерживаемых архитектур выросло с 20 до 400+, а установок через pip — с 20 тысяч до 3 миллионов в день.
Главное изменение — библиотека теперь работает только с PyTorch, поддержку TensorFlow и Flax убрали. Это позволило серьёзно упростить код и ускорить добавление новых моделей. Вместо кучи новых фич команда сделала большой рефакторинг, чтобы Transformers стала универсальной основой для всей экосистемы — от тренировки до деплоя.
Что конкретно поменялось: квантизация теперь встроена нативно (8-bit и 4-bit из коробки), появился единый AttentionInterface для подключения альтернативных реализаций attention, токенизация упростилась (больше нет разделения на Fast/Slow), добавлена интеграция с движками инференса типа vLLM и SGLang. Для деплоя появился новый компонент transformers serve с OpenAI-совместимым API.
Сейчас идёт фаза релиз-кандидата — команда собирает обратную связь перед финальным релизом. Переход может потребовать изменений в коде, в принципе можно начинать готовиться.
@neuro_channel
Главное изменение — библиотека теперь работает только с PyTorch, поддержку TensorFlow и Flax убрали. Это позволило серьёзно упростить код и ускорить добавление новых моделей. Вместо кучи новых фич команда сделала большой рефакторинг, чтобы Transformers стала универсальной основой для всей экосистемы — от тренировки до деплоя.
Что конкретно поменялось: квантизация теперь встроена нативно (8-bit и 4-bit из коробки), появился единый AttentionInterface для подключения альтернативных реализаций attention, токенизация упростилась (больше нет разделения на Fast/Slow), добавлена интеграция с движками инференса типа vLLM и SGLang. Для деплоя появился новый компонент transformers serve с OpenAI-совместимым API.
Сейчас идёт фаза релиз-кандидата — команда собирает обратную связь перед финальным релизом. Переход может потребовать изменений в коде, в принципе можно начинать готовиться.
@neuro_channel
👍2❤1
Gemini 3 Flash — новая модель Google для быстрого кодинга, релизнули час назад.
Главное: 78% на SWE-bench Verified — обходит не только 2.5 серию, но и Gemini 3 Pro в agentic coding. При этом в 3x быстрее и стоит меньше четверти от 3 Pro.
Как попробовать
🔘 Cursor — уже в списке моделей
🔘 Gemini CLI:
🔘 Google AI Studio, Vertex AI, OpenRouter
Лирическое авторское отступление:
На картинке — сравнение баллов по кодингу с другими моделями. Claude 4.5 Opus предусмотрительно не добавили на график.
@neuro_channel
Главное: 78% на SWE-bench Verified — обходит не только 2.5 серию, но и Gemini 3 Pro в agentic coding. При этом в 3x быстрее и стоит меньше четверти от 3 Pro.
Как попробовать
npm install -g @google/gemini-cli@latest, затем /settings → Preview features → /modelЛирическое авторское отступление:
Если честно, то подустал уже от этих релизов. Компании соревнуются, по три крутых модели за день выпускают. А у меня канал превращается в анонсер моделей. С другой стороны — не писать про это тоже не могу. Так что если что — выскажитесь в комментах, пожалуйста.
На картинке — сравнение баллов по кодингу с другими моделями. Claude 4.5 Opus предусмотрительно не добавили на график.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🤣5❤2✍1
SMOL_секреты_создания_LLM_мирового_класса_Перевод_t_me_aivkube.pdf
14.6 MB
Сергей Долгов перевёл «The Smol Training Playbook» — самую популярную публикацию на HuggingFace о том, как создают, тренируют и дообучают языковые модели.
➡️ Что внутри
🔘 Архитектура: MHA → GQA → MLA, позиционные кодировки (RoPE, NoPE), почему DeepSeek выбрал именно такие решения
🔘 Претрейн: как собирать данные, выбирать learning rate, batch size, schedulers (WSD vs Cosine vs Multi-Step)
🔘 Scaling laws: сколько данных нужно для модели N параметров, как считать FLOPs
🔘 Post-training: SFT, DPO, GRPO, RLVR — когда что использовать и почему on-policy лучше off-policy
🔘 Практика: как команда SmolLM3 обучала модель на 384×H100 за 11 триллионов токенов
➡️ Для кого
Для тех, кто хочет понять, как реально устроен процесс обучения LLM — не на уровне «скачал модель с HuggingFace», а на уровне «почему GQA ratio 4, а не 8» и «когда WSD лучше cosine decay».
Сергею — огромное спасибо за качественную вёрстку и время на перевод. Настольная книга для всех, кто копает в сторону ML.
📎 Оригинал на HF, версия на русском в прикреплённой PDF.
@neuro_channel
Для тех, кто хочет понять, как реально устроен процесс обучения LLM — не на уровне «скачал модель с HuggingFace», а на уровне «почему GQA ratio 4, а не 8» и «когда WSD лучше cosine decay».
Сергею — огромное спасибо за качественную вёрстку и время на перевод. Настольная книга для всех, кто копает в сторону ML.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤2
OpenAI выпустила GPT-5.2-Codex — заточенную под код версию 5.2
Что умеет
🔘 Агентный кодинг: планирует задачи, а не просто генерит сниппеты
🔘 Понимает скриншоты и макеты UI → сразу в код
🔘 Лучше держит длинный контекст в сессиях
🔘 Уже нашла критические баги в React
Бенчмарки
На Terminal-Bench 2.0 (CLI, работа с файлами, девопс-задачи) — 64%, обогнала Opus 4.5 и Gemini 3 Pro. Баллы на SWE Bench Verified не показали, так что скорее всего там опус держит первое место. Да и я писал уже ранее, что эти бенчмарки очень относительны.
Где попробовать
Новинки ещё нет в курсоре и цены тоже не объявлены, так что только в ChatGPT и Codex CLI пока что.
@neuro_channel
Что умеет
Бенчмарки
На Terminal-Bench 2.0 (CLI, работа с файлами, девопс-задачи) — 64%, обогнала Opus 4.5 и Gemini 3 Pro. Баллы на SWE Bench Verified не показали, так что скорее всего там опус держит первое место. Да и я писал уже ранее, что эти бенчмарки очень относительны.
Где попробовать
Новинки ещё нет в курсоре и цены тоже не объявлены, так что только в ChatGPT и Codex CLI пока что.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🏆2
Z ai (Zhipu) готовит к релизу GLM-4.7 — флагманскую модель для программирования. Сейчас открыт бесплатный доступ для тестирования, причём только на китайских сайтах вроде 302.ai. Это эволюция GLM-4.6, которая уже конкурировала с Claude Sonnet 4, так что в новой версии можно ожидать тоже что-то интересное.
Что известно про новинку
🔘 Фокус: Agentic Coding — долгосрочное планирование + tool orchestration
🔘 Контекст на 200к, цена после запуска будет $0,286 / 1M tokens
🔘 Цель — лидерство среди open-source на публичных бенчмарках
➡️ UPD 18:15 МСК: появилась документация, теперь известно:
🔘 LMArena Code Arena: #1 open-source, обогнала GPT-5.2
🔘 LiveCodeBench V6: 84,8 (open-source SOTA), выше Claude Sonnet 4.5
🔘 AIME 2025 (математика): open-source SOTA, выше Sonnet 4.5 и GPT-5.1
Посмотрим, подтвердятся ли бенчмарки на независимых тестах.
@neuro_channel
Что известно про новинку
Посмотрим, подтвердятся ли бенчмарки на независимых тестах.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Generative Refocusing — новая модель для перефокусировки любого фото и добавления боке постфактум. Основана на Flux.1 Dev.
Как работает
🔘 DeblurNet — сначала восстанавливает резкое изображение из любого инпута, даже если там уже есть расфокус
🔘 BokehNet — потом накладывает контролируемое боке: выбираешь точку фокуса, интенсивность размытия, форму диафрагмы (круг, сердечко, звезда)
🔘 Разделение на две стадии решает проблему: depth estimation на размытых фото обычно врёт, а тут сначала деблюрим
➡️ Фишка — semi-supervised training
Обучали на синтетике + реальных фото с боке из Flickr с EXIF-метаданными. Симуляторы не передают реальную оптику, а EXIF даёт инфу о реальных объективах. GPT-4o генерил промпты для расширения датасета.
Результаты
🔘 SOTA на DPDD, RealDOF, LF-Bokeh, LF-Refocus
🔘 Лучшие LPIPS, FID, CLIP-IQA среди конкурентов
🔘 Поддержка text-guided корректировок («добавь боке на фон»)
📎 GitHub, веса на HF, демо, публикация с деталями, на видео в посте объяснение как это работает с примерами
@neuro_channel
Как работает
Обучали на синтетике + реальных фото с боке из Flickr с EXIF-метаданными. Симуляторы не передают реальную оптику, а EXIF даёт инфу о реальных объективах. GPT-4o генерил промпты для расширения датасета.
Результаты
@neuro_channel
Media is too big
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👌2
Нейроканал
Z ai (Zhipu) готовит к релизу GLM-4.7 — флагманскую модель для программирования. Сейчас открыт бесплатный доступ для тестирования, причём только на китайских сайтах вроде 302.ai. Это эволюция GLM-4.6, которая уже конкурировала с Claude Sonnet 4, так что в…
Вчерашнюю новость про GLM могли пропустить, а модель уже добралась до HF. Рекомендую обратить внимание на бенчмарки и вспомнить, что это открытая модель. Понятно, что на своём компе не запустить, но инференс будет явно значительно дешевле у облачных провайдеров, чем по проприетарным моделям.
@neuro_channel
@neuro_channel
👍6❤2👎1😴1💊1
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro на международной text-to-video арене
🔘 Pro версия является ТОП-1 опенсорсом в мире;
🔘 Lite версия (2B параметров) лучше первой версии Sora;
🔘 На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +/-21 балла.
Для российских генеративных моделей выход на международную арену — уникальное событие.
Полезные ссылки:
💻 Посмотреть весь лидерборд: lmarena
💻 Почитать подробнее про Kandinsky 5.0: пост, техрепорт
💻 Open Source Kandinsky 5.0: github и hf
Это #партнёрский пост
Для российских генеративных моделей выход на международную арену — уникальное событие.
Полезные ссылки:
Это #партнёрский пост
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4😱2🏆2👎1🥱1💊1
Тренды HuggingFace за неделю — свежий обзор ТОП-20 моделей
➡️ LLM
🔘 GLM-4.7 от ZAI — новый флагман на 358B (32B активных), MoE, заточен под агентный кодинг и сложный reasoning. Главные фичи: модель думает между действиями и сохраняет контекст размышлений в длинных multi-turn задачах. SOTA на SWE-bench Multilingual и Terminal Bench. Особая гордость — я написал про этот релиз даже до появления офф. доков и весов на HF, заметил софт-лонч на 302.
🔘 MiMo-V2-Flash — дебют Xiaomi в LLM: 309B параметров, 15B активных. Контекст 256K, инновационный Hybrid Sliding Window Attention с соотношением 5:1 и окном всего 128 токенов. Подробнее в посте.
🔘 FunctionGemma-270M от Google — ультралёгкая модель специально для function calling. Разработана для on-device агентов: переводит естественный язык в API-вызовы. Работает как standalone или как traffic controller для более мощных моделей.
➡️ Генерация изображений
🔘 Z-Image-Turbo удерживает лидерство. Прям с начала декабря в топе.
🔘 Qwen-Image-Layered — новинка от Qwen, которая раскладывает изображение на RGBA-слои как в Photoshop. В отличие от SAM, не просто сегментирует, а генерирует полные слои с альфа-каналом и дорисовывает скрытые области за объектами. Поддерживает переменное число слоёв (3-8+) в зависимости от сложности сцены.
🔘 AWPortrait-Z — для генерации портретов.
🔘 Z-Image-Turbo-Fun-Controlnet-Union-2.1 — ControlNet-адаптер для Z-Image-Turbo от Alibaba.
➡️ 3D-генерация
🔘 TRELLIS.2-4B от Microsoft — 4B модель для image-to-3D с новой структурой O-Voxel. Генерирует 3D-модели с PBR-материалами: 512³ за ~3 секунды, 1024³ за ~17 секунд, 1536³ за ~60 секунд на H100. Поддержка Base Color, Roughness, Metallic и прозрачности. Про эту модель я тоже писал, но в другом канале.
🔘 Sharp от Apple — превращает плоское фото в интерактивную 3D-сцену меньше чем за секунду. С помощью технологии 3D Gaussian Splatting создаёт эффект глубины и параллакса, позволяя «вращать» камеру и видеть объем там, где раньше был обычный снимок.
➡️ Видео и интерактивные миры
🔘 HY-WorldPlay от Tencent — первая open-source модель интерактивного мира с генерацией в реальном времени (24 FPS). Управление через клавиатуру/мышь, текстовые триггеры событий на лету («car crash», «sudden rain»). Ключевая фича — долгосрочная 3D-консистентность: сцены сохраняются при возвращении в локацию.
🔘 LongCat-Video-Avatar — генерация видео-аватаров.
➡️ Агенты
🔘 BU-30B-A3B-Preview — первая open-source модель от Browser Use для веб-агентов. 30B параметров, 3B активных, файнтюн Qwen3-VL-30B. Обещают 200 задач на $1 — в 4 раза эффективнее их предыдущей версии.
🔘 NitroGen от NVIDIA — vision-to-action модель, которая играет в видеоигры по сырым кадрам. Обучена на 40k+ часов геймплея с YouTube и Twitch. Работает с action RPG, платформерами, рогаликами; показывает до 52% лучшие результаты на незнакомых играх по сравнению с моделями, обученными с нуля.
➡️ Аудио
🔘 sam-audio-large — свежий релиз «сегментации всего» для аудио. Можно кликнуть на человека на видео и отфильтровать только его голос, или выделить гитару из музыки, в общем очень круто выглядит. Подробнее вот тут писал.
🔘 chatterbox-turbo от ResembleAI — TTS-модель, только английский.
🔘 Fun-CosyVoice3-0.5B — компактная TTS на 0.5B с поддержкой русского языка. Лично потестировал, звучит очень неплохо, но иногда галлюцинирует и из-за этого на продакшен не взял. F5-TTS в этом плане куда стабильнее.
🔘 medasr от Google — ASR-модель для медицины т.е. когда врачи/исследователи что-то надиктовывают и много специальных терминов.
➡️ Мультимодальные
🔘 Nemotron-3-Nano-30B-A3B — модель, заточенная под эффективную работу в мультиагентных системах, по сути промежуточные шаги, где нужна скорость без высоких затрат.
🔘 t5gemma-2 от Google — понимает картинки и текст одновременно. Показываешь фото, задаёшь вопрос — получаешь ответ.
🔘 SAM3 — уже больше миллиона скачиваний, по-прежнему в топе. Читайте отдельный пост.
На этой неделе топ разнообразнее, нет явного лидера или серии моделей, так что пост получился объёмный. Приятного изучения!
@neuro_channel
На этой неделе топ разнообразнее, нет явного лидера или серии моделей, так что пост получился объёмный. Приятного изучения!
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3❤1
Nvidia покупает Groq за $20 млрд — крупнейшая сделка в истории компании
➡️ Что случилось
Nvidia приобретает активы AI-чип стартапа Groq за $20 млрд наличными. Это крупнейшая сделка Nvidia — предыдущий рекорд был $7 млрд за Mellanox в 2019. Три месяца назад Groq привлёк $750 млн при оценке $6,9 млрд. То есть Nvidia заплатила почти 3x.
➡️ Inference — новое поле битвы
Groq делает чипы для inference — запуска готовых моделей (не обучения). Их фишка — сверхнизкая задержка. Пока все гнались за training-чипами, рынок сместился к inference: миллиарды пользователей используют LLM в реальном времени.
➡️ Интересная схема сделки
Формально это не поглощение компании, а «неисключительное лицензирование технологий» + найм ключевых людей. Основатель Jonathan Ross (один из создателей Google TPU) и президент Sunny Madra переходят в Nvidia. Groq Cloud продолжит работать независимо под руководством нового CEO Simon Edwards (бывший CFO).
➡️ Последствия
Groq был одним из немногих реальных конкурентов Nvidia в AI-чипах. Теперь его технологии и ключевые люди — у Nvidia. Классика: если не можешь победить — купи.
@neuro_channel
Nvidia приобретает активы AI-чип стартапа Groq за $20 млрд наличными. Это крупнейшая сделка Nvidia — предыдущий рекорд был $7 млрд за Mellanox в 2019. Три месяца назад Groq привлёк $750 млн при оценке $6,9 млрд. То есть Nvidia заплатила почти 3x.
Groq делает чипы для inference — запуска готовых моделей (не обучения). Их фишка — сверхнизкая задержка. Пока все гнались за training-чипами, рынок сместился к inference: миллиарды пользователей используют LLM в реальном времени.
Формально это не поглощение компании, а «неисключительное лицензирование технологий» + найм ключевых людей. Основатель Jonathan Ross (один из создателей Google TPU) и президент Sunny Madra переходят в Nvidia. Groq Cloud продолжит работать независимо под руководством нового CEO Simon Edwards (бывший CFO).
Groq был одним из немногих реальных конкурентов Nvidia в AI-чипах. Теперь его технологии и ключевые люди — у Nvidia. Классика: если не можешь победить — купи.
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
😱6🤷♂2❤1
Китайская MiniMax выложила M2.1 — MoE-модель для агентных задач: написание кода, использование инструментов, многошаговые сценарии.
➡️ Основные цифры
🔘 456B параметров, из них ~46B активных на инференс, контекст до 4 млн токенов
🔘 Для локального запуска: 4× GPU по 96GB (контекст 400K) или 8× 144GB (до 3M), в 4-bit квантизации: ~130GB VRAM (2× A100), а с KTransformers можно запустить на RTX 5090 32GB
🔘 На мультиязычном кодинге (Rust, Go, Java, C++, TypeScript, Kotlin) обходит Sonnet, приближаясь к Opus, VIBE-бенчмарк: Web 91,5, Android 89,7, iOS 88,0 — SOTA full-stack разработка
➡️ Где попробовать
🔘 Официальный API
🔘 OpenRouter
🔘 Бесплатный веб-интерфейс
Для личного кодинга всё ещё рулит Opus, но вот для встраивания в свои продукты или если не хочется переплачивать за пару процентов бенчмарка — самое то.
📎 Веса на HuggingFace, код на GitHub, на картинке сравнение всех топовых моделей для кодинга
P.S. Отдельное спасибо ребятам из MiniMax за сравнение со всеми топ-моделями, а не только с теми, на против которых они хорошо смотрятся
@neuro_channel
Для личного кодинга всё ещё рулит Opus, но вот для встраивания в свои продукты или если не хочется переплачивать за пару процентов бенчмарка — самое то.
P.S. Отдельное спасибо ребятам из MiniMax за сравнение со всеми топ-моделями, а не только с теми, на против которых они хорошо смотрятся
@neuro_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤩2