This media is not supported in your browser
VIEW IN TELEGRAM
Идея в том, чтобы модели могли мгновенно адаптироваться к новым задачам или информации — без долгого fine-tuning, сложных пайплайнов и огромных промптов.
Сегодня у LLM есть проблема:
чтобы обучить модель под новую задачу или добавить знания, обычно требуется:
- дорогое и длительное дообучение
- context distillation
- или длинные, затратные по памяти промпты
Sakana AI предложили другой подход.
Они обучили гиперсеть (Hypernetwork), которая генерирует LoRA-адаптеры «на лету».
Теперь вместо сложного процесса оптимизации достаточно одного forward-pass, чтобы:
- адаптировать модель под новую задачу
- или «встроить» в неё новый документ
Что показывают эксперименты:
Text-to-LoRA
- модель специализируется под новую задачу
- достаточно текстового описания на естественном языке
Doc-to-LoRA
- модель может «внутренне запомнить» длинный документ
- показывает почти идеальную точность на задачах, где текст в 5 раз длиннее контекстного окна
- способна переносить визуальные знания из vision-language модели в текстовую LLM
При этом обе технологии работают с задержкой меньше секунды.
Главное значение работы — снижение порога кастомизации.
Вместо сложного ML-процесса пользователь сможет специализировать модель простым текстовым запросом.
Код и исследования уже открыты для сообщества:
Doc-to-LoRA
Paper: https://arxiv.org/abs/2602.15902
Code: https://github.com/SakanaAI/Doc-to-LoRA
Text-to-LoRA
Paper: https://arxiv.org/abs/2506.06105
Code: https://github.com/SakanaAI/Text-to-LoRA
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥5🥰5
📌 Tencent выпустил новую open-source модель WeDLM-8B-Instruct :
WeDLM-8B-Instruct: модель на ~8 млрд параметров, настроенная для диалогов и выполнения команд. Работает быстрее многих авто-регрессионных моделей и хорошо подходит для практических задач.
🚀 Плюсы
- параллельная генерация — меньше задержек
- поддержка KV-кэша и современных оптимизаций
- в ряде задач быстрее аналогов (до 3–6× на бенчмарках)
📊 Производительность
Модель показывает уверенные результаты на бенчмарках по логике, коду и знаниям, опережая базовые версии в своём классе.
📌 Характеристики
- 8B параметров
- контекст до 32 768 токенов
- лицензия Apache-2.0
🔧 Как начать
Можно запускать через собственный движок WeDLM или через стандартный Transformers API.
👉 Подходит тем, кто хочет быстро и локально развернуть мощную LLM.
Ссылка: https://huggingface.co/tencent/WeDLM-8B-Instruct
WeDLM-8B-Instruct: модель на ~8 млрд параметров, настроенная для диалогов и выполнения команд. Работает быстрее многих авто-регрессионных моделей и хорошо подходит для практических задач.
🚀 Плюсы
- параллельная генерация — меньше задержек
- поддержка KV-кэша и современных оптимизаций
- в ряде задач быстрее аналогов (до 3–6× на бенчмарках)
📊 Производительность
Модель показывает уверенные результаты на бенчмарках по логике, коду и знаниям, опережая базовые версии в своём классе.
📌 Характеристики
- 8B параметров
- контекст до 32 768 токенов
- лицензия Apache-2.0
🔧 Как начать
Можно запускать через собственный движок WeDLM или через стандартный Transformers API.
👉 Подходит тем, кто хочет быстро и локально развернуть мощную LLM.
Ссылка: https://huggingface.co/tencent/WeDLM-8B-Instruct
👍9
ByteDance выпустила новую open-source модель для генерации изображений.
По первым отзывам, она показывает результаты лучше, чем Qwen-Image и Z-Image.
Главная особенность — модель работает в autoregressive-режиме.
Это означает, что изображение создаётся поэтапно, как текст в LLM, а не одним «шумовым» проходом, как в диффузионных моделях.
Такой подход даёт:
- лучшее понимание сцены и объектов
- более логичную композицию
- стабильность персонажей и деталей
- более «осмысленную» генерацию
Похожий принцип уже используют современные системы вроде GPT-Image и других новых генераторов.
GitHub: https://github.com/shallowdream204/BitDance
По первым отзывам, она показывает результаты лучше, чем Qwen-Image и Z-Image.
Главная особенность — модель работает в autoregressive-режиме.
Это означает, что изображение создаётся поэтапно, как текст в LLM, а не одним «шумовым» проходом, как в диффузионных моделях.
Такой подход даёт:
- лучшее понимание сцены и объектов
- более логичную композицию
- стабильность персонажей и деталей
- более «осмысленную» генерацию
Похожий принцип уже используют современные системы вроде GPT-Image и других новых генераторов.
GitHub: https://github.com/shallowdream204/BitDance
👍9❤5
Как развернуть приватную LLM в Kubernetes
Selectel приглашает на вебинар, где покажут, весь путь до готового интерфейса, настройки мониторинга, распределенных моделей, интеграции и даже автоматизации инфраструктуры.
📅 12 марта, 12:00
📍Онлайн
👥Для DevOps и SRE-инженеров, Архитекторов и менеджеров ИТ-инфраструктуры.
👉Смотрите полную программу и регистрируйтесь: https://slc.tl/ak8d6
Чтобы не пропустить вебинар и узнавать о других событиях и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО "Селектел". erid:2W5zFGuQF4d
Selectel приглашает на вебинар, где покажут, весь путь до готового интерфейса, настройки мониторинга, распределенных моделей, интеграции и даже автоматизации инфраструктуры.
📅 12 марта, 12:00
📍Онлайн
👥Для DevOps и SRE-инженеров, Архитекторов и менеджеров ИТ-инфраструктуры.
👉Смотрите полную программу и регистрируйтесь: https://slc.tl/ak8d6
Чтобы не пропустить вебинар и узнавать о других событиях и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО "Селектел". erid:2W5zFGuQF4d
🔥4👍3
В исследовании протестировали 15 топ-моделей (GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1, Llama 4) на 200 000+ симулированных разговоров.
Результат:
- Один запрос → ~90% качества
- Многотуровый диалог → ~65%
Важно: дело не в «умности» модели. Способность решать задачи снизилась всего на ~15%.
Главная проблема — надёжность: количество ошибок и сбоев выросло на 112%.
Почему диалог ломает модели:
- Модель начинает отвечать до того, как вы дали полный контекст
- Первое неверное предположение закрепляется и тянется дальше
- Теряется часть информации из середины разговора
- Длинные ответы добавляют новые допущения → растёт вероятность ошибок
Что не помогает:
- reasoning-модели (o3, DeepSeek R1)
- больше «thinking tokens»
- температура = 0
Практический вывод:
Если нужна стабильность, давайте весь контекст, требования и ограничения одним сообщением, а не через длинную переписку.
Большинство бенчмарков тестирует single-turn в идеальных условиях.
В реальных диалогах надёжность падает у всех моделей и это критично для AI-агентов и продакшена.
https://arxiv.org/abs/2505.06120
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍8❤1
Forwarded from Machinelearning
Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами.
Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов:
Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса).
Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно. Как результат - за альтернативные, но правильные действия модель получает штраф.
Метод смешивает данные с рассуждениями и без них, а затем перевзвешивает токены: action- и grounding-токены получают больший вес в лосс-функции, чем токены рассуждений. Это позволяет сохранить способность к CoT, не жертвуя точностью клика.
KL-регуляризация ограничивает дрейф политики относительно референсной модели, что улучшает корреляцию между офлайн- и онлайн-метриками. Success-Adaptive Negative Gradient Scaling динамически снижает вес отрицательных градиентов в зависимости от доли успешных действий в группе GRPO-сэмплов. Это защищает от штрафования валидных, но не задокументированных действий.
Он содержит больше токенов на рассуждение: в среднем 210 на шаг против 85 у AGUVIS Stage 2 L3 и 0 у большинства остальных.
Внутри - существующие открытые наборы, к которым GPT-4.1 дописывал подробные ризонинг-трассы. Фильтровали в два этапа: отсев шагов с точностью воспроизведения ниже 0.3 через Qwen3-VL-8B и верификация координат через bounding-box от Qwen3-VL-32B.
Тестовая GUI-Libra-3B улучшила базовую Qwen2.5-VL-3B на +15.6% по Pass@1 на AndroidControl-v2 и с 3.5 до 25.2 на AndroidWorld.
GUI-Libra-4B/8B на AndroidWorld выбила 42.6 (это столько же, сколько GPT-4o + UGround при использовании двух отдельных VLM-модулей.
Веса всех моделей размерностью 3, 4, 7 и 8 млрд. параметров, целевой датасет и код обучения выложены в открытый доступ.
@ai_machinelearning_big_data
#AI #ML #VLM #GUILibra #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3🔥3
Модель ориентирована на небольшие устройства и edge-сценарии:
• конкурентные результаты на reasoning-бенчмарках
• подходит для агентных систем
• умеет оркестрировать инструменты
• извлекает данные
• запускает локальные workflow без облачных вычислений
Это ещё один шаг к тому, чтобы умные агенты жили прямо на устройстве - быстро, автономно и без зависимости от cloud-API.
https://www.liquid.ai/blog/lfm2-5-1-2b-thinking-on-device-reasoning-under-1gb
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
💼 Бизнес-ужин для тех, кто запускает ИИ-проекты или только планирует это сделать
На встрече команда провайдера ИТ-инфраструктуры Selectel:
• поделится трендами и вызовами в машинном обучении;
• объяснит, как инференс превращает модели в деньги;
• презентует инфраструктурные продукты для запуска ИИ-проектов.
👥Для собственников бизнеса, топ-менеджеров, технических директоров и ML-специалистов
🗓 18 марта, 19:00
📍Екатеринбург, Новосибирск, Казань
Смотрите полную программу и регистрируйтесь: https://slc.tl/2wqj0
Участие бесплатное, но нужно дождаться подтверждения вашей регистрации
Реклама. АО "Селектел". erid:2W5zFJBzqEh
На встрече команда провайдера ИТ-инфраструктуры Selectel:
• поделится трендами и вызовами в машинном обучении;
• объяснит, как инференс превращает модели в деньги;
• презентует инфраструктурные продукты для запуска ИИ-проектов.
👥Для собственников бизнеса, топ-менеджеров, технических директоров и ML-специалистов
🗓 18 марта, 19:00
📍Екатеринбург, Новосибирск, Казань
Смотрите полную программу и регистрируйтесь: https://slc.tl/2wqj0
Участие бесплатное, но нужно дождаться подтверждения вашей регистрации
Реклама. АО "Селектел". erid:2W5zFJBzqEh
❤3
⚡️ Claude Code для Уолл-стрит
Появился проект Dexter - автономный AI-финансовый аналитик, который проводит полноценное исследование компании без участия человека.
Вы задаёте вопрос, например:
*NVIDIA недооценена по DCF?*
Дальше система работает сама:
- строит план исследования
- подтягивает актуальные рыночные данные
- загружает финансовую отчётность за 5 лет
- считает ключевые метрики и мультипликаторы
- проверяет свои же расчёты на ошибки
- формирует итоговый инвестиционный вывод
И всё это — автономно.
Как это устроено:
Dexter разбивает задачу на несколько этапов:
- получает текущие цены
- анализирует исторические P/E
- сравнивает с отраслевыми значениями
- проводит оценку (включая DCF)
- проверяет согласованность данных
- собирает всё в финальный аналитический тезис
Внутри — несколько агентов:
- один планирует исследование
- второй выполняет сбор и расчёты
- третий проверяет корректность цифр
- четвёртый пишет итоговый отчёт
Система умеет:
- читать отчёты SEC (10-K, 10-Q, 8-K)
- работать с реальными финансовыми метриками
- делать полноценную DCF-оценку
По сути, это как команда аналитиков:
один ставит задачи, второй ищет данные, третий проверяет расчёты, четвёртый пишет отчёт.
Только вся команда - это AI, и запускается прямо в терминале.
https://github.com/virattt/dexter
Появился проект Dexter - автономный AI-финансовый аналитик, который проводит полноценное исследование компании без участия человека.
Вы задаёте вопрос, например:
*NVIDIA недооценена по DCF?*
Дальше система работает сама:
- строит план исследования
- подтягивает актуальные рыночные данные
- загружает финансовую отчётность за 5 лет
- считает ключевые метрики и мультипликаторы
- проверяет свои же расчёты на ошибки
- формирует итоговый инвестиционный вывод
И всё это — автономно.
Как это устроено:
Dexter разбивает задачу на несколько этапов:
- получает текущие цены
- анализирует исторические P/E
- сравнивает с отраслевыми значениями
- проводит оценку (включая DCF)
- проверяет согласованность данных
- собирает всё в финальный аналитический тезис
Внутри — несколько агентов:
- один планирует исследование
- второй выполняет сбор и расчёты
- третий проверяет корректность цифр
- четвёртый пишет итоговый отчёт
Система умеет:
- читать отчёты SEC (10-K, 10-Q, 8-K)
- работать с реальными финансовыми метриками
- делать полноценную DCF-оценку
По сути, это как команда аналитиков:
один ставит задачи, второй ищет данные, третий проверяет расчёты, четвёртый пишет отчёт.
Только вся команда - это AI, и запускается прямо в терминале.
https://github.com/virattt/dexter
🔥11❤6👍5
Google Research показали способ научить LLM рассуждать более рационально - как байесовские модели.
Идея проста: вместо того чтобы просто генерировать текст, модель обучают обновлять свои убеждения при появлении новой информации, как это делает теория вероятностей.
Проблема в том, что обычные LLM плохо работают с неопределённостью. Когда появляется новая информация, они не всегда корректно пересматривают свои выводы и часто не улучшают предсказания даже при увеличении количества данных.
Исследователи предложили метод Bayesian Teaching:
модель обучают имитировать решения оптимальной байесовской модели, которая считается математически правильным способом рассуждать о вероятностях.
Что получилось:
- LLM начинают лучше обновлять свои предположения, когда получают новую информацию.
- Навык переносится на другие задачи, даже если модель обучали на одном типе задач.
- Улучшается принятие решений в условиях неопределённости.
Например, после такого обучения модель, обученная на задаче рекомендаций авиаперелётов, смогла применять тот же принцип рассуждений к выбору отелей и даже к онлайн-шопингу, хотя эти задачи сложнее и для них трудно задать точную байесовскую модель.
Главный вывод исследования:
LLM можно учить стратегиям рассуждения, а не только фактам.
И если обучить модель копировать правильную логику (например, байесовскую), она может переносить этот способ мышления на новые задачи.
https://research.google/blog/teaching-llms-to-reason-like-bayesians/
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Идея проста: вместо того чтобы просто генерировать текст, модель обучают обновлять свои убеждения при появлении новой информации, как это делает теория вероятностей.
Проблема в том, что обычные LLM плохо работают с неопределённостью. Когда появляется новая информация, они не всегда корректно пересматривают свои выводы и часто не улучшают предсказания даже при увеличении количества данных.
Исследователи предложили метод Bayesian Teaching:
модель обучают имитировать решения оптимальной байесовской модели, которая считается математически правильным способом рассуждать о вероятностях.
Что получилось:
- LLM начинают лучше обновлять свои предположения, когда получают новую информацию.
- Навык переносится на другие задачи, даже если модель обучали на одном типе задач.
- Улучшается принятие решений в условиях неопределённости.
Например, после такого обучения модель, обученная на задаче рекомендаций авиаперелётов, смогла применять тот же принцип рассуждений к выбору отелей и даже к онлайн-шопингу, хотя эти задачи сложнее и для них трудно задать точную байесовскую модель.
Главный вывод исследования:
LLM можно учить стратегиям рассуждения, а не только фактам.
И если обучить модель копировать правильную логику (например, байесовскую), она может переносить этот способ мышления на новые задачи.
https://research.google/blog/teaching-llms-to-reason-like-bayesians/
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
❤17🏆8👍7🔥4
Ты научишься делать те, которые живут в проде.
Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:
• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов
Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.
В итоге ты сможешь:
• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных
Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.
🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🥴2🙈2❤1🥰1😁1
Модель с триллионом параметров буквально «удалила половину своего мозга» и стала умнее.
Yuan3.0 Ultra**-— новая open-source мультимодальная **MoE-модель от Yuan Lab.
Всего 1010 млрд параметров, но при инференсе активны только 68.8 млрд.
На бенчмарках RAG она обошла GPT-5.2, Gemini 3.1 Pro и Claude Opus 4.6 с заметным отрывом.
Например:
- 67.4% на Docmatix против 56.8% у GPT-4o
Что умеет модель:
- Enterprise RAG - 68.2% средней точности на 10 задачах поиска
- Анализ сложных таблиц - 62.3% на бенчмарке MMTab
- Text-to-SQL - 83.9% на Spider 1.0
- Мультимодальный анализ документов с контекстом 64K
Ключевая инновация — Layer-Adaptive Expert Pruning (LAEP).
Во время предобучения у MoE возникает сильный дисбаланс:
некоторые эксперты получают в 500 раз больше токенов, чем другие.
LAEP постепенно удаляет малоиспользуемых экспертов слой за слоем,
что позволяет:
- сократить 33% параметров
- увеличить эффективность обучения на 49%
Также исследователи улучшили метод “fast-thinking” RL.
Теперь система больше награждает ответы, которые:
- правильные
- используют меньше шагов рассуждения
Это позволило:
- уменьшить количество выходных токенов на 14.38%
- повысить точность на 16.33%
Главный сигнал из этого исследования:
MoE-модели начинают сжимать себя прямо во время обучения, а не после.
Если pruning станет частью pretraining, стоимость обучения триллионных моделей может резко снизиться.
https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra
Yuan3.0 Ultra**-— новая open-source мультимодальная **MoE-модель от Yuan Lab.
Всего 1010 млрд параметров, но при инференсе активны только 68.8 млрд.
На бенчмарках RAG она обошла GPT-5.2, Gemini 3.1 Pro и Claude Opus 4.6 с заметным отрывом.
Например:
- 67.4% на Docmatix против 56.8% у GPT-4o
Что умеет модель:
- Enterprise RAG - 68.2% средней точности на 10 задачах поиска
- Анализ сложных таблиц - 62.3% на бенчмарке MMTab
- Text-to-SQL - 83.9% на Spider 1.0
- Мультимодальный анализ документов с контекстом 64K
Ключевая инновация — Layer-Adaptive Expert Pruning (LAEP).
Во время предобучения у MoE возникает сильный дисбаланс:
некоторые эксперты получают в 500 раз больше токенов, чем другие.
LAEP постепенно удаляет малоиспользуемых экспертов слой за слоем,
что позволяет:
- сократить 33% параметров
- увеличить эффективность обучения на 49%
Также исследователи улучшили метод “fast-thinking” RL.
Теперь система больше награждает ответы, которые:
- правильные
- используют меньше шагов рассуждения
Это позволило:
- уменьшить количество выходных токенов на 14.38%
- повысить точность на 16.33%
Главный сигнал из этого исследования:
MoE-модели начинают сжимать себя прямо во время обучения, а не после.
Если pruning станет частью pretraining, стоимость обучения триллионных моделей может резко снизиться.
https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra
❤17🔥7👍5