Towards a Science of Scaling Agent Systems
Если вы хоть раз писали агента то сталкивались с классическими архитектурными приколами - а как вообще правильно вызывать субагентов? что лучше - все разом или с оркестратором? Нужен ли majority voting? Обычно решается классическим "ну э, мы делаем так потому что в "компания" так", потом пишет на свой фреймворк/пишут на ленгчейне, кончается одиноково - хорошей мужской оргией и вопросом "кто это понаписал блять? а, он уволился? пиздец."
а и decentrilized архитектура агента лучше соседей
paper
Если вы хоть раз писали агента то сталкивались с классическими архитектурными приколами - а как вообще правильно вызывать субагентов? что лучше - все разом или с оркестратором? Нужен ли majority voting? Обычно решается классическим "ну э, мы делаем так потому что в "компания" так", потом пишет на свой фреймворк/пишут на ленгчейне, кончается одиноково - хорошей мужской оргией и вопросом "кто это понаписал блять? а, он уволился? пиздец."
а и decentrilized архитектура агента лучше соседей
paper
1 38🔥7🆒6😁2🎄2👍1🤔1💩1💋1
Forwarded from Just links
Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs https://arxiv.org/abs/2512.09742
arXiv.org
Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs
LLMs are useful because they generalize so well. But can you have too much of a good thing? We show that a small amount of finetuning in narrow contexts can dramatically shift behavior outside...
Чо, пьёте пиво по пятницам? 🍺
А пока вы пьёте — агенты не пьют. Агенты устраивают диверсии на ваш прод, слушаются prompt-инъекций и сливают данные в даркнет.
чуваки из White Circle — единственный в мире прибыльный стартап про AI safety — ищут тех, кто хочет это чинить.
Важно: работать надо много. Зато платят 130–250k USD.
Вакансии:
1. FullStack Engineer
TypeScript, React, Next.js, Node.js, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio/images), Megatron, distributed training, Triton
3. AI Engineer
Inference, trt, vllm, sglang, делать инференс имени быстрого гонзалеса
-----
📨 CV сюда → https://jobs.ashbyhq.com/whitecircle/a030c9a9-dc20-490c-9c51-03e87210f904>
А пока вы пьёте — агенты не пьют. Агенты устраивают диверсии на ваш прод, слушаются prompt-инъекций и сливают данные в даркнет.
чуваки из White Circle — единственный в мире прибыльный стартап про AI safety — ищут тех, кто хочет это чинить.
Важно: работать надо много. Зато платят 130–250k USD.
Вакансии:
1. FullStack Engineer
TypeScript, React, Next.js, Node.js, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio/images), Megatron, distributed training, Triton
3. AI Engineer
Inference, trt, vllm, sglang, делать инференс имени быстрого гонзалеса
-----
📨 CV сюда → https://jobs.ashbyhq.com/whitecircle/a030c9a9-dc20-490c-9c51-03e87210f904>
Ashbyhq
AI Engineer
AI Engineer • White Circle
😁75💊32😍7 7💩6❤🔥2🔥2🙉2💋1😨1💅1
Представьте: реалити-шоу, где 20 админов АИ тг каналов должны выяснить кто из них не шарит и изгнать его. Но на самом деле они все не шарят, и каждый думает что он один такой.
5😁286🐳24😭12💯9 6 6🔥5👍3🥴1🗿1
Для чего вы используете audio llm типа qwen audio, voxtral? Используете ли?
🤔13💅1
Love. Death. Transformers.
4.5 has a 50%-time horizon of around 4 hrs 49 mins (95% confidence interval of 1 hr 49 mins to 20 hrs 25 mins) Как работает eval metr для меня до сих пор загадка, но как ебически они экспоненту рисуют...
Ладно это какая то постирония, типа а что тут 6 часов делать?
Я никогда не читал metr статью, я думал что они закрыли свои задачи чтобы их не benchmaxили, но все гараздо забавнее - https://arxiv.org/pdf/2503.17354
public problem • <1 year of experience • actions: 14.1
Build a classifier to identify monkey species from audio files, with variants
requiring implementation using only NumPy or allowing deep learning frame-
works.
Я никогда не читал metr статью, я думал что они закрыли свои задачи чтобы их не benchmaxили, но все гараздо забавнее - https://arxiv.org/pdf/2503.17354
🎄11🤔4👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
какой же он клевый
🔥103❤🔥22🥴6🤷♂4🤷♀2 2☃1
Forwarded from Мишин Лернинг
📲 Google выкатили FunctionGemma — function calling для edge
Google не перестает радовать. Пока все меряются “reasoning” сантиметрами, в Google сделали вещь, которая действительно важна: FunctionGemma — это Gemma 3 270M, но специально заточенная под генерацию вызовов функций + выкатили рецепт дообучения, чтобы вы лепили локальных агентов под свой собственный API.
Что мы получили:
1) Gemma 3 (270M), заточенная исключительно под function calling
2) Схема NL → JSON → вызов API → NL-ответ структурированный function call (аргументы, поля, формат)
3) Возможность переключиться и объяснить результат человеку нормальным языком. Это у них называется Unified action and chat.
Пишут, что даже 270M достаточно для задачи, так как доведение до своей задачи предполагает файнтюн на своём action-датасете (в их примере точность после тюна: 58%→85%).
⚙️ blog с примерами
🤗 модель FunctionGemma
Google не перестает радовать. Пока все меряются “reasoning” сантиметрами, в Google сделали вещь, которая действительно важна: FunctionGemma — это Gemma 3 270M, но специально заточенная под генерацию вызовов функций + выкатили рецепт дообучения, чтобы вы лепили локальных агентов под свой собственный API.
И да, это прямой сигнал рынка: “чат-боты все еще важны, но уже настала эпоха агентов”.
Что мы получили:
1) Gemma 3 (270M), заточенная исключительно под function calling
2) Схема NL → JSON → вызов API → NL-ответ структурированный function call (аргументы, поля, формат)
3) Возможность переключиться и объяснить результат человеку нормальным языком. Это у них называется Unified action and chat.
Пишут, что даже 270M достаточно для задачи, так как доведение до своей задачи предполагает файнтюн на своём action-датасете (в их примере точность после тюна: 58%→85%).
⚙️ blog с примерами
🤗 модель FunctionGemma
1🔥49👍9
Forwarded from [31/100] Витя Тарнавский
Выложили пэйпер про T-pro 2.0
До-тренировка опенсорса на другой язык дает лучше результат на этом языке и значительно эффективней в инференсе за счет локального токенизатора и оптимизированного спекулятивного декодера.
Все расписали в репорте: архитектура, датамикс, подход к обучению, токенизации и прочее.
Если вы захотите повторить наш опыт, можете пользоваться рецептом.
Поставьте нам лайкосов на Hugging Face 🤗
HF | arXiv
До-тренировка опенсорса на другой язык дает лучше результат на этом языке и значительно эффективней в инференсе за счет локального токенизатора и оптимизированного спекулятивного декодера.
Все расписали в репорте: архитектура, датамикс, подход к обучению, токенизации и прочее.
Если вы захотите повторить наш опыт, можете пользоваться рецептом.
Поставьте нам лайкосов на Hugging Face 🤗
HF | arXiv
huggingface.co
Paper page - T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground
Join the discussion on this paper page
👍32🥴13🔥7💩1😍1 1
Forwarded from ML Underhood
Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
🔥28💩17 7❤🔥6🥴6🆒5 3💊2👍1🤔1💋1
хочется быть как этот ex руководитель из deepmind, спускать по 30к на кокс, показывать картинки со своего онлифанс коллегам и больше Н И К О Г Д А не быть неправым. Pure cinema
😁50🎄11❤🔥8🤔3
я.... я в целом не удивлен
https://chatgpt.com/?hints=connector%3Aconnector_openai_cocoon&prompt=my+year+with+chatgpt
https://chatgpt.com/?hints=connector%3Aconnector_openai_cocoon&prompt=my+year+with+chatgpt
😇115😁67🥴4🔥2👍1😨1🤗1