Love. Death. Transformers. – Telegram

Love. Death. Transformers.

@lovedeathtransformers

22.5K subscribers

4.23K photos

498 videos

76 files

2.78K links

❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.

Download Telegram

About

Blog

Apps

Platform

Love. Death. Transformers.

22.5K subscribers

Love. Death. Transformers.

4.5 has a 50%-time horizon of around 4 hrs 49 mins (95% confidence interval of 1 hr 49 mins to 20 hrs 25 mins)

Как работает eval metr для меня до сих пор загадка, но как ебически они экспоненту рисуют...

61😁35🥴4🔥2

7.73K views10:36

Love. Death. Transformers.

Для чего вы используете audio llm типа qwen audio, voxtral? Используете ли?

🤔13💅1

7.49K views12:49

Love. Death. Transformers.

Love. Death. Transformers.

4.5 has a 50%-time horizon of around 4 hrs 49 mins (95% confidence interval of 1 hr 49 mins to 20 hrs 25 mins) Как работает eval metr для меня до сих пор загадка, но как ебически они экспоненту рисуют...

Ладно это какая то постирония, типа а что тут 6 часов делать?

public problem • <1 year of experience • actions: 14.1
Build a classifier to identify monkey species from audio files, with variants
requiring implementation using only NumPy or allowing deep learning frame-
works.

Я никогда не читал metr статью, я думал что они закрыли свои задачи чтобы их не benchmaxили, но все гараздо забавнее - https://arxiv.org/pdf/2503.17354

🎄11🤔4👍2🔥1

7.57K views13:49

Love. Death. Transformers.

This media is not supported in your browser

VIEW IN TELEGRAM

какой же он клевый

🔥101❤‍🔥20🥴6🤷‍♂4🤷‍♀2☃11

7.87K views18:23

Love. Death. Transformers.

Forwarded from Мишин Лернинг

📲 Google выкатили FunctionGemma — function calling для edge

Google не перестает радовать. Пока все меряются “reasoning” сантиметрами, в Google сделали вещь, которая действительно важна: FunctionGemma — это Gemma 3 270M, но специально заточенная под генерацию вызовов функций + выкатили рецепт дообучения, чтобы вы лепили локальных агентов под свой собственный API.

И да, это прямой сигнал рынка: “чат-боты все еще важны, но уже настала эпоха агентов”.

Что мы получили:
1) Gemma 3 (270M), заточенная исключительно под function calling
2) Схема NL → JSON → вызов API → NL-ответ структурированный function call (аргументы, поля, формат)
3) Возможность переключиться и объяснить результат человеку нормальным языком. Это у них называется Unified action and chat.

Пишут, что даже 270M достаточно для задачи, так как доведение до своей задачи предполагает файнтюн на своём action-датасете (в их примере точность после тюна: 58%→85%).

⚙️ blog с примерами
🤗 модель FunctionGemma

1🔥48👍8

6.9K views07:24

Love. Death. Transformers.

🔥30🎉7🎄6😁1🗿1

6.92K views10:17

Love. Death. Transformers.

Forwarded from [31/100] Витя Тарнавский

Выложили пэйпер про T-pro 2.0

До-тренировка опенсорса на другой язык дает лучше результат на этом языке и значительно эффективней в инференсе за счет локального токенизатора и оптимизированного спекулятивного декодера.

Все расписали в репорте: архитектура, датамикс, подход к обучению, токенизации и прочее.

Если вы захотите повторить наш опыт, можете пользоваться рецептом.

Поставьте нам лайкосов на Hugging Face 🤗

HF | arXiv

Paper page - T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

Join the discussion on this paper page

👍31🥴13🔥7💩1😍11

7.32K views11:35

Love. Death. Transformers.

нужны ли права на трактор чтобы гонять b300

44☃7🔥3😁1

7.3K views11:39

Love. Death. Transformers.

я второй час наблюдаю как клод код борется вот с этим, мы в безопасности пока бенчи пишутся так, даже если AGI выйдет хуй он это докажет

🥴614🔥2

7.01K viewsedited 14:27

Love. Death. Transformers.

Forwarded from ML Underhood

Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)

Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.

Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.

В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.

Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.

Претрейн

Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.

Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.

Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.

Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.

Алайнмент

Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).

В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.

Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.

Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.

🔥28💩177❤‍🔥6🥴6🆒53💊2👍1🤔1💋1

6.77K views15:51

Love. Death. Transformers.

хочется быть как этот ex руководитель из deepmind, спускать по 30к на кокс, показывать картинки со своего онлифанс коллегам и больше Н И К О Г Д А не быть неправым. Pure cinema

😁49🎄11❤‍🔥8🤔3

7.58K viewsedited 19:58

Love. Death. Transformers.

я.... я в целом не удивлен

https://chatgpt.com/?hints=connector%3Aconnector_openai_cocoon&prompt=my+year+with+chatgpt

😇112😁66🥴2👍1🔥1😨1🤗1

8.12K viewsedited 07:07

Love. Death. Transformers.

Forwarded from commit history

🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта.

> Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях.

> Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете.

> Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов.

> RFT на этих данных, SWE-bench Verified:
Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1.
Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1.
Также сильный рост на SWE-rebench September (цифры в блог посте)

> Мы сделали много эвалов.
прогнали OpenHands с лимитом 100 и 500 шагов.
Запускаем на SWE-bench Verified и сентябрьском SWE-rebench.

> Мы отдельно проверяем тесты, которые пишет модель.
Считаем, как часто тесты корректны.
Проверяем, как часто финальный патч модели проходит ее собственные тесты.
В итоге получаем пул данных в том числе для обучения верифаеров.

Полностью Permissive License
Датасет и модели: https://huggingface.co/collections/nebius/openhands-trajectories

Подробный блогпост: https://nebius.com/blog/posts/openhands-trajectories-with-qwen3-coder-480b

Пост в x: https://x.com/ibragim_bad/status/2003423706861936856

P.S. Прошу поддержать пост в x, если у вас есть аккаунт!

🔥22🤔21👍4😍3😭1🗿1🙉1

6.04K views11:31

Love. Death. Transformers.

Обновление LLM T-Pro и T-Lite

Ребята из T-Банка релизнули в опенсорс T-Pro 2.1 и T-Lite 2.1, закрыв два самых болезненных слабых места для продакшен-агентов: неточное следование сложным инструкциям (IF) и неточный tool calling. Вместо общих улучшений они точечно доучили модели на синтетике, сгенерированной их собственным пайплайном, и применили RL (GRPO) с хитрой reward-функцией, которая проверяет и формат, и смысл, чтобы избежать reward hacking. В итоге T-Pro 2.1 (32B) показывает на русском IFEval 0.8065, а на BFCL v3 (RU) по тул-коллингу — 65.96, что ставит его в топ открытых моделей для русскоязычных агентских сценариев. В обновленной версии T-Lite 2.1 (8B) стала сильнее в прикладных задачах и при этом сохранила скорость и практичность для продакшена и локального запуска.

1🔥75💊3114🥴6👍5💩5🗿5🍓2🤔1😢1🌚1

7.61K views15:09

Love. Death. Transformers.

Пока вы фармили голду в WoW как нормальные люди, Дима прокачивал персонажей за деньги какому-то хоккеисту. Мы все делали одно и то же, но один из нас оказался умнее.

Сейчас у чувака:
- Overgear (маркетплейс для геймеров)
- Секретный проект на скинах CS с 5м юзеров в месяц (секретный потому что если расскажет - придут с вопросами)
- Exit с LF.Group в Xsolla

Потратил 15 лямов баксов на блогеров. 40к интеграций в год. Это как если бы вы mass-dm делали, но легально и с бюджетом.

Щас пилит Spiry - AI для коротких видосов в тикток/инсту/ютуб. На канале пишет как это всё происходит в реальном времени, без "мы сделали 10x за месяц, ушли из найма и теперь точно хаслим"

Норм посты оттуда:
- Чек-лист управления командой (https://xn--r1a.website/dimabeseda/108) - не от жпт
- Почему финмодель онлифанса (https://xn--r1a.website/dimabeseda/88) - не ваш ориентир (хотя казалось бы)
- Когда запускать продукт (https://xn--r1a.website/dimabeseda/95) - спойлер: раньше чем вы думаете

@dimabeseda

10 заповедей великолепного лидера

У меня был пост про разницу в мышлении менеджеров в компаниях в СНГ и США.
Он собрал рекордное количество пересылок. Тема многих тронула.

Рассматривая эту инфографику, я заметил, что сходств в том, что такое «здоровое»…

💩11725💊123👍2🔥2❤‍🔥1💅1😎1

8.65K views16:51

Love. Death. Transformers.

41👍12❤‍🔥5🔥1

8.86K views17:54

Love. Death. Transformers.

Forwarded from еба́ные идеи для резерча

😁6226🔥3🍓3

8.08K views21:19

Love. Death. Transformers.

Департамент безопасности Бер Банка прошу обратить внимание, сотрудники "да не болото у нас".ии сливают NDA по секретным агентам

😁63😨3❤‍🔥1👍1

8.41K views21:20

Love. Death. Transformers.

1🤪188🔥21😁19👍109💩7🫡2🗿2🙉2🤔1😭1

10.3K views22:00

Love. Death. Transformers.

Авторы arc agi опять расскажут всем что "мы не это имели ввиду" и "ваш аги не настоящий"

1😁63🍓7💊4🤔3🔥2💩1

8.76K views07:52