Love. Death. Transformers.
22.5K subscribers
4.23K photos
498 videos
76 files
2.77K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Forwarded from commit history
🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта.

> Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях.

> Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете.

> Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов.

> RFT на этих данных, SWE-bench Verified:
Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1.
Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1.
Также сильный рост на SWE-rebench September (цифры в блог посте)

> Мы сделали много эвалов.
прогнали OpenHands с лимитом 100 и 500 шагов.
Запускаем на SWE-bench Verified и сентябрьском SWE-rebench.

> Мы отдельно проверяем тесты, которые пишет модель.
Считаем, как часто тесты корректны.
Проверяем, как часто финальный патч модели проходит ее собственные тесты.
В итоге получаем пул данных в том числе для обучения верифаеров.

Полностью Permissive License
Датасет и модели: https://huggingface.co/collections/nebius/openhands-trajectories

Подробный блогпост: https://nebius.com/blog/posts/openhands-trajectories-with-qwen3-coder-480b

Пост в x: https://x.com/ibragim_bad/status/2003423706861936856

P.S. Прошу поддержать пост в x, если у вас есть аккаунт!
🔥22🤔21👍4😍3😭1🗿1🙉1
Обновление LLM T-Pro и T-Lite

Ребята из T-Банка релизнули в опенсорс T-Pro 2.1 и T-Lite 2.1, закрыв два самых болезненных слабых места для продакшен-агентов: неточное следование сложным инструкциям (IF) и неточный tool calling. Вместо общих улучшений они точечно доучили модели на синтетике, сгенерированной их собственным пайплайном, и применили RL (GRPO) с хитрой reward-функцией, которая проверяет и формат, и смысл, чтобы избежать reward hacking. В итоге T-Pro 2.1 (32B) показывает на русском IFEval 0.8065, а на BFCL v3 (RU) по тул-коллингу — 65.96, что ставит его в топ открытых моделей для русскоязычных агентских сценариев. В обновленной версии T-Lite 2.1 (8B) стала сильнее в прикладных задачах и при этом сохранила скорость и практичность для продакшена и локального запуска.
1🔥75💊3114🥴6👍5💩5🗿5🍓2🤔1😢1🌚1
Пока вы фармили голду в WoW как нормальные люди, Дима прокачивал персонажей за деньги какому-то хоккеисту. Мы все делали одно и то же, но один из нас оказался умнее.

Сейчас у чувака:
- Overgear (маркетплейс для геймеров)
- Секретный проект на скинах CS с 5м юзеров в месяц (секретный потому что если расскажет - придут с вопросами)
- Exit с LF.Group в Xsolla

Потратил 15 лямов баксов на блогеров. 40к интеграций в год. Это как если бы вы mass-dm делали, но легально и с бюджетом.

Щас пилит Spiry - AI для коротких видосов в тикток/инсту/ютуб. На канале пишет как это всё происходит в реальном времени, без "мы сделали 10x за месяц, ушли из найма и теперь точно хаслим"

Норм посты оттуда:
- Чек-лист управления командой (https://xn--r1a.website/dimabeseda/108) - не от жпт
- Почему финмодель онлифанса (https://xn--r1a.website/dimabeseda/88) - не ваш ориентир (хотя казалось бы)
- Когда запускать продукт (https://xn--r1a.website/dimabeseda/95) - спойлер: раньше чем вы думаете

@dimabeseda
💩11725💊123👍2🔥2❤‍🔥1💅1😎1
41👍12❤‍🔥5🔥1
Департамент безопасности Бер Банка прошу обратить внимание, сотрудники "да не болото у нас".ии сливают NDA по секретным агентам
😁63😨3❤‍🔥1👍1
1🤪188🔥21😁19👍109💩7🫡2🗿2🙉2🤔1😭1
Авторы arc agi опять расскажут всем что "мы не это имели ввиду" и "ваш аги не настоящий"
1😁63🍓7💊4🤔3🔥2💩1
Love. Death. Transformers.
Photo
ищем русскоговорящих ребят из компаний: openai, deepmind, anthropic, sakana, nvidia, meta, bytedance, deepseek, qwen либо работающие сейчас либо ушедшие не более 5 лет назад с опытом работы 2+ года. ижненеры, рисерчеры, саентисты. Нужно быть готовым работать в Шоколаднице на Чертаново
😁31571🔥16💊3💩2👍1🌚1
Forwarded from whargarbl
Фури-дискорд каналы - есть острие ресёча диффузионных моделей // В.И. Ленин
90😐23😁14👏3🔥2👍1
Мне очень нравится эта картинка
🔥65🤔26😁103🥴21
Forwarded from КПД
Character.ai 🧍‍♂ (стартап небезывестного Ноама Шазира) выпустили небольшой блогпост про оптимизацию обучения LLM.

В блоге рассказывается про следующие трюки:
1️⃣ Сжатие градиентов в 6 бит при помощи техники Squinch. (квантизуют элементы группами по 8 элементов в 5 бит, 4 бита на значения, 1 знаковый, и 8-битный скейл)
2⃣️️ Z-регуляризация на логиты, применямая к логитам внимания и роутера, предтовращающая их рост.
3️⃣ Динамическая обрезка значений в ffn в QAT, предтовращающая схлопывание акитваций в ноль.
4️⃣ Эффективный аттеншен в случае древесных зависимостей. Не считаем внимание там, где его нет.
5️⃣ Для knolwedge дистилляции предпосчитывают и сохраняют логиты, но не все, а только topk, которые сэмплируют через Gumbel-Softmax.
23🔥95
55🥴12❤‍🔥52
Stepfun training recipe for deepresearch

- учат по схеме близкой к swe агентам
- используют Википедию для синтеза проверяемых ответов
- sft на длинные контексты + куча задач в стиле "вот ссылка с контекстом, вот такие Тулы"

Но весов нет.

Code
Paper
🥴21🔥4
Media is too big
VIEW IN TELEGRAM
arxiv.lol это лучшее (или хужшее) что я видел
54😁124👾15🔥6🌚5
Forwarded from Just links
IMProofBench Informal Mathematical Proof Benchmark https://improofbench.math.ethz.ch/
9🔥5❤‍🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Идея для рассказа: телеоператору робота убийцы дают задание убить другого телеоператора и по итогу он убивает сам себя.
😁156🔥10🤪3👍2💋1
This media is not supported in your browser
VIEW IN TELEGRAM
😁304👍24❤‍🔥15🔥5👏3💯3😭3💩1💋1
doom на микроволновке? а как насчет llm на z80 процессоре?

Типа прикиньте, это процессор из 1976 на котором запускается 40kb бинарник с моделью на несколько тысяч параметров, обученная отвечать только "OK, WHY, R U?, MAYBE, AM I"

А еще вся арифметика целочисленная + веса квантуются в 2бит. А еще эту модель можно запустить на железе которое на момент событий 1 сезона "Stranger Things" было устаревшим

code
😭64👍15🔥11🍓4🫡4😁3💋2💊111