Just links
6.57K subscribers
358 photos
39 videos
10 files
7.76K links
That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh
Download Telegram
Forwarded from AbstractDL
OLMo 3

Это, пожалуй, самый честный и воспроизводимый релиз года. Тут выкатили вообще всё: от исходного кода и 6T токенов (Dolma 3) до каждого промежуточного чекпоинта и точного порядка данных в батчах.

Для тех, кто занимается ресёрчем, это не просто модель, а идеальный полигон для экспериментов.

В техрепорте много «вкусного» (и спорного):

- Delta-DPO: Авторы подтвердили гипотезу, что для ризонинга важнее не качество выбранного ответа, а дельта между ним и отвергнутым. Они брали ответы от Qwen-3 32B (chosen) и сталкивали их с ответами мелкой Qwen-3 0.6B (rejected). Да, выходит off-policy, но видимо когда данных дофига, то норм. Результат: обучение на контрасте между ними работает лучше, чем классическое SFT на идеальных данных.

- OlmoRL: Они переписали инфру для RLVR, разогнав её в 4 раза. Из крутых фишек — Inflight updates (обновление весов акторов прямо во время генерации в vLLM) и Active sampling (динамический добор задач в батч, чтобы градиент не занулялся на слишком простых примерах). KL-дивергенцию из лосса просто выкинули — говорят, так стабильнее.

- Model Souping: Почти на каждом этапе (мидтрейн, лонг-контекст) авторы мерджили чекпоинты налево и направо. Выглядит так, будто основной рецепт обучения всё ещё не супер стабилен, и его приходится полировать различными костылями.

По метрикам флагманская 32B-Think получилась сильно перекошенной в математику. В ризонинге на MATH и AIME приближается к Qwen-3 32B. Но на общих знаниях (MMLU) модель немного проседает. Думаю, ценность тут не в SOTA цифрах, а в возможности увидеть весь цикл обучения изнутри.

Обучение 32B модели заняло 56 дней на кластере из 1024xH100 и обошлось примерно в $2.75M. Почти 9 дней из этого срока ушло на пост-трейнинг (SFT/DPO/RL).

Статья, GitHub
🔥11511👍1
IMProofBench Informal Mathematical Proof Benchmark https://improofbench.math.ethz.ch/
Summary of the year for the channel "Just links" from @TGStat
🎄6
Forwarded from Neural Shit
Наткнулся на интересную статью. Это буквально самый тупой (и одновременно гениальный) промпт-хак.

Исследователи из Google Research выяснили, что если нейронка тупит, не надо придумывать сложные цепочки рассуждений или молиться духам машины. Нужно просто повторить промпт два раза подряд. Буквально CTRL+C —> CTRL+V.

Почему? Почти все современные LLM читают слева направо. Токены в начале промпта "не видят" токенов в конце. А когда вы дублируете запрос, вторая копия промпта через механизм внимания может смотреть на первую копию целиком. Получается, что модель сразу видит весь контекст и лучше понимает задачу.

Протестили на Gemini, GPT-4o, Claude 3 и DeepSeek. По цифрам из статьи:

— Метод победил в 47 из 70 тестов (0 поражений, остальные — ничья).
— В задачах на поиск инфы в тексте точность взлетала с убогих 21% до 97%!
— Время генерации не растет

И да, работает это только на моделях с выключенным режимом размышлений, ибо модели в reasoning режиме сами повторяют себе запрос в процессе.

Промпт-инжиниринг, который мы заслужили

тут статья
👍26🗿11😁4💩3🤯2
On neural scaling and the quanta hypothesis
https://ericjmichaud.com/quanta/
1