Just links
6.57K subscribers
358 photos
39 videos
10 files
7.76K links
That's just link aggregator of everything I consider interesting, especially DL and topological condensed matter physics. @EvgeniyZh
Download Telegram
OXtal: Generative Molecular Crystal Structure Prediction https://oxtal.github.io/
👍3
Nemotron 3 Nano

Вообще у сообщества довольно сформулированное отношение к nvidia opensource - ну по метрикам хорошо, но вообще хуйня какая то. С новым нанотрон ситуация схожая: moe 30bA3, гибрид как qwen next, kimi linear, но не с gated attn а с мамбой2, (половина слоев MoE половина мамба), по метрикам паритет с qwen 30bA3 + benchmaxing - почти все данные посвещенны максингу mmlu и агентности - отбирают science, math и прочие топики с акцентом на код.

Релиз интересен несколькимими вещами: выложили PT и aligment целиком - те в теории можно воспроизвести qwen3 уровня модель ДОМА + вся инфра для обучения.

А еще челы неплохо описали проблемы с RLем, как лечили сходимость inference-policy и настраивали генерации. В целом выглядит и ощущается как Olmo на стероидах. Жаль не выложили ранние чекпоинты, но все равно очень круто.

blog
претрейн
sft
👍51👎1😡1
Forwarded from AbstractDL
OLMo 3

Это, пожалуй, самый честный и воспроизводимый релиз года. Тут выкатили вообще всё: от исходного кода и 6T токенов (Dolma 3) до каждого промежуточного чекпоинта и точного порядка данных в батчах.

Для тех, кто занимается ресёрчем, это не просто модель, а идеальный полигон для экспериментов.

В техрепорте много «вкусного» (и спорного):

- Delta-DPO: Авторы подтвердили гипотезу, что для ризонинга важнее не качество выбранного ответа, а дельта между ним и отвергнутым. Они брали ответы от Qwen-3 32B (chosen) и сталкивали их с ответами мелкой Qwen-3 0.6B (rejected). Да, выходит off-policy, но видимо когда данных дофига, то норм. Результат: обучение на контрасте между ними работает лучше, чем классическое SFT на идеальных данных.

- OlmoRL: Они переписали инфру для RLVR, разогнав её в 4 раза. Из крутых фишек — Inflight updates (обновление весов акторов прямо во время генерации в vLLM) и Active sampling (динамический добор задач в батч, чтобы градиент не занулялся на слишком простых примерах). KL-дивергенцию из лосса просто выкинули — говорят, так стабильнее.

- Model Souping: Почти на каждом этапе (мидтрейн, лонг-контекст) авторы мерджили чекпоинты налево и направо. Выглядит так, будто основной рецепт обучения всё ещё не супер стабилен, и его приходится полировать различными костылями.

По метрикам флагманская 32B-Think получилась сильно перекошенной в математику. В ризонинге на MATH и AIME приближается к Qwen-3 32B. Но на общих знаниях (MMLU) модель немного проседает. Думаю, ценность тут не в SOTA цифрах, а в возможности увидеть весь цикл обучения изнутри.

Обучение 32B модели заняло 56 дней на кластере из 1024xH100 и обошлось примерно в $2.75M. Почти 9 дней из этого срока ушло на пост-трейнинг (SFT/DPO/RL).

Статья, GitHub
🔥11511👍1
IMProofBench Informal Mathematical Proof Benchmark https://improofbench.math.ethz.ch/
Summary of the year for the channel "Just links" from @TGStat
🎄6