Всех папищеков канала с наступающим 2025 годом🎄 . Хочу пожелать, чтобы вы под елочкой нашли самые заветные подарки и провели год в достижении желаемых целей. Пусть модели сходятся, ресурсы и хирш будут большими, а лоссы – маленькими🥳
Подводя некоторые итоги года в этом канале: я радуюсь, что мне не надо постить на сколько вырос канал в этом году и могу выложить сюда по настроению что угодно, потому что научилась вести канал просто для души и от души)). Но главный итог, про который я узнала – это то, что мой вайб разделяют все больше людей💅
Поэтому закидываю вам разделить со мной классную нг серию mj генераций и идти готовиться отмечать праздник🥳
Подводя некоторые итоги года в этом канале: я радуюсь, что мне не надо постить на сколько вырос канал в этом году и могу выложить сюда по настроению что угодно, потому что научилась вести канал просто для души и от души)). Но главный итог, про который я узнала – это то, что мой вайб разделяют все больше людей
Поэтому закидываю вам разделить со мной классную нг серию mj генераций и идти готовиться отмечать праздник
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤19🔥14💅7
Буквально пару месяцев назад у меня были рассуждения на счет того, почему на encoder-only не применяют современные техники обучения llm-ок, и вот это свершилось!!
ModernBert:
- у него есть RoPE эмбеды, благодаря которой можно заливать в него контекст 8192
- flash attention 2
- пролили через него 2 триллиона токенов
Надеюсь, что на этом не остановятся и попробуют проучить на большем количестве токенов, подобно тенденции в скейлинге llm
🤗Их блогпост
ModernBert:
- у него есть RoPE эмбеды, благодаря которой можно заливать в него контекст 8192
- flash attention 2
- пролили через него 2 триллиона токенов
Надеюсь, что на этом не остановятся и попробуют проучить на большем количестве токенов, подобно тенденции в скейлинге llm
🤗Их блогпост
👍22❤5🔥4
Forwarded from ml4se
Mechanistic Interpretability
I have prepared a list of papers on Mechanistical Interpretability. If you have good links on this topic, please share them in the comments.
* 2021: A Mathematical Framework for Transformer Circuits
* 2022.06.27: Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases
* 2022.09.14: Toy Models of Superposition
* 2022.09.24: In-context Learning and Induction Heads
* 2023.04.28: Towards Automated Circuit Discovery for Mechanistic Interpretability
* 2023.01.12: Progress measures for grokking via mechanistic interpretability
* 2023.05.24: Interpretability Dreams
* 2023.09: Sparse Autoencoders Find Highly Interpretable Model Directions
* 2023.10.25: Attention Lens: A Tool for Mechanistically Interpreting the Attention Head Information Retrieval Mechanism
* 2024.01.15: Sparse Autoencoders Work on Attention Layer Outputs
...
I have prepared a list of papers on Mechanistical Interpretability. If you have good links on this topic, please share them in the comments.
* 2021: A Mathematical Framework for Transformer Circuits
* 2022.06.27: Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases
* 2022.09.14: Toy Models of Superposition
* 2022.09.24: In-context Learning and Induction Heads
* 2023.04.28: Towards Automated Circuit Discovery for Mechanistic Interpretability
* 2023.01.12: Progress measures for grokking via mechanistic interpretability
* 2023.05.24: Interpretability Dreams
* 2023.09: Sparse Autoencoders Find Highly Interpretable Model Directions
* 2023.10.25: Attention Lens: A Tool for Mechanistically Interpreting the Attention Head Information Retrieval Mechanism
* 2024.01.15: Sparse Autoencoders Work on Attention Layer Outputs
...
👍12🔥7❤2
Forwarded from Al Talent Hub
This media is not supported in your browser
VIEW IN TELEGRAM
Как сделать большие языковые модели по-настоящему умными?
Не упусти возможность разобрать эту тему уже завтра с Михаилом Бурцевым — ведущим исследователем в области диалоговых систем, ML и AI в Лондонском институте математических наук.
➡️ Регистрируйся на Reading Club: 29 января.
Эксперт: Михаил Бурцев
⭐️ PhD в Computer science
⭐️ Landau AI Fellow, LIMS.
⭐️ Был приглашённым исследователем в Кембридже.
⭐️ Под его руководством была разработана, отмеченная наградами, открытая платформа для создания диалоговых AI-систем DeepPavlov.
⭐️ Автор множества публикаций в ведущих научных журналах.
📄 Статья: Learning Elementary Cellular Automata with Transformers
Когда: 29 января в 18:30 [+3 МСК]
🔗 ЗАРЕГИСТРИРОВАТЬСЯ
Приходи. Будет интересно!
#ReadingClub #AITalentHub #ITMO #NapoleonIT
Не упусти возможность разобрать эту тему уже завтра с Михаилом Бурцевым — ведущим исследователем в области диалоговых систем, ML и AI в Лондонском институте математических наук.
Эксперт: Михаил Бурцев
Когда: 29 января в 18:30 [+3 МСК]
Приходи. Будет интересно!
#ReadingClub #AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥6👍2
Forwarded from Dealer.AI
От RStaR до DeepSeek и обратно. Или краткий обзор, а че это ваще было!?
Итак, deepseek наделало много шума. Но давайте бегло пройдемся в стиле "а чей-то вообще было?". Для начала, если взглянуть в архитектуру, то можно увидеть наследие llama, присыпанное МоЕ слоями. Это "чудо генной МоЕ инженерии" далее учили интересным образом. Первое это, разумеется pretrain. Однако после, мы видим, что для zero поколения не используют SFT стадию, а сразу переходят к RL.
Все знакомые задаются вопросом:
- "Почему без sft?".
При этом на просторах паутины всплывает статья. В ней описываются эксперимент, как влияет на генерализацию и др. способности после претрейна этапы sft и rl обучения моделей.
Если кратко, выводы такие, что sft работает лучше на запоминание паттернов, а rl лучше способствует ризонингу и генерализации на "новых задачах". Поясню. Т.е. sft надо включать тогда, когда хочется сделать domain adoptation и все. Ну а если вам хочется работать лучше на "неожиданных" out of fold примерах, лучше юзать rl.
Но, на взгляд Дяди, никто не запрещает микстить оба подхода. Еще замечу, что интуитивно мне понятно почему rl способствует большей "свободе" в ориентации по задачам. Сама постановка обучения с подкреплением - это работа с большей вариативностью исходов, которые обеспечивает среда, она может порождать больше примеров, чем рукописная выборка, а значит на этапе тюна мы увидим больше вариантов развития событий. Модель засчет награды научится эти варианты обрабатывать, улучшится ризонинг, планинг и тп.
Почитать выжимку также можно у коллеги тут.
Про no model rl. Еще один плюс подхода заключается в том, что в zero сетапе нет внешней модели, в качестве среды для grpo у нас выступают правила и компилятор. Тк задачи имеют точный итоговый ответ, то с ним можно сравниться по заданным критериям, а если это код использовать селф -дебаг и компилятор. Привет, к примеру RStaR. А еще это даёт возможность уйти от взлома reward модели, например, через oov примеры (модель награды не видела всех исходов).
Однако, для дальнейших стадий обучения авторы прибегнут и к внешней модели награды и к RLAIF подходу, и, конечно, будут делать sft, перемежая его с rl grpo. А все из-за "проблемы" с мультиязыком и как решить эти переходы во время рассуждений модели. В том числе, для этого, как пишут авторы, были добавлены стадии сфт и тп. Но у нас сложность интерпретации падает не только из-за мультияза, но и еще из-за LongCoT цепочек, как артефакта rl. Кстати, длинные рассуждения это артефакт взаимодействия rl обучения и thinking токенов - тут это формат, где мы указываем откуда начинать и где закончить блок рассуждений. И этот формат также проверяется в no model reward. Дядя бы и туда проверку на стабильность языка добавил, мол доля токенов целевого языка бы мерилась к нецелевой и добавлялась в награду.
Переход от zero к hero (zero deepseek r1 vs deepseek r1). Итого мы получаем, что на первом этапе модель учится в сетапе: pretrain+thinking area/tokens + rl. Так получается zero R1. После используется sft+rl+rlaif дообучение. Здесь нужно пояснение. Процесс обучения второй стадии начинается с холодного старта. DeepSeek v3 тюнят на рафинированном датасете, который просеян через Zero-R1 — отобранный high quality примеры. Так подтягивают читаемость. Далее проходит этап RL для улучшения ризонинга. Потом снова, используя модель со второго этапа и отбирают лучшие варианты из обучающей выборки (состоит в основном из рассуждений) + используют некую reward модель, о которой упоминается вскольз (но тоже на базе DeepSeek.v3), такой вот rejection sampling. Наконец, делают последний rl тюн на rule based награде и сете из разнообразных задач, тут же включают RLAIF подход для выравнивания. Такой длинный пайп, снова роднит нас, на мой взгляд с RStaR подходом обучения. Там тоже были схожие стадии просеивания и самоулучшения.
Далее 👇👇👇👇👇
Итак, deepseek наделало много шума. Но давайте бегло пройдемся в стиле "а чей-то вообще было?". Для начала, если взглянуть в архитектуру, то можно увидеть наследие llama, присыпанное МоЕ слоями. Это "чудо генной МоЕ инженерии" далее учили интересным образом. Первое это, разумеется pretrain. Однако после, мы видим, что для zero поколения не используют SFT стадию, а сразу переходят к RL.
Все знакомые задаются вопросом:
- "Почему без sft?".
При этом на просторах паутины всплывает статья. В ней описываются эксперимент, как влияет на генерализацию и др. способности после претрейна этапы sft и rl обучения моделей.
Если кратко, выводы такие, что sft работает лучше на запоминание паттернов, а rl лучше способствует ризонингу и генерализации на "новых задачах". Поясню. Т.е. sft надо включать тогда, когда хочется сделать domain adoptation и все. Ну а если вам хочется работать лучше на "неожиданных" out of fold примерах, лучше юзать rl.
Но, на взгляд Дяди, никто не запрещает микстить оба подхода. Еще замечу, что интуитивно мне понятно почему rl способствует большей "свободе" в ориентации по задачам. Сама постановка обучения с подкреплением - это работа с большей вариативностью исходов, которые обеспечивает среда, она может порождать больше примеров, чем рукописная выборка, а значит на этапе тюна мы увидим больше вариантов развития событий. Модель засчет награды научится эти варианты обрабатывать, улучшится ризонинг, планинг и тп.
Почитать выжимку также можно у коллеги тут.
Про no model rl. Еще один плюс подхода заключается в том, что в zero сетапе нет внешней модели, в качестве среды для grpo у нас выступают правила и компилятор. Тк задачи имеют точный итоговый ответ, то с ним можно сравниться по заданным критериям, а если это код использовать селф -дебаг и компилятор. Привет, к примеру RStaR. А еще это даёт возможность уйти от взлома reward модели, например, через oov примеры (модель награды не видела всех исходов).
Однако, для дальнейших стадий обучения авторы прибегнут и к внешней модели награды и к RLAIF подходу, и, конечно, будут делать sft, перемежая его с rl grpo. А все из-за "проблемы" с мультиязыком и как решить эти переходы во время рассуждений модели. В том числе, для этого, как пишут авторы, были добавлены стадии сфт и тп. Но у нас сложность интерпретации падает не только из-за мультияза, но и еще из-за LongCoT цепочек, как артефакта rl. Кстати, длинные рассуждения это артефакт взаимодействия rl обучения и thinking токенов - тут это формат, где мы указываем откуда начинать и где закончить блок рассуждений. И этот формат также проверяется в no model reward. Дядя бы и туда проверку на стабильность языка добавил, мол доля токенов целевого языка бы мерилась к нецелевой и добавлялась в награду.
Переход от zero к hero (zero deepseek r1 vs deepseek r1). Итого мы получаем, что на первом этапе модель учится в сетапе: pretrain+thinking area/tokens + rl. Так получается zero R1. После используется sft+rl+rlaif дообучение. Здесь нужно пояснение. Процесс обучения второй стадии начинается с холодного старта. DeepSeek v3 тюнят на рафинированном датасете, который просеян через Zero-R1 — отобранный high quality примеры. Так подтягивают читаемость. Далее проходит этап RL для улучшения ризонинга. Потом снова, используя модель со второго этапа и отбирают лучшие варианты из обучающей выборки (состоит в основном из рассуждений) + используют некую reward модель, о которой упоминается вскольз (но тоже на базе DeepSeek.v3), такой вот rejection sampling. Наконец, делают последний rl тюн на rule based награде и сете из разнообразных задач, тут же включают RLAIF подход для выравнивания. Такой длинный пайп, снова роднит нас, на мой взгляд с RStaR подходом обучения. Там тоже были схожие стадии просеивания и самоулучшения.
Далее 👇👇👇👇👇
arXiv.org
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation...
Supervised fine-tuning (SFT) and reinforcement learning (RL) are widely used post-training techniques for foundation models. However, their roles in enhancing model generalization capabilities...
❤14👍8🔥6 4🥴2🤮1🤡1
Что делает победа опен сурса
что дальше? Даже что-то в открытый доступ дадут, как в старые добрые??
Кажется, что пока у них не выйдет что-то, что сильнее соты в открытых моделях, OpenAI готовы будут перекрывать недостаток своего влияния открытыми технологиями снова🤔
Коммент
что дальше? Даже что-то в открытый доступ дадут, как в старые добрые??
Кажется, что пока у них не выйдет что-то, что сильнее соты в открытых моделях, OpenAI готовы будут перекрывать недостаток своего влияния открытыми технологиями снова
Коммент
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤1🔥1
Ищу Джуна MLE
😺 опыт 5 лет
😺 минимум 5 статьей на конфах A*
😺 должен знать все основы, чтобы пройти мой тех собес. Там по мелочи, от всех компонент трансформера и как масштабировать модель до новых подходов в диффузионных моделях
😺 Work life balance будет зависеть от вашей способности работать быстро и делать 3 задачи в день
😺 Платить будем вам нашими коинами компании. Зп по договоренности, конечно, но вы же должны понимать, что Джун наглеть с вилкой не должен
Please open Telegram to view this post
VIEW IN TELEGRAM
😁104🤡29🔥6💅5🤮4😢2❤1
Честно говоря, довольно достойно
🤗 DeepScaleR-1.5B-Preview
🤗Датасет
Интересно, мы сейчас проходим все-таки сигмоидальный рост или экспоненциальный
🤗Датасет
Интересно, мы сейчас проходим все-таки сигмоидальный рост или экспоненциальный
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9 2
Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!
Мы с коллегами
Наш доменный эксперт Сабина:
С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.
Что мы имеем по итогу статьи:
Как работает:
Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве
Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥30❤13 4👍1💅1
Теперь о грядущем. 16-17 мая в Питере пройдет технологическая конфа I’ML. В этом году наш отдел представит там свои наработки за год, которые на мой взгляд, могут показаться довольно интересными людям, занимающимся персонализацией на LLM или же LLM в продуктах с большой нагрузкой. Если помните мой доклад год назад, с тех пор мы прошли уникальный путь от экспериментов только текстовой модальности в инфраструктуре наших коллег ❤️ из прода персональных рекомендаций до исследования LLM в персонализации в условиях нагрузи 50 млн активных пользователей за неделю
К чему я❓ Приходите слушать о том:
💛 что заставило нас отказаться от encoder-decoder архитектуры в начале экспериментов
💛 как мы оптимизировали throughput и latency в компактных LLM
💛 наши эксперименты с токенизацией и что позволяет нам не хранить каждый id отдельным токеном
💛 уникальные хаки с семлированием под задачу
💛 и конечно же ДОФИГА экспериментов с данными, аугментациями и оптимальными таргетами
Ответим на все вопросы и поболтаем детализированнее о LLM, персонализации и оптимизации в 2025💅
Также у ребят будут другие привлекательные по содержанию доклады. Вот мой топ:
👍 Как делать быстрым локальный инференс тут анонс
👍 опыт обучения MoE от коллег из GigaChat тут
👍 alignment в Точке тык
👍 discovery сценарий в Яндекс маркете от Вани Максимова анонсик
🏀 Ну и наш анонс еще раз продублирую
К чему я
Ответим на все вопросы и поболтаем детализированнее о LLM, персонализации и оптимизации в 2025
Также у ребят будут другие привлекательные по содержанию доклады. Вот мой топ:
Please open Telegram to view this post
VIEW IN TELEGRAM
IML 2025. ML-конференция: от обучения до эксплуатации моделей
IML 2025 | IT-конференция по ML | Теория + практика
Конференция по ML от обучения до эксплуатации моделей | Мониторинг качества, оркестрация, обучение и переобучение в продакшене.
❤14👍13🔥3