Love. Death. Transformers.

обожаю работать с сумасшедшими, душнилами и умникаими.

обожаю ебанутых которые сидят в час ночи и хуярят генетику на торче вместо того чтобы спать.
похуй на тренды, мы ебанем форк для catboost чтобы юзать deepspeed потому что эээ НУ МОЖЕМ СЕБЕ ПОЗВОЛИТЬ ЕПТА.

🥴83❤‍🔥208🗿6🤓5🤡4💊4🥱3👍2💅21

5.94K viewsedited 22:07

Love. Death. Transformers.

Каким образом калечный dbrx выигрывает у 4t

machinelearning.apple.com/research/introducing-apple-foundation-models

❤1

5.93K views23:33

Love. Death. Transformers.

Каким образом калечный dbrx выигрывает у 4t machinelearning.apple.com/research/introducing-apple-foundation-models

Отбой, 27% это сколько apple LLM выиграла у чат гпт

😁37🍓4

5.78K views00:20

Love. Death. Transformers.

как это будет работать в проде - загадка. но лучше чем супер убогое chat gpt app точно.

0:58

Media is too big

VIEW IN TELEGRAM

😁62👍6🤡5❤4

5.77K views07:46

Love. Death. Transformers.

Forwarded from Душный NLP

Ускорить обучение LLM 70B на 25%? Легко! YaFSDP

Сегодня мы выĸладываем в опенсорс наш новый инструмент — библиотеку YaFSDP. Она значительно ускоряет обучение больших языковых моделей — как собственной разработки, так и сторонних, с открытым исходным кодом.

Библиотека даёт ускорение до 25% — результат зависит от архитектуры и параметров нейросети. С помощью YaFSDP также можно расходовать до 20% меньше ресурсов графических процессоров (GPU), которые требуются для обучения.

Несколько подходов нашего метода:

— выделить два буфера под все собираемые веса, чтобы не отдавать их на отĸуп аллоĸатору памяти torch. Каждый нечётный слой будет использовать первый буфер, ĸаждый чётный — второй. Это уменьшит нагрузку на память и сделает её использование более предсказуемым;
— не делать чеĸпоинт аĸтиваций для ĸаĸ можно большего числа слоёв. Это позволит убрать избыточные вычисления за счёт сэкономленной памяти;
— выделить два стрима: вычислений и ĸоммуниĸаций, а синхронизацию построить таким образом, чтобы forward не начинался до завершения all_gather того же слоя, а all_gather не начинался до освобождения соответствующего буффера на предыдущем слое;
— разово собирать RMSNorm/LayerNorm в начале итерации и тольĸо в ĸонце усреднить градиенты;
— вынести predivide в самый ĸонец backward, таĸ ĸаĸ при reduce_scatter в bf16 или fp32 рисĸа переполнения нет.

Более подробно про проблемы обучения на множестве GPU можно почитать на Хабре. Приходите в репозиторий библиотеки YaFSDP, ставьте лайк и приносите вопросы в Issues. А ещё — делитесь своими впечатлениями здесь в комментариях.

🔥52👍3❤1

5.58K views09:01

Love. Death. Transformers.

Душный NLP

Ускорить обучение LLM 70B на 25%? Легко! YaFSDP Сегодня мы выĸладываем в опенсорс наш новый инструмент — библиотеку YaFSDP. Она значительно ускоряет обучение больших языковых моделей — как собственной разработки, так и сторонних, с открытым исходным кодом.…

Я лично жду релиза нормальной опенсурс LLM на русском, кому и зачем нужен opensource форк fsdp который эм ну....

Лучше конечно, но средний опенсурс как на LLM foundary так и будет сидеть, резона впиливать форк с непонятной поддержкой относительно основной репы сомнительно.

А как pr для основного fsdp было б хорошо, жаль это мои фантазии

❤‍🔥17❤1🌭1

5.68K viewsedited 09:10

Love. Death. Transformers.

чет много мемов накопилось

❤26

5.9K viewsedited 09:42

Love. Death. Transformers.

Восхитительно, на дворе нейросети, а у людей string match в поиске

говорят тут можно поправить

https://yandex.ru/jobs/vacancies/ml-разработчик-в-команду-объектного-поиска-13290
https://yandex.ru/jobs/vacancies/ios-разработчик-в-международный-проект-плюс-фантеха-20290

😁137🤡9👍6💯3👎2❤1

6.58K views11:59

Love. Death. Transformers.

Релиз sd3 - medium

- Трансформеро_образные теперь вместо UNET
- T5xxl+2 clip для текстовых энкодера
- 2B модель в релизе
- Лицензия по которой бесплатна для некомерческого использования и платная для комерческого

модель вышла в релиз в 15.00 СET, время до первой лоры с порнухой:
model

🔥30😁3

6.07K viewsedited 15:34

Love. Death. Transformers.

Forwarded from Агенты ИИ | AGI_and_RL

Ребята из DeepMind делают нам токамак дома (ну симулятор)

Они давно уже занимаются задачей контроля токамака и даже с RLем. А сейчас вот опенсурсят такую разработка. Ну круто!

TORAX is a differentiable tokamak core transport simulator aimed for fast and accurate forward modelling, pulse-design, trajectory optimization, and controller design workflows.
TORAX solves the coupled equations for ion heat transport, electron heat transport, particle transport, and current diffusion, incorporating modular physics-based and ML models.

Кстати код с экспериментами сейчас вполне запускается и что-то считает (на скрине). Достаточно сделать все по инструкции в ридми

TORAX: A Fast and Differentiable Tokamak Transport Simulator in JAX
https://arxiv.org/abs/2406.06718

дока (пока маленькая): https://torax.readthedocs.io/en/latest/index.html

код: https://github.com/google-deepmind/torax

Увидел в https://xn--r1a.website/j_links

👀

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥16❤1🍌1

6.13K views20:38

Love. Death. Transformers.

#чтивонаночь В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался))) Mamba: Linear-Time Sequence Modeling with Selective State Spaces. Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими…

#чтивонаночь

An Empirical Study of Mamba-based Language Models

- 3Т токенов для 8B трансфоремера и Mamba
- Mamba слегка лучше чем трансформер

paper

👍14

6.58K viewsedited 07:31

Love. Death. Transformers.

Релиз sd3 - medium - Трансформеро_образные теперь вместо UNET - T5xxl+2 clip для текстовых энкодера - 2B модель в релизе - Лицензия по которой бесплатна для некомерческого использования и платная для комерческого модель вышла в релиз в 15.00 СET, время…

Aligment эм ну спецефичный и не склонный генерить голых людей у SD3.

👍40😁247👎1

7.79K viewsedited 07:46

Love. Death. Transformers.

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Погенерил на lumalabs.ai видосов, промпты:
1. A panda doing parkour, jumping from a building to another building, doing somersault in the air
2. Will smith eating pasta
3. Hatsune Miku dances on the concert stage in the middle of the camera, and holds a microphone in her hands, high quality masterpiece dance animation, anime video, MMD, Miku Miku Dance, from NicoNicoDouga

А сравнить можно с генерациями Артема на Kling https://xn--r1a.website/ai_newz/2815

Мое мнение: все дружно завели DIT на каких то датасетах, дальше 32*5 фреймов никто не генерит потому что: долго и дорого. Можно ли продолжая сгенерить минутное видео? да можно. Зачем? вопрос открытый

12❤433💊2😁1🥴1

8.27K views07:51

Love. Death. Transformers.

РЕЛИЗ

32к версия Вихря 5.2

ccылка

И теперь у нас есть сообщество @vikhrmodels

👍22🔥8

7.48K viewsedited 11:02

Love. Death. Transformers.

Forwarded from Advanced Tech Lab Meta Wisdom

😁69😢8💅8💊4👏3❤2🥴2

6.88K views16:38

About

Blog

Apps

Platform