Love. Death. Transformers.
#чтивонаночь по быстрому Если ресерч не избежен, ресерчить надо первым. Pixart-alpha aka dalle3 для нищих Если вы сталкивались с претреном диффузий то знаете словосочетание laion - залупа коня. Почему? Потому что это стянутые картинки и captionы со скрауленных…
#чтивонаночь собственно год назад это было инновацией(DIT, captioning, куча инструкт синты) А теперь это индустриальный стандарт разработки t2i, sd3 - такой же концептуально
Все видео модели концептуально не сильно отличаются - DIT, T5, синтетик кэпшены, куча возни с данными.
Собственно ex авторы PixArt ушли в Nvidia и сделали Sana - очень маленькую и очень бодрую(на бумаге) модель
Из интересного
- VAE теперь сжимает не х8 а х32(те нативно генерит 4к картинки)
- 1s на картинку локально на laptop GPU
- Linear DIT, по сути выкинули ATTN и махнули на 3x3 свертки
- Gemma вместо T5, что вообще очень нестандартно
рассуждать про перфоманс без собственных тестов, а главное FT я не готов, 600м dit это все еще очень мало, возможно у модели есть нюансы.
В любом случае любопытная работа, ознакомьтесь
paper
Все видео модели концептуально не сильно отличаются - DIT, T5, синтетик кэпшены, куча возни с данными.
Собственно ex авторы PixArt ушли в Nvidia и сделали Sana - очень маленькую и очень бодрую(на бумаге) модель
Из интересного
- VAE теперь сжимает не х8 а х32(те нативно генерит 4к картинки)
- 1s на картинку локально на laptop GPU
- Linear DIT, по сути выкинули ATTN и махнули на 3x3 свертки
- Gemma вместо T5, что вообще очень нестандартно
рассуждать про перфоманс без собственных тестов, а главное FT я не готов, 600м dit это все еще очень мало, возможно у модели есть нюансы.
В любом случае любопытная работа, ознакомьтесь
paper
arXiv.org
SANA: Efficient High-Resolution Image Synthesis with Linear...
We introduce Sana, a text-to-image framework that can efficiently generate images up to 4096$\times$4096 resolution. Sana can synthesize high-resolution, high-quality images with strong text-image...
👍20🔥9🤔2💩1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
В Суно присунули image2music и video2music!
Мы привыкли, что на вход текстовые промпты, ну и может быть аудио референс.
Суно решили заигрывать с мемасной аудиторией и новыми нормальными зумерами.
Типа озвучь свой мемас.
С точки зрения монетизации и стартапности - очень нарядный шаг.
Но если вы в музыку, то тут ничего нового.
Но зато у Суно будет больше денег. И лучше качество на итоге.
Какашка на торте.
Только иос-приложение.
Только в Штатах. Даже в Канаде не работает.
Твиттор Суно разрывается от возмущенных индусов.
Суно отшучиваются "усе будет скоро".
Ну и старую школу учили, что монтируем видео под музику, а не музику под видео.
Вот вам плейлист озвученых мемасов
https://suno.com/song/377d0638-ca5f-4f97-b452-7b8c9d32fe6d
@cgevent
Мы привыкли, что на вход текстовые промпты, ну и может быть аудио референс.
Суно решили заигрывать с мемасной аудиторией и новыми нормальными зумерами.
Типа озвучь свой мемас.
С точки зрения монетизации и стартапности - очень нарядный шаг.
Но если вы в музыку, то тут ничего нового.
Но зато у Суно будет больше денег. И лучше качество на итоге.
Какашка на торте.
Только иос-приложение.
Только в Штатах. Даже в Канаде не работает.
Твиттор Суно разрывается от возмущенных индусов.
Суно отшучиваются "усе будет скоро".
Ну и старую школу учили, что монтируем видео под музику, а не музику под видео.
Вот вам плейлист озвученых мемасов
https://suno.com/song/377d0638-ca5f-4f97-b452-7b8c9d32fe6d
@cgevent
1💅25😁3🥴3👍2🔥2
Forwarded from Vikhr models
GitHub
GitHub - WangRongsheng/awesome-LLM-resources: 🧑🚀 全世界最好的LLM资料总结(语音视频生成、Agent、辅助编程、数据处理、模型训练、模型推理、o1 模型、MCP、小语言模型、视觉语言模型) | Summary…
🧑🚀 全世界最好的LLM资料总结(语音视频生成、Agent、辅助编程、数据处理、模型训练、模型推理、o1 模型、MCP、小语言模型、视觉语言模型) | Summary of the world's best LLM resources. - GitHub - WangRongsheng/awesome-LLM-resources: 🧑🚀 全世界最好的LLM资料总结(语音...
🔥56💊8👍5🤮3👏2😁1
Love. Death. Transformers.
Its world model if it hype enough2 - OpenSora 1.1 - В основе модификация поверх pixart alpha или latte, я хуй знает, в код полезу позже, суть одна - 3d unet с кондишеном на т5 - СASUAL VIDEO VAE - короче это vqvae, только он сжимает не только картинку…
GitHub
Open-Sora-Plan/docs/Report-v1.3.0.md at main · PKU-YuanGroup/Open-Sora-Plan
This project aim to reproduce Sora (Open AI T2V model), we wish the open source community contribute to this project. - PKU-YuanGroup/Open-Sora-Plan
👍9🤡2
Forwarded from LakoMoor
This media is not supported in your browser
VIEW IN TELEGRAM
🍓52😁35 30 8🤡4👏2👍1🔥1🤔1💩1
Forwarded from Дратути Антон
VLM в Нейро
Сегодня у нас большое обновление в Поиске. В том числе, команда VLM тоже приняла в нём участие!
Написали с коллегами пост на хабр про то, как мы затаскивали VLM в Нейро (писал про релиз здесь). В этот раз мы немного раскрыли подробности про то, как работает Нейро, где и зачем потребовалась там мультимодальность. Припорошили немножечко теорией про VLM.
Больше ни слова в посте, приятного прочтения поста!
Сегодня у нас большое обновление в Поиске. В том числе, команда VLM тоже приняла в нём участие!
Написали с коллегами пост на хабр про то, как мы затаскивали VLM в Нейро (писал про релиз здесь). В этот раз мы немного раскрыли подробности про то, как работает Нейро, где и зачем потребовалась там мультимодальность. Припорошили немножечко теорией про VLM.
Больше ни слова в посте, приятного прочтения поста!
🔥22🤡9
Forwarded from Эта нейросеть обучалась 37 лет (Катерина Бек)
День 17. GRUNGY JOURNAL.
❤🔥48 7 7🔥5😢4🤮2😨2
Чат, для чего используете OpenSource llm дома/в проде?
👍17🤷♂2🔥2