Love. Death. Transformers.
Кстати согласно этой кривой MJ v7 должна уметь ещё лучше фоловить промпты и управлять мелкими деталями (ну там какие пальцы согнуты, цвет ресниц и тд. Скейлинг же экспоненциальный)
Oh, sweet child
Мне безумно нравится что вчерашние веб3 каналы стали резко про ai + eacc писать
От 500к год
@
Без пеработок
@
В долине
Блин, не я не могу перестать ржать, это очень забавно
Круче только экспоненциальный рост систем
Вложи 100, получи 10 это же почти экспонента почти, да? Не логарифм же?
Мы увидим модели сильнее, но кхм, сроки до 27 года аги довольно оптимистичны. В конце концов sonnet может шитпостить в Твиттер, почти аги
Мне безумно нравится что вчерашние веб3 каналы стали резко про ai + eacc писать
От 500к год
@
Без пеработок
@
В долине
Блин, не я не могу перестать ржать, это очень забавно
Круче только экспоненциальный рост систем
Вложи 100, получи 10 это же почти экспонента почти, да? Не логарифм же?
Мы увидим модели сильнее, но кхм, сроки до 27 года аги довольно оптимистичны. В конце концов sonnet может шитпостить в Твиттер, почти аги
😁93💯18👍5💅4🤡2
#чтивонаночь
MLE-BENCH@openai
Собственно идея такая: давайте будем агентом решать kaggle соревки старые пока llm не решит)
- 75 соревнований
- 1 карта
Ллама 405б ожидаемо оказалась слегка похуже, o1 preview лучше других(хотя интересно построить compute кривые)
Ожидаемо от увелечения числа попыток качество растет log_рифмически.
папир
MLE-BENCH@openai
Собственно идея такая: давайте будем агентом решать kaggle соревки старые пока llm не решит)
- 75 соревнований
- 1 карта
Ллама 405б ожидаемо оказалась слегка похуже, o1 preview лучше других(хотя интересно построить compute кривые)
Ожидаемо от увелечения числа попыток качество растет log_рифмически.
папир
👍30👎3
Love. Death. Transformers.
#чтивонаночь по быстрому Если ресерч не избежен, ресерчить надо первым. Pixart-alpha aka dalle3 для нищих Если вы сталкивались с претреном диффузий то знаете словосочетание laion - залупа коня. Почему? Потому что это стянутые картинки и captionы со скрауленных…
#чтивонаночь собственно год назад это было инновацией(DIT, captioning, куча инструкт синты) А теперь это индустриальный стандарт разработки t2i, sd3 - такой же концептуально
Все видео модели концептуально не сильно отличаются - DIT, T5, синтетик кэпшены, куча возни с данными.
Собственно ex авторы PixArt ушли в Nvidia и сделали Sana - очень маленькую и очень бодрую(на бумаге) модель
Из интересного
- VAE теперь сжимает не х8 а х32(те нативно генерит 4к картинки)
- 1s на картинку локально на laptop GPU
- Linear DIT, по сути выкинули ATTN и махнули на 3x3 свертки
- Gemma вместо T5, что вообще очень нестандартно
рассуждать про перфоманс без собственных тестов, а главное FT я не готов, 600м dit это все еще очень мало, возможно у модели есть нюансы.
В любом случае любопытная работа, ознакомьтесь
paper
Все видео модели концептуально не сильно отличаются - DIT, T5, синтетик кэпшены, куча возни с данными.
Собственно ex авторы PixArt ушли в Nvidia и сделали Sana - очень маленькую и очень бодрую(на бумаге) модель
Из интересного
- VAE теперь сжимает не х8 а х32(те нативно генерит 4к картинки)
- 1s на картинку локально на laptop GPU
- Linear DIT, по сути выкинули ATTN и махнули на 3x3 свертки
- Gemma вместо T5, что вообще очень нестандартно
рассуждать про перфоманс без собственных тестов, а главное FT я не готов, 600м dit это все еще очень мало, возможно у модели есть нюансы.
В любом случае любопытная работа, ознакомьтесь
paper
arXiv.org
SANA: Efficient High-Resolution Image Synthesis with Linear...
We introduce Sana, a text-to-image framework that can efficiently generate images up to 4096$\times$4096 resolution. Sana can synthesize high-resolution, high-quality images with strong text-image...
👍20🔥9🤔2💩1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
В Суно присунули image2music и video2music!
Мы привыкли, что на вход текстовые промпты, ну и может быть аудио референс.
Суно решили заигрывать с мемасной аудиторией и новыми нормальными зумерами.
Типа озвучь свой мемас.
С точки зрения монетизации и стартапности - очень нарядный шаг.
Но если вы в музыку, то тут ничего нового.
Но зато у Суно будет больше денег. И лучше качество на итоге.
Какашка на торте.
Только иос-приложение.
Только в Штатах. Даже в Канаде не работает.
Твиттор Суно разрывается от возмущенных индусов.
Суно отшучиваются "усе будет скоро".
Ну и старую школу учили, что монтируем видео под музику, а не музику под видео.
Вот вам плейлист озвученых мемасов
https://suno.com/song/377d0638-ca5f-4f97-b452-7b8c9d32fe6d
@cgevent
Мы привыкли, что на вход текстовые промпты, ну и может быть аудио референс.
Суно решили заигрывать с мемасной аудиторией и новыми нормальными зумерами.
Типа озвучь свой мемас.
С точки зрения монетизации и стартапности - очень нарядный шаг.
Но если вы в музыку, то тут ничего нового.
Но зато у Суно будет больше денег. И лучше качество на итоге.
Какашка на торте.
Только иос-приложение.
Только в Штатах. Даже в Канаде не работает.
Твиттор Суно разрывается от возмущенных индусов.
Суно отшучиваются "усе будет скоро".
Ну и старую школу учили, что монтируем видео под музику, а не музику под видео.
Вот вам плейлист озвученых мемасов
https://suno.com/song/377d0638-ca5f-4f97-b452-7b8c9d32fe6d
@cgevent
1💅25😁3🥴3👍2🔥2
Forwarded from Vikhr models
GitHub
GitHub - WangRongsheng/awesome-LLM-resources: 🧑🚀 全世界最好的LLM资料总结(语音视频生成、Agent、辅助编程、数据处理、模型训练、模型推理、o1 模型、MCP、小语言模型、视觉语言模型) | Summary…
🧑🚀 全世界最好的LLM资料总结(语音视频生成、Agent、辅助编程、数据处理、模型训练、模型推理、o1 模型、MCP、小语言模型、视觉语言模型) | Summary of the world's best LLM resources. - GitHub - WangRongsheng/awesome-LLM-resources: 🧑🚀 全世界最好的LLM资料总结(语音...
🔥56💊8👍5🤮3👏2😁1
Love. Death. Transformers.
Its world model if it hype enough2 - OpenSora 1.1 - В основе модификация поверх pixart alpha или latte, я хуй знает, в код полезу позже, суть одна - 3d unet с кондишеном на т5 - СASUAL VIDEO VAE - короче это vqvae, только он сжимает не только картинку…
GitHub
Open-Sora-Plan/docs/Report-v1.3.0.md at main · PKU-YuanGroup/Open-Sora-Plan
This project aim to reproduce Sora (Open AI T2V model), we wish the open source community contribute to this project. - PKU-YuanGroup/Open-Sora-Plan
👍9🤡2
Forwarded from LakoMoor
This media is not supported in your browser
VIEW IN TELEGRAM
🍓52😁35 30 8🤡4👏2👍1🔥1🤔1💩1
Forwarded from Дратути Антон
VLM в Нейро
Сегодня у нас большое обновление в Поиске. В том числе, команда VLM тоже приняла в нём участие!
Написали с коллегами пост на хабр про то, как мы затаскивали VLM в Нейро (писал про релиз здесь). В этот раз мы немного раскрыли подробности про то, как работает Нейро, где и зачем потребовалась там мультимодальность. Припорошили немножечко теорией про VLM.
Больше ни слова в посте, приятного прочтения поста!
Сегодня у нас большое обновление в Поиске. В том числе, команда VLM тоже приняла в нём участие!
Написали с коллегами пост на хабр про то, как мы затаскивали VLM в Нейро (писал про релиз здесь). В этот раз мы немного раскрыли подробности про то, как работает Нейро, где и зачем потребовалась там мультимодальность. Припорошили немножечко теорией про VLM.
Больше ни слова в посте, приятного прочтения поста!
🔥22🤡9
Forwarded from Эта нейросеть обучалась 37 лет (Катерина Бек)
День 17. GRUNGY JOURNAL.
❤🔥48 7 7🔥5😢4🤮2😨2