Итак, Ideagram 1.0
Довольно ловкий интерфейс (но я не нашел Seed!).
Есть возможность считать старыми моделями.
Минимум контроля. Есть Remix.
Он может расширять промпт (как DALL·E 3), есть также автопромпт.
В общем хорошая игрушка, кому надо быстро что-сделать с очень приличным качеством и хочется лиц и фоторила.
Но.
В версии 1.0 выпилили всех знаменитостей. Угадайте, где тут версия 1.0, а где 0.2 и 0.1.
Тренд на жоскую цензуру налицо.
Я в 0.2 нагенерил обнаженки легко, в 1.0 он одевает все, что шевелится. Еще и кота рисует, если ему показалось, что генерация получилась неприличной.
Пробуйте сами, решайте сами.
Но при попытке сделать image2image - загоняет в подписку. Нехорошо.
Довольно ловкий интерфейс (но я не нашел Seed!).
Есть возможность считать старыми моделями.
Минимум контроля. Есть Remix.
Он может расширять промпт (как DALL·E 3), есть также автопромпт.
В общем хорошая игрушка, кому надо быстро что-сделать с очень приличным качеством и хочется лиц и фоторила.
Но.
В версии 1.0 выпилили всех знаменитостей. Угадайте, где тут версия 1.0, а где 0.2 и 0.1.
Тренд на жоскую цензуру налицо.
Я в 0.2 нагенерил обнаженки легко, в 1.0 он одевает все, что шевелится. Еще и кота рисует, если ему показалось, что генерация получилась неприличной.
Пробуйте сами, решайте сами.
Но при попытке сделать image2image - загоняет в подписку. Нехорошо.
👎11👍8
Для гиков:
Господин Жанг уже наполовину залил код и веса для Layered Diffusion (слои и прозрачность в Stable Diffusion, я писал тут) и сделал поддержку для Forge.
Я в огне, а вы попробуйте установить и дайте знать в коментах. На фотачках огненно, конечно.
https://github.com/layerdiffusion/sd-forge-layerdiffusion
https://github.com/layerdiffusion/LayerDiffusion
Господин Жанг уже наполовину залил код и веса для Layered Diffusion (слои и прозрачность в Stable Diffusion, я писал тут) и сделал поддержку для Forge.
Я в огне, а вы попробуйте установить и дайте знать в коментах. На фотачках огненно, конечно.
https://github.com/layerdiffusion/sd-forge-layerdiffusion
https://github.com/layerdiffusion/LayerDiffusion
👍35🔥25
Почему роботы нас пожрут? Да потому что они гораздо лучше оценивают(прогнозируют) окружающий мир и у них нет вот этих вот когнитивных искажений.
Смотрите, берут вот такую фотку банки с бусинами и просят chatGPT через GPT-Vision, то есть через фотку оценить, сколько там бусин.
И он делает это шокирующе хорошо и близко к реальному числу.
Более того, он рассуждает по шагам, оценивая размер банки, размер бусины, а потом (о боги) размер кожаной головы и размер узорчиков на рубашке. Сравнивая все это между собой и выдавая оценку.
У роботов точно больше шансов на выживание.
Разные смешные примеры про GPT-V тут.
Смотрите, берут вот такую фотку банки с бусинами и просят chatGPT через GPT-Vision, то есть через фотку оценить, сколько там бусин.
И он делает это шокирующе хорошо и близко к реальному числу.
Более того, он рассуждает по шагам, оценивая размер банки, размер бусины, а потом (о боги) размер кожаной головы и размер узорчиков на рубашке. Сравнивая все это между собой и выдавая оценку.
У роботов точно больше шансов на выживание.
Разные смешные примеры про GPT-V тут.
👍66👎8🔥8
Помощь зала: а накидайте мне решений для как бы синхронного перевода с помощью ИИ. Идея переводить митап, например. Спикер говорит на одном языке, зритель просто слушает аудиопоток с какого-то сайта. Или с локального сервера по вайфай. Или еще как-то. Видели что-то подобное?
Я пока нашел вот такой сервис - Anytalk. Успел немного пообщаться. Так совпало(реально), что ребята из Anytalk сегодня запустились на Product Hunt.
Они сделали расширение для браузера, переводчик видео и аудио в реальном времени на разные языки. Вскоре выпускают приложение, где будут переводить ваш голос (можно будет говорить без знания языка)
Навалите им лайков и отзывов, они хорошие. И накидайте мне альтернатив.
Вот ссылка: https://www.producthunt.com/posts/anytalk-2
Я пока нашел вот такой сервис - Anytalk. Успел немного пообщаться. Так совпало(реально), что ребята из Anytalk сегодня запустились на Product Hunt.
Они сделали расширение для браузера, переводчик видео и аудио в реальном времени на разные языки. Вскоре выпускают приложение, где будут переводить ваш голос (можно будет говорить без знания языка)
Навалите им лайков и отзывов, они хорошие. И накидайте мне альтернатив.
Вот ссылка: https://www.producthunt.com/posts/anytalk-2
👍61🔥13❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Берем, кидаем в SORA промпт: ""an alien blending in naturally with new york city, paranoia thriller style, 35mm film".
А потом конвертируем в 23.97fps, чтобы он стал больше похож на 35-миллиметровый формат и стробил, как положено.
Наверняка в SORA будет контроль над частотой кадров, срабатыванием затвора, ISO и диафрагмой - это все уже цветочки по сравнению с симуляцией мира, в котором по улицам ходят зомби.
Благо мы хорошо подкормили ии со всеми этими зомбиапокалипсами. Он наверное думает, что это просто еще одна раса.
А потом конвертируем в 23.97fps, чтобы он стал больше похож на 35-миллиметровый формат и стробил, как положено.
Наверняка в SORA будет контроль над частотой кадров, срабатыванием затвора, ISO и диафрагмой - это все уже цветочки по сравнению с симуляцией мира, в котором по улицам ходят зомби.
Благо мы хорошо подкормили ии со всеми этими зомбиапокалипсами. Он наверное думает, что это просто еще одна раса.
🔥120👍18
Про платье от Адобченко, в которое можно загружать изображения мы уже слышали.
Держите новую фишку - динамический дизайн машин.
BMW бахнули i5 покрытую миллионами микрокапсул, которые могут создавать рисунок и менять дизайн тачки.
Технология этих микрокапсул похожа на электронные чернила (E-Ink), которые используются в читалках.
Ну а чтобы это было не просто представлением возможности загружать свой дизайн на поверхность машины, пиарщики добавили туда много ИИ.
"на автомобиль проецировались абстрактные дизайны, созданные искусственным интеллектом на основе более 50 000 фотографий, охватывающих 900 лет истории искусства."
Пишут, что использовался StyleGAN от Nvidia...
Интересно, это пойдет в серию или останется уделом выставок..
https://www.youtube.com/watch?v=N4WkgHoTe8o
Держите новую фишку - динамический дизайн машин.
BMW бахнули i5 покрытую миллионами микрокапсул, которые могут создавать рисунок и менять дизайн тачки.
Технология этих микрокапсул похожа на электронные чернила (E-Ink), которые используются в читалках.
Ну а чтобы это было не просто представлением возможности загружать свой дизайн на поверхность машины, пиарщики добавили туда много ИИ.
"на автомобиль проецировались абстрактные дизайны, созданные искусственным интеллектом на основе более 50 000 фотографий, охватывающих 900 лет истории искусства."
Пишут, что использовался StyleGAN от Nvidia...
Интересно, это пойдет в серию или останется уделом выставок..
https://www.youtube.com/watch?v=N4WkgHoTe8o
YouTube
Color Changing BMW i5 Flow NOSTOKANA Art Car
The BMW i5 was featured as an "Electric AI Canvas" at Art Basel in Switzerland, where it served as a dynamic display for designs created by artificial intelligence. This innovative project involved projecting AI-generated abstract liveries onto the car, based…
🔥23👍2
Я тут писал про вебкам и онлифанс с примерами. О том, что их теперь можно тиражировать в любых количествах.
В общем, процесс пошел. Причем со стороны прям больших игроков.
Плейбой решил не морочиться со съемкой кожаных моделей и всеми этими контрактами, райдерами, трехразовым питанием и "уменяжголоваболит" и поставил на обложку своего очередного номера ИИ-модель. Результат работы Диффузии, которого зовут Саманта Эверли, У этого результата есть 100 тысяч подписчеков в интернетике.
Так что пошел ИИ в хату - генерится ИИ-модель, обливается трафиком, собирает подписчиков и вот она уже на обложке плейбоя. И не надо вот этой вот противоречивой кожаной карьеры.
Ну и "дизайн" модели может быть буквально любой - не нужны больше скауты, рыскающие в поисках кожаной "новизны".
Номер Плейбоя пока мексиканский(?), но думаю остальные тоже потянутся.
Ну и кроме того, а как вы собираетесь отличать кожаных моделей от силиконовых (тут спонтанная шутка вышла) на страницах журналов? Люди уже давно провалили все тесты на распознавание разницы между ИИ-шными картинками и фото. Зачем все эти реальные фото теперь, если целевая функция - радость, а не точность воспроизведения реальности. А отличить все равно нельзя.. Получается как с искусством - "это ж подлинник, от него эманации".
Больше фоток в коментах.
В общем, процесс пошел. Причем со стороны прям больших игроков.
Плейбой решил не морочиться со съемкой кожаных моделей и всеми этими контрактами, райдерами, трехразовым питанием и "уменяжголоваболит" и поставил на обложку своего очередного номера ИИ-модель. Результат работы Диффузии, которого зовут Саманта Эверли, У этого результата есть 100 тысяч подписчеков в интернетике.
Так что пошел ИИ в хату - генерится ИИ-модель, обливается трафиком, собирает подписчиков и вот она уже на обложке плейбоя. И не надо вот этой вот противоречивой кожаной карьеры.
Ну и "дизайн" модели может быть буквально любой - не нужны больше скауты, рыскающие в поисках кожаной "новизны".
Номер Плейбоя пока мексиканский(?), но думаю остальные тоже потянутся.
Ну и кроме того, а как вы собираетесь отличать кожаных моделей от силиконовых (тут спонтанная шутка вышла) на страницах журналов? Люди уже давно провалили все тесты на распознавание разницы между ИИ-шными картинками и фото. Зачем все эти реальные фото теперь, если целевая функция - радость, а не точность воспроизведения реальности. А отличить все равно нельзя.. Получается как с искусством - "это ж подлинник, от него эманации".
Больше фоток в коментах.
🔥108👎9
ADME
20 непростительных ляпов в кино, которые вы, возможно, не заметили
Особо внимательные любители кино подмечают каждую мелочь, пока смотрят тот или иной фильм. Каждый винтик, волосок, выбившаяся прядь волос, родинка, синяк и отражение в дверной отполированной ручке — ничто не укроется от их пытливого взгляда.
Знаете, что меня бесит?
Вот запостил я видос про зомбака, так в коментах блохоловы уже бегут с духотой наперевес: люди там изменяются, правая нога с левой меняется, в отражениях все неправильно и пр..
Вы обычное кожаное кино давно смотрели также внимательно?
Есть огромные коллекции киноляпов, где вот тут был стул, а тут его уже нет, здесь есть шарфик, а тут нет, ну и такого добра там навалом.
А если я вам скажу, что ИИ просто подучился на всех этих ляпях и теперь лажает "правдоподобно"?
В общем вам шашечки или ехать?
Радость или блохи?
Вот можете поразглядывать разные киноляпы и поворчать "да что этот Тарантино он кино толком снимать не умеет, у него вон то есть нашивка на кителе, то нет в кадре. Он воще не понимает, только повторяет за другими."
https://adme.media/articles/20-neprostitelnyh-lyapov-v-kino-kotorye-vy-vozmozhno-ne-zametili-994010/
Вот запостил я видос про зомбака, так в коментах блохоловы уже бегут с духотой наперевес: люди там изменяются, правая нога с левой меняется, в отражениях все неправильно и пр..
Вы обычное кожаное кино давно смотрели также внимательно?
Есть огромные коллекции киноляпов, где вот тут был стул, а тут его уже нет, здесь есть шарфик, а тут нет, ну и такого добра там навалом.
А если я вам скажу, что ИИ просто подучился на всех этих ляпях и теперь лажает "правдоподобно"?
В общем вам шашечки или ехать?
Радость или блохи?
Вот можете поразглядывать разные киноляпы и поворчать "да что этот Тарантино он кино толком снимать не умеет, у него вон то есть нашивка на кителе, то нет в кадре. Он воще не понимает, только повторяет за другими."
https://adme.media/articles/20-neprostitelnyh-lyapov-v-kino-kotorye-vy-vozmozhno-ne-zametili-994010/
👍67👎20🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
За аниматоров мы тут выпиваем на регулярной основе.
На сей раз китайцы отличились.
Мультсериал Qianqiu Shisong, полностью сделанный ИИ. 26 серий по 7 минут.
Сделали модель, обученную с помощью обширного фонда видео- и аудиоматериалов вещателя и использовали на всех этапах производственного процесса, от концептов до создания видео и пост-продакшена.
«CMG Media GPT предоставляет производителям анимации недорогой и эффективный инструмент концептуального дизайна для дизайна персонажей и сцен».
А теперь представьте, как похорошеет детский ютюбчик при ИИ. Как расцветет и размножится..
Не чокаясь..
https://finance.yahoo.com/news/state-tv-airs-chinas-first-093000275.html
На сей раз китайцы отличились.
Мультсериал Qianqiu Shisong, полностью сделанный ИИ. 26 серий по 7 минут.
Сделали модель, обученную с помощью обширного фонда видео- и аудиоматериалов вещателя и использовали на всех этапах производственного процесса, от концептов до создания видео и пост-продакшена.
«CMG Media GPT предоставляет производителям анимации недорогой и эффективный инструмент концептуального дизайна для дизайна персонажей и сцен».
А теперь представьте, как похорошеет детский ютюбчик при ИИ. Как расцветет и размножится..
Не чокаясь..
https://finance.yahoo.com/news/state-tv-airs-chinas-first-093000275.html
👍55👎8🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Гугль обновил свой MusicFX диджейским режимом.
Генерируется музыкальный поток в реальном времени, добавляя и корректируя музыкальные промпты в прямом эфире.
Накидываете промптов (по ним генерятся аудиопотоки), а потом ползунками все это замешиваете.
Я не фанат диджейского искусства, но может фанаты заценят.
Нужен конский интернет, чтобы работало как надо.
https://aitestkitchen.withgoogle.com/tools/music-fx?isMusicFxLive=true
Генерируется музыкальный поток в реальном времени, добавляя и корректируя музыкальные промпты в прямом эфире.
Накидываете промптов (по ним генерятся аудиопотоки), а потом ползунками все это замешиваете.
Я не фанат диджейского искусства, но может фанаты заценят.
Нужен конский интернет, чтобы работало как надо.
https://aitestkitchen.withgoogle.com/tools/music-fx?isMusicFxLive=true
👍13🔥4
Forwarded from Сиолошная
Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.
На всех достаточно важных бенчмарках Opus показывают существенный прирост относительно GPT-4.
Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.
— Добавили новую модальность, модель принимает на вход картинки (а значит и видеоряд — как последовательность кадров)
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно. Для сравнения GPT-4-turbo стоит $10/$30
— Также обещают, что самая мощная модель имеет «more advanced agentic capabilities», что бы это ни значило :)
— Вдобавок, к модели подключили интерпретатор кода и возможность добавлять свои собственные инструменты
— Самый большой прирост метрик — на задачах, связанных с математикой. Даже без примеров в промпте модель показывает себя лучше, чем Gemini Ultra / GPT-4. Круто, если не переобучение, особенно в контексте того, что модели — НАПОМНЮ, ЭТО МНОГИЕ УПУСКАЮТ — будут использоваться для АВТОМАТИЗАЦИИ научных исследований.
Модели доступны по API сегодня всем, никакого листа ожидания больше нет. Для подписчиков Pro на сайте уже должна быть доступна модель Opus, а Sonet достанется бесплатным пользователям. Заходите: claude.ai
Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо😐 Почему? Потому что релиз Арракиса (кодовое название проекта в OpenAI) отложили до выпуска Дюны 2 😀
На всех достаточно важных бенчмарках Opus показывают существенный прирост относительно GPT-4.
Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.
— Добавили новую модальность, модель принимает на вход картинки (а значит и видеоряд — как последовательность кадров)
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно. Для сравнения GPT-4-turbo стоит $10/$30
— Также обещают, что самая мощная модель имеет «more advanced agentic capabilities», что бы это ни значило :)
— Вдобавок, к модели подключили интерпретатор кода и возможность добавлять свои собственные инструменты
— Самый большой прирост метрик — на задачах, связанных с математикой. Даже без примеров в промпте модель показывает себя лучше, чем Gemini Ultra / GPT-4. Круто, если не переобучение, особенно в контексте того, что модели — НАПОМНЮ, ЭТО МНОГИЕ УПУСКАЮТ — будут использоваться для АВТОМАТИЗАЦИИ научных исследований.
Модели доступны по API сегодня всем, никакого листа ожидания больше нет. Для подписчиков Pro на сайте уже должна быть доступна модель Opus, а Sonet достанется бесплатным пользователям. Заходите: claude.ai
Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍8👎1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion
Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!
Качественных Mocap 3D данных движения людей и животны очень мало. Например, их почти нет для таких видов спорта, как баскетбол или танцев, а так же для животных. Причина тому - доороговизна и недобство сбора таких данных (нужно оборудования, нацеплят трекера на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.
В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!
Сайт проекта
Статья
@ai_newz
Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!
Качественных Mocap 3D данных движения людей и животны очень мало. Например, их почти нет для таких видов спорта, как баскетбол или танцев, а так же для животных. Причина тому - доороговизна и недобство сбора таких данных (нужно оборудования, нацеплят трекера на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.
В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!
Сайт проекта
Статья
@ai_newz
👍32🔥11❤1
Снова 3Д.
Март реально не дает передохнуть. Много новостей, которые не хочется пропускать. Потерпите, навалю сегодня постов с диванными комментариями.
Начнем со Stability AI, которая снова хайпует пресс-релизами и новостями.
https://stability.ai/news/triposr-3d-generation
Они бахнули еще один продукт с непонятным позиционированием, конкурирующий со своими же разработками. В принципе, если рассматривать их как лабораторию, то это норм. Благо веса и код выкладывают регулярно. А что с этим дальше делать, решайте сами.
Еще один как бы генератор 3Д по картинке.
Основная фича - скорость генерации. Но качество сетки - низкополигональная каша. По капотом все тот же датасет Objaverse, на котором трудно обучить что-то годное. Писал об этом много тут #3dgen.
Запускается локально, но будет жрать много памяти, хотя утверждается, что будет работать даже на CPU.
Ну и если реально, то это не разработка Stability AI, а компании TripoAI. Стабилити просто выложили веса в опенсорс.
Также напомню, что у Стабилите есть Stable Zero123, Zero123-XL и Stable3D.
Вот такой вот 3Д-зоопарк.
Для тех, кто фанатеет по 3Д генераторам, можете также попробовать:
https://lumalabs.ai/
https://gala3d.github.io/
https://3d.csm.ai/
https://www.meshy.ai/
А я постил про любопытный пайплайн, в котором можно взять говномеш из таких генераторов и отнейрорендерить его в некое подобие анимации.
Март реально не дает передохнуть. Много новостей, которые не хочется пропускать. Потерпите, навалю сегодня постов с диванными комментариями.
Начнем со Stability AI, которая снова хайпует пресс-релизами и новостями.
https://stability.ai/news/triposr-3d-generation
Они бахнули еще один продукт с непонятным позиционированием, конкурирующий со своими же разработками. В принципе, если рассматривать их как лабораторию, то это норм. Благо веса и код выкладывают регулярно. А что с этим дальше делать, решайте сами.
Еще один как бы генератор 3Д по картинке.
Основная фича - скорость генерации. Но качество сетки - низкополигональная каша. По капотом все тот же датасет Objaverse, на котором трудно обучить что-то годное. Писал об этом много тут #3dgen.
Запускается локально, но будет жрать много памяти, хотя утверждается, что будет работать даже на CPU.
Ну и если реально, то это не разработка Stability AI, а компании TripoAI. Стабилити просто выложили веса в опенсорс.
Также напомню, что у Стабилите есть Stable Zero123, Zero123-XL и Stable3D.
Вот такой вот 3Д-зоопарк.
Для тех, кто фанатеет по 3Д генераторам, можете также попробовать:
https://lumalabs.ai/
https://gala3d.github.io/
https://3d.csm.ai/
https://www.meshy.ai/
А я постил про любопытный пайплайн, в котором можно взять говномеш из таких генераторов и отнейрорендерить его в некое подобие анимации.
👍23
Для гиков вышел Stable Diffusion 3: Research Paper.
Негики узнают, что:
Самая большая модель SD3 с 8 миллиардов параметров помещается в 24 ГБ VRAM RTX 4090 и занимает 34 секунды для создания изображения с разрешением 1024x1024 при использовании 50 шагов (жоско). Делаем прогнозы, сколько будет занимать в памяти младшая модель на 800M параметров. Пишут, что младшие модели будут дико оптимизированы.
Основной упор в посте на улучшенное понимание промпта и на генерацию текста. Какие бенчмарки они использовали для измерения "качества генерации текста" мне неведомо (все равно текст выглядит хреново везде во всех генераторах). Наверное по количеству ошибок.
В пониманием промпта действительно должен быть скачок:
Поскольку ембединги текста и изображений концептуально совершенно разные, мы используем два отдельных набора весов для двух этих модальностей. Это эквивалентно наличию двух независимых трансформеров для каждой модальности, так что оба представления могут работать в своем собственном пространстве, но при этом учитывать другое.
Ждем-с. Закупаем видеокарты..
https://stability.ai/news/stable-diffusion-3-research-paper
P/S/ Ну и все эти бенчмарки типа human evaluations of Visual Aesthetics вызывают у меня хохот.
Типа у кого красивее...
Померим красоту на все случаи жизни..\
Негики узнают, что:
Самая большая модель SD3 с 8 миллиардов параметров помещается в 24 ГБ VRAM RTX 4090 и занимает 34 секунды для создания изображения с разрешением 1024x1024 при использовании 50 шагов (жоско). Делаем прогнозы, сколько будет занимать в памяти младшая модель на 800M параметров. Пишут, что младшие модели будут дико оптимизированы.
Основной упор в посте на улучшенное понимание промпта и на генерацию текста. Какие бенчмарки они использовали для измерения "качества генерации текста" мне неведомо (все равно текст выглядит хреново везде во всех генераторах). Наверное по количеству ошибок.
В пониманием промпта действительно должен быть скачок:
Поскольку ембединги текста и изображений концептуально совершенно разные, мы используем два отдельных набора весов для двух этих модальностей. Это эквивалентно наличию двух независимых трансформеров для каждой модальности, так что оба представления могут работать в своем собственном пространстве, но при этом учитывать другое.
Ждем-с. Закупаем видеокарты..
https://stability.ai/news/stable-diffusion-3-research-paper
P/S/ Ну и все эти бенчмарки типа human evaluations of Visual Aesthetics вызывают у меня хохот.
Типа у кого красивее...
Померим красоту на все случаи жизни..\
👍20🔥3
Как часто вы генерите текст на картинках в ИИ-генераторах?
Anonymous Poll
47%
Не генерю никогда.
41%
Редко, но бывает.
12%
Часто
👍2