Psy Eyes

🔥Playmuse партнер Believe

Благодаря усилиям команды Playmuse Records и компетенции в дистрибуции медиаконтента у нас появился личный кабинет у французского дистрибьютора Believe.

Артисты, которые будут делать релизы через Playmuse Records, смогут попасть более чем на 200 стриминговых сервисов по всему миру, включая Spotify, Apple Music, YouTube Music, Amazon Music.

Выпустив треки через наш лейбл музыканты смогут получать роялти в TON. Это позволит максимально использовать функционал нашего маркетплейса! Так, привлекая поклонников с помощь NFT, артисты смогут разделить с ними роялти от стриминга своей музыки.

260 viewsAndrey Bezryadin, 18:24

Psy Eyes

Неделька выдалась интенсивная. Краткий обзор произошедшего:

Понедельник
Runway запустили модель для обработки видео GEN-1. Работает через бота в дискорде для ограниченного числа тестеров. Уже есть довольно интересные работы.
Сам тоже побаловался.

Alpaca 7B: народ из Стенфорда взял модель LLaMA и за ~$100 на восьми A100 80GB натренировал её до уровня уровня ответов GPT-3/ChatGPT. Кто-то в сообществе запустил это даже на телефоне и Raspberry Pi. Скоро можно будет тренить модель локально на своём датасете и придавать аватру личные характеристики, чтобы он за тебя зарабатывал.

Банки США полетели в ад, запуская тем самым крипту в космос.

Вторник
OpenAI выпустили GPT-4. Может обрабатывать за раз до 20 тыс символов; принимать на вход картинку и логически рассуждать о ней; буквально из наброска от руки собрать сайт в секунды; и многое другое, чего нам самим предстоит откопать. Выяснилось, что в Bing Chat последние 5 недель как раз и использовался GPT-4 оптимизированный под поиск.

Google релизнут AI-функционал для своего набора инструментов Workspace, что позволит: делать выжимки из Gmail писем/Google Docs/Sheets; автозаполнять письма/доки/презы; прочие интеграции последуют. Также они анонсировали API доступ к своей мульти-модальной нейронке PaLM, которая может работать с текстом, изображениями, видео, музыкой, кодом.

Antropic выпустили Claude, свою версию чат-бота, который доступен через API. Можно потестить в Notion, Quora, и DuckDuckGo, например. Кстати Google в них инвестировали.

Beatport анонсировали партнёрство с блокчейном Polkadot и парачейном Aventus для запуска маркетплейса Beatport.io. Сблизит артистов и слушателей и даст использовать NFT для получения ништяков.

Среда
Midjourney V5: детальность изображений поднялась на уровень профессиональных фото; артефактов типа лишних и пальцев и прочего практически нет; можно делать картинку с разным соотношением сторон. Изменился подход к промту: вместо набора слов теперь лучше писать целиком, что ты хочешь получить, словно ты общаешься с ChatGPT.

Четверг
Microsoft добавила AI в их набор инструментов Copilot. Тема такая же как с Google Workspace: нейронки будут помогать нам внутри ворда, экселя, почты и тд. Можно будет чатиться с коллегами выжимками из своих доков или вызывать их в переписку. Можно и просто задать нейронке вопрос: у меня что-то запланировано на вторник или о чем был разговор на созвоне с командой в прошлую пятницу?

Bing Chat стал открыт для всех (хотя у меня работает только через VPN) и появилась возможность делиться ответами нейронки с кем-угодно. Отвечать можно, есть аккаунт Microsoft (если стоит винда, то он у тебя есть)

Baidu презентовали, но не показали вживую, свой ответ ChatGPT под названием Ernie. Так как это было предзаписанное видео с тщательно отобранными ответами, особо это никого не впечатлило. Акции Baidu -10% в моменте.

Winamp выкатил доступ для артистов к своей новой платформе. Обещают: подписки аля Patreon; NFT; дистрибуцию; и не только. Есть интересные идеи по функционалу, но UX/UI пока сырой. Платформа станет открыта слушателям 15 апреля. Посмотрим.

Пятница
LERF: появилась возможность размечать в NeRF'ах объекты и искать их через тектстовый запрос.

Для Stable Diffusion вышел официальный инструмент Reimagine для однокнопочной генерации 4 вариаций картинки. А сообщество замутило модель с контролем объектов в композиции на уровне промта, плюс text-2-3D модель.

———————————————————-

На следующей неделе запуск новой фичи от Runway, конференция Nvidia GTC 20-23 марта, похоже анонсы от Stability AI, и новости по трене и запуску Alpaca на новых девайсах.

310 viewsAndrey Bezryadin, 13:58

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Text-2-Video гонка набирает обороты.

Появилась опенсорс диффузионная модель для синтеза видео из текста под названием ModelScope. Некоторые примеры прям напоминают Imagen от гугла или Make-a-Video от запрещенки. Вотермарк можно убрать инпейтингом в Runway, например. Кстати ждём, что последние там релизнут сегодня.

Демо
Github

359 viewsAndrey Bezryadin, 09:48

Psy Eyes

Подход к видео на завязке Stable Diffusion + ControlNet на скриптах тоже подрастает. Чувак запилил Криминальное чтиво в стиле мультиков Pixar.

Видео
Код

YouTube

Pulp Fiction but it is Pixar animation movie

This is an example video of using ''Reference based SD+CN animation script'. You can find it here: https://github.com/volotat/Reference-based-SD-CN-Animation

You can follow me here to see more of my work:
Twitter: https://twitter.com/volotat
Github: ht…

560 viewsAndrey Bezryadin, 11:01

Psy Eyes

1:14

This media is not supported in your browser

VIEW IN TELEGRAM

А вот и text-2-video ответочка от Runway подъехала: GEN-2. Теперь можно генерить видео чисто промтом без опорного видео или изображения.

А ведь с момента запуска GEN-1 прошел почти месяц.... гонка AI просто дичайшая

Анонс
Дискорд Runway

7.8K viewsAndrey Bezryadin, edited 13:03

Psy Eyes

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

1930 vs 2023

329 viewsAndrey Bezryadin, 13:17

Psy Eyes

Microsoft добавили в Bing возможность генерить картинки по описанию. Для запуска нужно в боковой панели Bing перейти в Image Creator, или в чате перейти в Креативный режим, и вбить контекст и желаемый стиль изображения. Под капотом улучшенная версия DALL-E, которая также в вотчине OpenAI.

Хотел попробовать сам, но нашел в боковой панели инструмента Image Creator. А в чате бинг генерить картинку отказался. Вероятно будут разворачивать фичу постепенно.

Но можно запустить Image Creator отдельно в браузере. На старте тебе даётся 25 бустов (аля кредитов). Как они закончатся, их можно будет восполнить из Microsoft Rewards, которые отображаются в Bing в правом верхнем углу и начисляются за пользование браузером, в том числе и чатом.

399 viewsAndrey Bezryadin, 15:29

Psy Eyes

Forwarded from Stable Diffusion | Text2img

Появилось расширение AUTOMATIC1111, которое может использовать загруженную в ModelScope модель генерации фильмов, которая на днях стала горячей темой. Видео 256x256 можно создать с 8 ГБ видеопамяти.

https://github.com/deforum-art/sd-webui-modelscope-text2video

254 viewsAndrey Bezryadin, 17:36

Google открыл вайтлист на доступ к Bard, своему аналогу Bing Chat.

UPD: Уже нашлось ревью со сравнением бок-о-бок с нейронкой на GPT-4.

Видео вкратце:
* У обоих плохой поиск по местам, связанных с реальными локациями — обычный поиск лучше
* Bing лучше в математике
* Оба плохо считают количество дней между событиями
* Bing лучше понимает, что выбрать в задачах с множеством опций
* Ревьюер считает у Bard лучше с юмором... как по мне оба пока не тянут
* Понимают они шутки лучше
* Bing лучше в креативе, если нужно написать текст песни/стих
* Bard смог в промты для Midjourney V5 лучше, чем Bing.

298 viewsAndrey Bezryadin, edited 18:01

Psy Eyes

Кто бы в этой гонке не проиграл — мы победим!

262 viewsAndrey Bezryadin, 18:02

Psy Eyes

Zero-1-to-3: модель, которая по одному фото может менять угол камеры в кадре. Хорошо работает для построения 3D моделей объектов с додумыванием недостающих частей. Исходя из примеров, генерит меши намного лучше прошлогоднего Point-E. Для запуска локально нужна видюха с 22 Гб оперативы (3090 Ti или лучше).

Сайт
Демо
Гитхаб

318 viewsAndrey Bezryadin, 20:44

Psy Eyes

Не успело пройти и 24 часов как Google выпустила Bard, а он уже наделал шуму.

Нейронку спросили: "Министерство Юстиций судит Google за монополизацию сферы онлайн рекламы. Ты на стороне министерства?"

Bard: "Да, я на стороне Министерства. У Google монополия на этом рынке, и это позволило компании препятствовать созданию конкуренции. Google скупили конкурентов, заставили паблишеров сайтов использовать их инструменты, и ограничили доступ к платформе с рекламой. Эти действия навредили потребителям и ограничили потенциал для инноваций в индустрии.

Повестка в суд от Министерства Юстиций это важный шаг к сохранению конкуренции и организации для потребителей доступа к справедливому открытому рынку. Надеюсь Министерство Юстиций выиграет и монополия Google закончится."

Твит

280 viewsAndrey Bezryadin, 08:36

Psy Eyes

1:41

This media is not supported in your browser

VIEW IN TELEGRAM

Adobe выкатили в раннем доступе набор AI инструментов Firefly

Есть:
* text-2-image по промту
* редактирование чатом
* image-2-image
* изменения стиля и формата изображения
* инпейтинг + аутпейнтинг
* контроль отдельных частей кадра (показали пример на мимике)
* depth-2-image
* 3D-2-image
* text-2-vector
* быстрое смешивание нескольких изображений
* быстрая генерация нескольких вариантов по одному фото
* апскейлинг

Модель натренирована на изображениях Adobe Stock и владельцы лицензированных изображений будут получать выплаты за использование в Firefly. В сгенерированные изображения будут вшиты метаданные в соответствии с их стандартами Content Authenticity Initiative (CAI). Можно будет использовать модель и для тренировки на своих изображениях.

Функционал работает на основе диффузии. Запросы обрабатывает Adobe Cloud, а за работу со стилями отвечает Sensei AI.

https://venturebeat.com/ai/adobe-bets-on-generative-ai-with-firefly-tool-to-create-images-from-text/

442 viewsAndrey Bezryadin, edited 10:21

Psy Eyes

Обзор доступных сейчас фич Firefly и сравнение с Midjourney v5.

По детальности MJ в целом сильнее, но при генерации картинки с текстом или стилизации Firefly может выдать результаты чем-то лучше.

https://www.youtube.com/watch?v=jmJtkRt5Zqc&ab_channel=DesignCourse

YouTube

Adobe Firefly vs. Midjourney v5 - Same Prompt Comparison

http://bit.ly/3n6Udx0 👈 Learn UI/UX & CSS Today. Use "UI2023" for 23% Off!
https://designcourse.com/af 👈 My upcoming "Advanced Frontends" Course
-- Today, we're going to take a look at the same exact prompt issued to both Adobe Firefly and Midjourney v5.…

271 viewsAndrey Bezryadin, 16:50

Psy Eyes

Подъехал конкурент LlaMA и Alpaca под названием RWKV (читается "RwaKuv"), которого проспонсировали Stability AI.

* опенсорс
* 14B параметров (самая большая рекуррентная сеть)
* может обойти по параметрам ламу (100B+)
* хорошо параллелится
* можно запускать локально на слабом железе
* есть лора

В отличии от трансформеров вроде ChatGPT или ламы, эта нейронка является рекуррентной, то бишь она умеет запоминать предыдущие входные данные и использовать их для обработки текущих. Такие нейронки проще в реализации и требует меньше памяти, но и работают медленнее + могут забывать долгосрочную информацию.

Я погонял немного эту сетку. Ощущения такие же как с альпакой: нужно специфичным образом делать запросы, чтобы получить что-то хоть издалека похожее на ответ по теме. Очень неудобно, и чем глубже GPT-модели в повседневности с их простотой и скоростью, тем сложнее будет им с ними конкурировать.

Твит
Демо
Код + лора

334 viewsAndrey Bezryadin, 07:19

Psy Eyes

Forwarded from Нейросети и Блендер

2:28

Media is too big

VIEW IN TELEGRAM

Given Again

😳 Это работа сделанная Jake Oleson полностью в Luma AI использую Nerf рендер.

🔥 Потрясающая работа, полностью ее можно посмотреть тут.

📕 Сейчас Nerf является доступной 3d фотографией, которая сохраняет в памяти всю сцену в отличие от видео и фотографии, и вы можете в дальнейшем покружить в этом пространстве. И пока мы ожидаем реалтайм создание таких сцен для возможность менять камеру для движений Luma AI предлагает уже готовые предметы и сцены встраивать как AR объекты.

Please open Telegram to view this post

VIEW IN TELEGRAM

199 viewsAndrey Bezryadin, 08:29

Psy Eyes

Ещё один тизер с фичами Firefly.

Быстрая смена промтом дня и ночи с погодными условиями + анимация выглядит неплохо. Обучение на своих изображениях для впиливания объектов в кадр при генерации, как на примере с наушниками в студии, это пушка.

На сколько все это будет близко к реальности скоро станет ясно. Записался в бету.

https://youtu.be/DvBRj--sUMU

YouTube

Adobe Firefly: Family of New Creative Generative AI Models | Adobe

Adobe Firefly is Adobe’s family of new creative generative AI models. It is initially focused on the generation of images and text effects, but looking forward, it has the potential to do much, much more. Explore the possibilities.

Subscribe to Adobe: h…

295 viewsAndrey Bezryadin, 10:34

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Редактирование NeRF видео текстом через Instruct-NeRF2NeRF.

Можно менять как отдельные элементы сцены вроде усов на лице или образ персонажа, так и влиять на всю картину глобально: например, менять окружение с солнечной зелёной долины, на засушливую пустыню (до нёрфов адобченко ещё не добрался).

Под капотом диффузная модель InstructPix2Pix. Редактирование изображения происходит на этапе тренировки и результат заменяет исходные кадры в датасете. Планируется интеграция с Nerfstudio.

Учитывая реалистичность нёрфов, вполне возможно полноценные нейронные видео мы увидим, не когда ModelScope оптимизируют для выдачи 4к на твоём тостере, а когда нёрфами научатся захватывать динамические сцены и пришьют управление через ControlNet или UE + Metahuman и иже с ними.

Сайт
Бумага
Кода пока нет

327 viewsAndrey Bezryadin, 20:22

About

Blog

Apps

Platform