Я был в полной уверенности, что сегодня воскресенье. Аплодисменты мне!
Дайджест:
📹 ВИДЕО + АРТ 🎨
Deforum: выпустили обновление, которое значительно исправляет когерентность цветов в A1111. Больше нет сероватых/дымных/туманных облаков, а цвета стали гораздо более живыми.
HACK (Head-And-neCK): модель для анатомически-точного реконструирования шеи и головы цифровых двойников.
Reference-only: метод генерации на ControlNet с высоким соответствием исходному изображению.
Ещё один SD плагин для Maya. Теперь от CG Monastery
🎸 ЗВУК 🎸
Google: открыли доступ к text-2-music модели MusicLM тем, кто ранее подавал заявки. Если что, её можно подать сейчас.
🤖 ЧАТЫ 🤖
OpenAI: доступ к плагинам и интернету уже начали выдавать владельцам плюсов. Вчера тестил весь день и это кайф!
Андрей Картпати: новый подход к обработке больших данных под названием MEGABYTE может помочь уйти от проблем с токенизацией. В основе разделение данных на мелкие патчи, где локальная модель обрабатывает каждый их них, а глобальная связывает всё воедино.
Рекуррентная нейронная сеть RWKV интегрировалась в библиотеку Transformers на HF.
Запускаем ламу 13B на 6ГБ видюхе.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Deforum: выпустили обновление, которое значительно исправляет когерентность цветов в A1111. Больше нет сероватых/дымных/туманных облаков, а цвета стали гораздо более живыми.
HACK (Head-And-neCK): модель для анатомически-точного реконструирования шеи и головы цифровых двойников.
Reference-only: метод генерации на ControlNet с высоким соответствием исходному изображению.
Ещё один SD плагин для Maya. Теперь от CG Monastery
🎸 ЗВУК 🎸
Google: открыли доступ к text-2-music модели MusicLM тем, кто ранее подавал заявки. Если что, её можно подать сейчас.
🤖 ЧАТЫ 🤖
OpenAI: доступ к плагинам и интернету уже начали выдавать владельцам плюсов. Вчера тестил весь день и это кайф!
Андрей Картпати: новый подход к обработке больших данных под названием MEGABYTE может помочь уйти от проблем с токенизацией. В основе разделение данных на мелкие патчи, где локальная модель обрабатывает каждый их них, а глобальная связывает всё воедино.
Рекуррентная нейронная сеть RWKV интегрировалась в библиотеку Transformers на HF.
Запускаем ламу 13B на 6ГБ видюхе.
Forwarded from shonenkov AI
This media is not supported in your browser
VIEW IN TELEGRAM
3D с DeepFloyd-IF выглядит неплохо, модель справилась с рендерингом и генерацией текста на кепке 👀
если вдруг кому-то интересно потыкать, то вот [GitHub с реализацией IF и 3D]
+ в комменты закинул еще несколько 3D анимаций
@shonenkovAI
если вдруг кому-то интересно потыкать, то вот [GitHub с реализацией IF и 3D]
+ в комменты закинул еще несколько 3D анимаций
@shonenkovAI
Stability AI выпустили бету SDXL в дискорде для всех.
Чтобы генерить:
1) зайди в канал #bot с любым номером
2) вбей /dream promt: и дальше промт
Что значат кнопки:
🅰️Vote A: изображение слева лучше
🅱️Vote B: изображение справа лучше
✉️DM A и ✉️DM B: отправляем левое или правое изображение себе в личку (она же у тебя включена?)
🔁reDo: генерим другой варик по тому же промту
🎨reStyle: генерим полученные картинки в другом или случайном стиле: аниме, фотография, комикс, фэнтези
🖼reSize: генерим по тому же промту картинку случайного размера.
https://discord.gg/stablediffusion
Чтобы генерить:
1) зайди в канал #bot с любым номером
2) вбей /dream promt: и дальше промт
Что значат кнопки:
🅰️Vote A: изображение слева лучше
🅱️Vote B: изображение справа лучше
✉️DM A и ✉️DM B: отправляем левое или правое изображение себе в личку (она же у тебя включена?)
🔁reDo: генерим другой варик по тому же промту
🎨reStyle: генерим полученные картинки в другом или случайном стиле: аниме, фотография, комикс, фэнтези
🖼reSize: генерим по тому же промту картинку случайного размера.
https://discord.gg/stablediffusion
SeViLA — нейронка, которая может распознать, что происходит на видео. Без субтитров, ChatGPT, регистрации и СМС.
1) Загружаешь видео
2) Задаёшь вопрос
3) Даёшь три варианта ответа
4) Video Frame я поставил 32 как в примерах, ибо не ясно что имеется ввиду
5) Keyframe это сколько кадров с указанным запросом надо найти
Из всего, что я тестил это первый пример, когда анализ видео сработал. Суммаризаторы на основе OpenAI требуют API и оно соответственно платное за каждый запрос. А эта вещь работает как в Gradio, так и локально можно крутить, если есть 12 ГБ видеопамяти. Початиться с видео нельзя, но на текущих скоростях, пока я это пишу, кто-то уже код такого решения заливает.
Демо
1) Загружаешь видео
2) Задаёшь вопрос
3) Даёшь три варианта ответа
4) Video Frame я поставил 32 как в примерах, ибо не ясно что имеется ввиду
5) Keyframe это сколько кадров с указанным запросом надо найти
Из всего, что я тестил это первый пример, когда анализ видео сработал. Суммаризаторы на основе OpenAI требуют API и оно соответственно платное за каждый запрос. А эта вещь работает как в Gradio, так и локально можно крутить, если есть 12 ГБ видеопамяти. Початиться с видео нельзя, но на текущих скоростях, пока я это пишу, кто-то уже код такого решения заливает.
Демо
GEN2 + Wonder Dynamics + Uberduck
1) Сгенерил с помощью Runway GEN-2 базовый футаж с людьми (WD только их нормально распознаёт).
2) В Wonder Dynamics заменил людей на целевых персонажей (на 3 сек уходит полтора часа рендера)
3) В Runway убрал фон и добавил сабы
4) На основе сабов сгенерил озвучку в Uberduck
5) Вкинул в Runway и пустил на рендер.
Итоговое видео и behind the scenes прицепляю. Have fun!
1) Сгенерил с помощью Runway GEN-2 базовый футаж с людьми (WD только их нормально распознаёт).
2) В Wonder Dynamics заменил людей на целевых персонажей (на 3 сек уходит полтора часа рендера)
3) В Runway убрал фон и добавил сабы
4) На основе сабов сгенерил озвучку в Uberduck
5) Вкинул в Runway и пустил на рендер.
Итоговое видео и behind the scenes прицепляю. Have fun!
Bytadance, создатели TikTok, выпустили модель, которая может разбить аудио на сотни звуковых классов. Может пригодиться, например, если проект композиции потерян, а нужно вытащить семпл/стем.
Код открыт, но то, что вместо демонстрационного видео приложен ноториально-заверенный скриншот, не внушает. Тем не менее затестим.
Гитхаб
Код открыт, но то, что вместо демонстрационного видео приложен ноториально-заверенный скриншот, не внушает. Тем не менее затестим.
Гитхаб
Дайджест:
📹 ВИДЕО + АРТ 🎨
ControlNet + Segment Anything: модель генерирует арт на основе входного изображения с высоким соответствием.
Make-A-Protagonist: редактирование стиля видео на основе текстового промта и реф изображения.
Mayavee: изменение стиля видео по подходу похожее на Ebsynth, только через веб-интерфейс и с превью.
ULIP-2: улучшаем генерацию и классификацию 3D, используя на входе три модальности — тест, изображение, и облако точек.
AutoRecon: автономная генерация 3D объектов (с удалением фона) по фото с разных сторон. Пока без кода.
🎸 ЗВУК 🎸
Google: тизерят модель SoundStorm для генерации звука и диалогов с высоким качеством.
🤖 ЧАТЫ 🤖
Guidance: библиотека, дающая больше контроля при использовании промта с чат-ботами.
SaleForce: официальный релиз модели CodeT5+ для генерации кода (code-2-code не в режиме чата). Есть веса от 220М до 16B.
📹 ВИДЕО + АРТ 🎨
ControlNet + Segment Anything: модель генерирует арт на основе входного изображения с высоким соответствием.
Make-A-Protagonist: редактирование стиля видео на основе текстового промта и реф изображения.
Mayavee: изменение стиля видео по подходу похожее на Ebsynth, только через веб-интерфейс и с превью.
ULIP-2: улучшаем генерацию и классификацию 3D, используя на входе три модальности — тест, изображение, и облако точек.
AutoRecon: автономная генерация 3D объектов (с удалением фона) по фото с разных сторон. Пока без кода.
🎸 ЗВУК 🎸
Google: тизерят модель SoundStorm для генерации звука и диалогов с высоким качеством.
🤖 ЧАТЫ 🤖
Guidance: библиотека, дающая больше контроля при использовании промта с чат-ботами.
SaleForce: официальный релиз модели CodeT5+ для генерации кода (code-2-code не в режиме чата). Есть веса от 220М до 16B.
Выглядит отлично!
А, в целом, нас ждёт тренд на сюжеты, где люди воюют с AI.
https://www.youtube.com/watch?v=573GCxqkYEg&ab_channel=20thCenturyStudios
А, в целом, нас ждёт тренд на сюжеты, где люди воюют с AI.
https://www.youtube.com/watch?v=573GCxqkYEg&ab_channel=20thCenturyStudios
YouTube
The Creator | Teaser Trailer | 20th Century Studios
"This is a fight for our very existence."
The Creator arrives in theaters September 29.
The Creator arrives in theaters September 29.
Завтра выступаю на Positive Hack Days. Это форум, объединяющий этичных хакеров со всего мира, на котором, помимо кибербезопасности, в этом году, будут обсуждать AI, web3 и метавселенные.
Можно будет послушать о хаках ChatGPT с помощью социальной инженерии, квантово-устойчивых блокчейнах, анонимности случайных Telegram-номеров, и про другие ништяки. Даже соревнование по взлому городской инфраструктуры будет.
В прошлом году совокупно было 140 тыс. человек онлайн и оффлайн.
Я выступаю на сцене "Доверие к технологиям" в 18:30 — 19:00. Будете проходить мимо Парка Горького — залетайте, на мою панельку вход свободный. Захотите пересечься, пишите в личку.
Онлайн трансляция будет тут:
https://phdays.com/
Можно будет послушать о хаках ChatGPT с помощью социальной инженерии, квантово-устойчивых блокчейнах, анонимности случайных Telegram-номеров, и про другие ништяки. Даже соревнование по взлому городской инфраструктуры будет.
В прошлом году совокупно было 140 тыс. человек онлайн и оффлайн.
Я выступаю на сцене "Доверие к технологиям" в 18:30 — 19:00. Будете проходить мимо Парка Горького — залетайте, на мою панельку вход свободный. Захотите пересечься, пишите в личку.
Онлайн трансляция будет тут:
https://phdays.com/
Вчера закончился Positive Hack Days. Побывать на соревновании настоящих хакеров уже крутой опыт, да ещё и сама сцена Standoff где атакующие и защищающие сталкиваются в борьбе за инфраструктуру виртуального города F сделана впечатляюще! Помимо этого очень много интересной информации, а также мини-игр, которые могут помочь широкой аудитории понять основы кибербезопасности.
Сделал для вас подборочку трансляций:
1) Моё выступление: музыка в эпоху нейронок и Web3
2) Устройство больших языковых моделей
3) Prompt Injection: вытаскиваем максимум из AI-сервиса
4) 20 нестандартных применений ChatGPT в кибербезе
5) ChatGPT на темной и светлой стороне
6) Применение AI для обезличивания чувствительных данных
7) От ручного ML к автоматизации с помощью Python-библиотек
8) Использование Python для управления знаниями: инструменты, подходы, примеры
9) Мир на грани WEB3
10 Квантово-устойчивый блокчейн
11) Популярные нетривиальные уязвимости в смарт-контрактах Ethereum: обзор и устранение, 2022 год
P.S. Я недавно делал пост о языковых моделях, которые умеют генерить код. Возможно мы с Артёмом с 4-й презентации сделаем обзор на них
Сделал для вас подборочку трансляций:
1) Моё выступление: музыка в эпоху нейронок и Web3
2) Устройство больших языковых моделей
3) Prompt Injection: вытаскиваем максимум из AI-сервиса
4) 20 нестандартных применений ChatGPT в кибербезе
5) ChatGPT на темной и светлой стороне
6) Применение AI для обезличивания чувствительных данных
7) От ручного ML к автоматизации с помощью Python-библиотек
8) Использование Python для управления знаниями: инструменты, подходы, примеры
9) Мир на грани WEB3
10 Квантово-устойчивый блокчейн
11) Популярные нетривиальные уязвимости в смарт-контрактах Ethereum: обзор и устранение, 2022 год
P.S. Я недавно делал пост о языковых моделях, которые умеют генерить код. Возможно мы с Артёмом с 4-й презентации сделаем обзор на них