Stability AI выпустили бету SDXL в дискорде для всех.
Чтобы генерить:
1) зайди в канал #bot с любым номером
2) вбей /dream promt: и дальше промт
Что значат кнопки:
🅰️Vote A: изображение слева лучше
🅱️Vote B: изображение справа лучше
✉️DM A и ✉️DM B: отправляем левое или правое изображение себе в личку (она же у тебя включена?)
🔁reDo: генерим другой варик по тому же промту
🎨reStyle: генерим полученные картинки в другом или случайном стиле: аниме, фотография, комикс, фэнтези
🖼reSize: генерим по тому же промту картинку случайного размера.
https://discord.gg/stablediffusion
Чтобы генерить:
1) зайди в канал #bot с любым номером
2) вбей /dream promt: и дальше промт
Что значат кнопки:
🅰️Vote A: изображение слева лучше
🅱️Vote B: изображение справа лучше
✉️DM A и ✉️DM B: отправляем левое или правое изображение себе в личку (она же у тебя включена?)
🔁reDo: генерим другой варик по тому же промту
🎨reStyle: генерим полученные картинки в другом или случайном стиле: аниме, фотография, комикс, фэнтези
🖼reSize: генерим по тому же промту картинку случайного размера.
https://discord.gg/stablediffusion
SeViLA — нейронка, которая может распознать, что происходит на видео. Без субтитров, ChatGPT, регистрации и СМС.
1) Загружаешь видео
2) Задаёшь вопрос
3) Даёшь три варианта ответа
4) Video Frame я поставил 32 как в примерах, ибо не ясно что имеется ввиду
5) Keyframe это сколько кадров с указанным запросом надо найти
Из всего, что я тестил это первый пример, когда анализ видео сработал. Суммаризаторы на основе OpenAI требуют API и оно соответственно платное за каждый запрос. А эта вещь работает как в Gradio, так и локально можно крутить, если есть 12 ГБ видеопамяти. Початиться с видео нельзя, но на текущих скоростях, пока я это пишу, кто-то уже код такого решения заливает.
Демо
1) Загружаешь видео
2) Задаёшь вопрос
3) Даёшь три варианта ответа
4) Video Frame я поставил 32 как в примерах, ибо не ясно что имеется ввиду
5) Keyframe это сколько кадров с указанным запросом надо найти
Из всего, что я тестил это первый пример, когда анализ видео сработал. Суммаризаторы на основе OpenAI требуют API и оно соответственно платное за каждый запрос. А эта вещь работает как в Gradio, так и локально можно крутить, если есть 12 ГБ видеопамяти. Початиться с видео нельзя, но на текущих скоростях, пока я это пишу, кто-то уже код такого решения заливает.
Демо
GEN2 + Wonder Dynamics + Uberduck
1) Сгенерил с помощью Runway GEN-2 базовый футаж с людьми (WD только их нормально распознаёт).
2) В Wonder Dynamics заменил людей на целевых персонажей (на 3 сек уходит полтора часа рендера)
3) В Runway убрал фон и добавил сабы
4) На основе сабов сгенерил озвучку в Uberduck
5) Вкинул в Runway и пустил на рендер.
Итоговое видео и behind the scenes прицепляю. Have fun!
1) Сгенерил с помощью Runway GEN-2 базовый футаж с людьми (WD только их нормально распознаёт).
2) В Wonder Dynamics заменил людей на целевых персонажей (на 3 сек уходит полтора часа рендера)
3) В Runway убрал фон и добавил сабы
4) На основе сабов сгенерил озвучку в Uberduck
5) Вкинул в Runway и пустил на рендер.
Итоговое видео и behind the scenes прицепляю. Have fun!
Bytadance, создатели TikTok, выпустили модель, которая может разбить аудио на сотни звуковых классов. Может пригодиться, например, если проект композиции потерян, а нужно вытащить семпл/стем.
Код открыт, но то, что вместо демонстрационного видео приложен ноториально-заверенный скриншот, не внушает. Тем не менее затестим.
Гитхаб
Код открыт, но то, что вместо демонстрационного видео приложен ноториально-заверенный скриншот, не внушает. Тем не менее затестим.
Гитхаб
Дайджест:
📹 ВИДЕО + АРТ 🎨
ControlNet + Segment Anything: модель генерирует арт на основе входного изображения с высоким соответствием.
Make-A-Protagonist: редактирование стиля видео на основе текстового промта и реф изображения.
Mayavee: изменение стиля видео по подходу похожее на Ebsynth, только через веб-интерфейс и с превью.
ULIP-2: улучшаем генерацию и классификацию 3D, используя на входе три модальности — тест, изображение, и облако точек.
AutoRecon: автономная генерация 3D объектов (с удалением фона) по фото с разных сторон. Пока без кода.
🎸 ЗВУК 🎸
Google: тизерят модель SoundStorm для генерации звука и диалогов с высоким качеством.
🤖 ЧАТЫ 🤖
Guidance: библиотека, дающая больше контроля при использовании промта с чат-ботами.
SaleForce: официальный релиз модели CodeT5+ для генерации кода (code-2-code не в режиме чата). Есть веса от 220М до 16B.
📹 ВИДЕО + АРТ 🎨
ControlNet + Segment Anything: модель генерирует арт на основе входного изображения с высоким соответствием.
Make-A-Protagonist: редактирование стиля видео на основе текстового промта и реф изображения.
Mayavee: изменение стиля видео по подходу похожее на Ebsynth, только через веб-интерфейс и с превью.
ULIP-2: улучшаем генерацию и классификацию 3D, используя на входе три модальности — тест, изображение, и облако точек.
AutoRecon: автономная генерация 3D объектов (с удалением фона) по фото с разных сторон. Пока без кода.
🎸 ЗВУК 🎸
Google: тизерят модель SoundStorm для генерации звука и диалогов с высоким качеством.
🤖 ЧАТЫ 🤖
Guidance: библиотека, дающая больше контроля при использовании промта с чат-ботами.
SaleForce: официальный релиз модели CodeT5+ для генерации кода (code-2-code не в режиме чата). Есть веса от 220М до 16B.
Выглядит отлично!
А, в целом, нас ждёт тренд на сюжеты, где люди воюют с AI.
https://www.youtube.com/watch?v=573GCxqkYEg&ab_channel=20thCenturyStudios
А, в целом, нас ждёт тренд на сюжеты, где люди воюют с AI.
https://www.youtube.com/watch?v=573GCxqkYEg&ab_channel=20thCenturyStudios
YouTube
The Creator | Teaser Trailer | 20th Century Studios
"This is a fight for our very existence."
The Creator arrives in theaters September 29.
The Creator arrives in theaters September 29.
Завтра выступаю на Positive Hack Days. Это форум, объединяющий этичных хакеров со всего мира, на котором, помимо кибербезопасности, в этом году, будут обсуждать AI, web3 и метавселенные.
Можно будет послушать о хаках ChatGPT с помощью социальной инженерии, квантово-устойчивых блокчейнах, анонимности случайных Telegram-номеров, и про другие ништяки. Даже соревнование по взлому городской инфраструктуры будет.
В прошлом году совокупно было 140 тыс. человек онлайн и оффлайн.
Я выступаю на сцене "Доверие к технологиям" в 18:30 — 19:00. Будете проходить мимо Парка Горького — залетайте, на мою панельку вход свободный. Захотите пересечься, пишите в личку.
Онлайн трансляция будет тут:
https://phdays.com/
Можно будет послушать о хаках ChatGPT с помощью социальной инженерии, квантово-устойчивых блокчейнах, анонимности случайных Telegram-номеров, и про другие ништяки. Даже соревнование по взлому городской инфраструктуры будет.
В прошлом году совокупно было 140 тыс. человек онлайн и оффлайн.
Я выступаю на сцене "Доверие к технологиям" в 18:30 — 19:00. Будете проходить мимо Парка Горького — залетайте, на мою панельку вход свободный. Захотите пересечься, пишите в личку.
Онлайн трансляция будет тут:
https://phdays.com/
Вчера закончился Positive Hack Days. Побывать на соревновании настоящих хакеров уже крутой опыт, да ещё и сама сцена Standoff где атакующие и защищающие сталкиваются в борьбе за инфраструктуру виртуального города F сделана впечатляюще! Помимо этого очень много интересной информации, а также мини-игр, которые могут помочь широкой аудитории понять основы кибербезопасности.
Сделал для вас подборочку трансляций:
1) Моё выступление: музыка в эпоху нейронок и Web3
2) Устройство больших языковых моделей
3) Prompt Injection: вытаскиваем максимум из AI-сервиса
4) 20 нестандартных применений ChatGPT в кибербезе
5) ChatGPT на темной и светлой стороне
6) Применение AI для обезличивания чувствительных данных
7) От ручного ML к автоматизации с помощью Python-библиотек
8) Использование Python для управления знаниями: инструменты, подходы, примеры
9) Мир на грани WEB3
10 Квантово-устойчивый блокчейн
11) Популярные нетривиальные уязвимости в смарт-контрактах Ethereum: обзор и устранение, 2022 год
P.S. Я недавно делал пост о языковых моделях, которые умеют генерить код. Возможно мы с Артёмом с 4-й презентации сделаем обзор на них
Сделал для вас подборочку трансляций:
1) Моё выступление: музыка в эпоху нейронок и Web3
2) Устройство больших языковых моделей
3) Prompt Injection: вытаскиваем максимум из AI-сервиса
4) 20 нестандартных применений ChatGPT в кибербезе
5) ChatGPT на темной и светлой стороне
6) Применение AI для обезличивания чувствительных данных
7) От ручного ML к автоматизации с помощью Python-библиотек
8) Использование Python для управления знаниями: инструменты, подходы, примеры
9) Мир на грани WEB3
10 Квантово-устойчивый блокчейн
11) Популярные нетривиальные уязвимости в смарт-контрактах Ethereum: обзор и устранение, 2022 год
P.S. Я недавно делал пост о языковых моделях, которые умеют генерить код. Возможно мы с Артёмом с 4-й презентации сделаем обзор на них
Дайджест пока я гонял на PHD фест:
📹 ВИДЕО + АРТ 🎨
Stability AI: выпустили DreamStudio в опенсорс под названием StableStudio. Будет поддержка ControlNet, локального инференса через A1111 или WebGPU, расширение через плагины, и другие ништяки. Позже туда подъедет чат. Я поставил потестил, пока это DS один-в-один. Тем более нужен API ключ Stability для работы, который можно взять в акке DS. Когда подъедет возможность использовать локальные мощности, или через плагин подцепить Stable Horde и другие ништяки, тогда будет о чем поговорить.
DragGAN: меняем композицию на фото, указывая мышкой точки как должно меняться движение объекта в кадре. Выглядит довольно интересно.
Phygital+: добавили DeepFloyd для генерации картинки с текстом, добавили Segment Anything (SAM) для аккуратного выделения объектов.
CoDi: модель, способная генерировать контент на связке модальностей текста, арта, видео и музыки. Пока без кода.
Nvidia: представили text-2-video модель PYoCo, которая является файнтюном eDiff-I, но с новым приором шума к видео. Похоже оно даже умеет в текст на видео а-ля DeepFloyd, но всё в стиле зелёных без кода.
Casablanca: нейронка на видеосозвонах автоматом направляет вашу голову и взгляд в камеру.
BlockadeLabs: добавили ControlNet в свой генератор 360-панорам. Глубину неплохо передаёт. На схожую тему вышла бумага LDM3D про генерацию 3D диффуизей.
Mesh Diffusion: генерация 3D преставлений не из вокселей или облака точек, а меша.
Upscayl: ещё один софт для апскейла фото, можно запустить локально.
Instruct pix2pix, который изначально использовался в A1111, устарел и вместо него лучше использовать контролнетовский pix2pix, который позволяет работать с хайрезом.
FastComposer: генерация изображений из текста или реф картинки без тонкой настройки.
🎸 ЗВУК 🎸
GETMusic: генерация музыки и нот любой длительности, в том числе и по рефу. Работают вместе две модели: GETScore генерирует ноты, а GETDiff генерирует музыку. Можно зафайнтюнить на любимой музыке. Похоже входит в набор инструментов Music от Microsoft.
Ecoute: транскрипция сказанного интервьюером и спикером в реальном времени в раздельные текстовые поля. Под капотом GPT-3.5 + маленькая версия Whisper для text2speech. Нужен API ключ OpenAI.
FunASR: тоже опенсорс инструмент для распознавания речи, но работает для конференций с большим количеством участников.
🤖 ЧАТЫ 🤖
OpenAI: ChatGPT вышел на iOS (Android позже подъедет) с поддержкой Whisper для перевода голоса в текст. Пока только для акков из США. Также накатили дефолтный WebBrowsing для владельцев плюсов, а не через плагин WebPilot который от третьих лиц и ему надо доверять. Очень ждём Code Interpreter вот это будет вообще разнос.
Запрещёнка анонсировала свой аналог Copilot для написания кода, а также показала свой чип MTIA v1 для ускорения DL с фокусом на рекламу.
Google: добавят в Colab возможность генерить код с помощью модели Codey, которая основана на PaLM 2. К слову выяснилось, что последняя обучалась на 3,6 трлн токенов, что в 5 раз больше, чем предыдущая модель. Посмотрим, что им это даст раз словам Сэма (OpenAI) и Эмада (Stability) гнаться за токенами нет смысла, а маленьких моделей показывающих годные результаты не мало.
Чувак с помощью социальной инженерии вытащил из GitHub Copilot системные промты.
Другой чел нашёл как с дать ChatGPT полный доступ над своей системой.
Microsoft: выкатили датасет TinyStories 2,5М со словарным запасом 5-летнего ребёнка, который написан GPT-3.5 и GPT-4 и подходит для тренировки и валидации новых LM размером до 10М параметров. Плюс опубликовали исследование на тему обмена данными между разными LLM.
Tascade: добавили генерацию с помощью GPT-4 списка задач, отслеживания его выполнения, создания майндмэпа и тд.
DreamGPT: усиливаем галлюцинации нейронок, для создания новых идей.
Dora: генерируем одностраничный сайт по текстовому промту.
Gradio: используем любую модель с Gradio по API через JavaScript.
TokenHawk: ещё один лама чат на WebGPU.
📹 ВИДЕО + АРТ 🎨
Stability AI: выпустили DreamStudio в опенсорс под названием StableStudio. Будет поддержка ControlNet, локального инференса через A1111 или WebGPU, расширение через плагины, и другие ништяки. Позже туда подъедет чат. Я поставил потестил, пока это DS один-в-один. Тем более нужен API ключ Stability для работы, который можно взять в акке DS. Когда подъедет возможность использовать локальные мощности, или через плагин подцепить Stable Horde и другие ништяки, тогда будет о чем поговорить.
DragGAN: меняем композицию на фото, указывая мышкой точки как должно меняться движение объекта в кадре. Выглядит довольно интересно.
Phygital+: добавили DeepFloyd для генерации картинки с текстом, добавили Segment Anything (SAM) для аккуратного выделения объектов.
CoDi: модель, способная генерировать контент на связке модальностей текста, арта, видео и музыки. Пока без кода.
Nvidia: представили text-2-video модель PYoCo, которая является файнтюном eDiff-I, но с новым приором шума к видео. Похоже оно даже умеет в текст на видео а-ля DeepFloyd, но всё в стиле зелёных без кода.
Casablanca: нейронка на видеосозвонах автоматом направляет вашу голову и взгляд в камеру.
BlockadeLabs: добавили ControlNet в свой генератор 360-панорам. Глубину неплохо передаёт. На схожую тему вышла бумага LDM3D про генерацию 3D диффуизей.
Mesh Diffusion: генерация 3D преставлений не из вокселей или облака точек, а меша.
Upscayl: ещё один софт для апскейла фото, можно запустить локально.
Instruct pix2pix, который изначально использовался в A1111, устарел и вместо него лучше использовать контролнетовский pix2pix, который позволяет работать с хайрезом.
FastComposer: генерация изображений из текста или реф картинки без тонкой настройки.
🎸 ЗВУК 🎸
GETMusic: генерация музыки и нот любой длительности, в том числе и по рефу. Работают вместе две модели: GETScore генерирует ноты, а GETDiff генерирует музыку. Можно зафайнтюнить на любимой музыке. Похоже входит в набор инструментов Music от Microsoft.
Ecoute: транскрипция сказанного интервьюером и спикером в реальном времени в раздельные текстовые поля. Под капотом GPT-3.5 + маленькая версия Whisper для text2speech. Нужен API ключ OpenAI.
FunASR: тоже опенсорс инструмент для распознавания речи, но работает для конференций с большим количеством участников.
🤖 ЧАТЫ 🤖
OpenAI: ChatGPT вышел на iOS (Android позже подъедет) с поддержкой Whisper для перевода голоса в текст. Пока только для акков из США. Также накатили дефолтный WebBrowsing для владельцев плюсов, а не через плагин WebPilot который от третьих лиц и ему надо доверять. Очень ждём Code Interpreter вот это будет вообще разнос.
Запрещёнка анонсировала свой аналог Copilot для написания кода, а также показала свой чип MTIA v1 для ускорения DL с фокусом на рекламу.
Google: добавят в Colab возможность генерить код с помощью модели Codey, которая основана на PaLM 2. К слову выяснилось, что последняя обучалась на 3,6 трлн токенов, что в 5 раз больше, чем предыдущая модель. Посмотрим, что им это даст раз словам Сэма (OpenAI) и Эмада (Stability) гнаться за токенами нет смысла, а маленьких моделей показывающих годные результаты не мало.
Чувак с помощью социальной инженерии вытащил из GitHub Copilot системные промты.
Другой чел нашёл как с дать ChatGPT полный доступ над своей системой.
Microsoft: выкатили датасет TinyStories 2,5М со словарным запасом 5-летнего ребёнка, который написан GPT-3.5 и GPT-4 и подходит для тренировки и валидации новых LM размером до 10М параметров. Плюс опубликовали исследование на тему обмена данными между разными LLM.
Tascade: добавили генерацию с помощью GPT-4 списка задач, отслеживания его выполнения, создания майндмэпа и тд.
DreamGPT: усиливаем галлюцинации нейронок, для создания новых идей.
Dora: генерируем одностраничный сайт по текстовому промту.
Gradio: используем любую модель с Gradio по API через JavaScript.
TokenHawk: ещё один лама чат на WebGPU.