Psy Eyes
6.79K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Stability AI выпустили бету SDXL в дискорде для всех.

Чтобы генерить:
1) зайди в канал #bot с любым номером
2) вбей /dream promt: и дальше промт

Что значат кнопки:
🅰️Vote A: изображение слева лучше
🅱️Vote B: изображение справа лучше

✉️DM A и ✉️DM B: отправляем левое или правое изображение себе в личку (она же у тебя включена?)

🔁reDo: генерим другой варик по тому же промту

🎨reStyle: генерим полученные картинки в другом или случайном стиле: аниме, фотография, комикс, фэнтези

🖼reSize: генерим по тому же промту картинку случайного размера.

https://discord.gg/stablediffusion
SeViLA — нейронка, которая может распознать, что происходит на видео. Без субтитров, ChatGPT, регистрации и СМС.

1) Загружаешь видео
2) Задаёшь вопрос
3) Даёшь три варианта ответа
4) Video Frame я поставил 32 как в примерах, ибо не ясно что имеется ввиду
5) Keyframe это сколько кадров с указанным запросом надо найти

Из всего, что я тестил это первый пример, когда анализ видео сработал. Суммаризаторы на основе OpenAI требуют API и оно соответственно платное за каждый запрос. А эта вещь работает как в Gradio, так и локально можно крутить, если есть 12 ГБ видеопамяти. Початиться с видео нельзя, но на текущих скоростях, пока я это пишу, кто-то уже код такого решения заливает.

Демо
GEN2 + Wonder Dynamics + Uberduck

1) Сгенерил с помощью Runway GEN-2 базовый футаж с людьми (WD только их нормально распознаёт).

2) В Wonder Dynamics заменил людей на целевых персонажей (на 3 сек уходит полтора часа рендера)

3) В Runway убрал фон и добавил сабы

4) На основе сабов сгенерил озвучку в Uberduck

5) Вкинул в Runway и пустил на рендер.

Итоговое видео и behind the scenes прицепляю. Have fun!
Bytadance, создатели TikTok, выпустили модель, которая может разбить аудио на сотни звуковых классов. Может пригодиться, например, если проект композиции потерян, а нужно вытащить семпл/стем.

Код открыт, но то, что вместо демонстрационного видео приложен ноториально-заверенный скриншот, не внушает. Тем не менее затестим.

Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT (белыми) VS Bard (чёрными)

Реддит
Дайджест:

📹 ВИДЕО + АРТ 🎨

ControlNet + Segment Anything: модель генерирует арт на основе входного изображения с высоким соответствием.

Make-A-Protagonist: редактирование стиля видео на основе текстового промта и реф изображения.

Mayavee: изменение стиля видео по подходу похожее на Ebsynth, только через веб-интерфейс и с превью.

ULIP-2: улучшаем генерацию и классификацию 3D, используя на входе три модальности — тест, изображение, и облако точек.

AutoRecon: автономная генерация 3D объектов (с удалением фона) по фото с разных сторон. Пока без кода.

🎸 ЗВУК 🎸

Google: тизерят модель SoundStorm для генерации звука и диалогов с высоким качеством.

🤖 ЧАТЫ 🤖

Guidance: библиотека, дающая больше контроля при использовании промта с чат-ботами.

SaleForce: официальный релиз модели CodeT5+ для генерации кода (code-2-code не в режиме чата). Есть веса от 220М до 16B.
Выглядит отлично!

А, в целом, нас ждёт тренд на сюжеты, где люди воюют с AI.

https://www.youtube.com/watch?v=573GCxqkYEg&ab_channel=20thCenturyStudios
Завтра выступаю на Positive Hack Days. Это форум, объединяющий этичных хакеров со всего мира, на котором, помимо кибербезопасности, в этом году, будут обсуждать AI, web3 и метавселенные.

Можно будет послушать о хаках ChatGPT с помощью социальной инженерии, квантово-устойчивых блокчейнах, анонимности случайных Telegram-номеров, и про другие ништяки. Даже соревнование по взлому городской инфраструктуры будет.

В прошлом году совокупно было 140 тыс. человек онлайн и оффлайн.

Я выступаю на сцене "Доверие к технологиям" в 18:30 — 19:00. Будете проходить мимо Парка Горького — залетайте, на мою панельку вход свободный. Захотите пересечься, пишите в личку.

Онлайн трансляция будет тут:
https://phdays.com/
Вчера закончился Positive Hack Days. Побывать на соревновании настоящих хакеров уже крутой опыт, да ещё и сама сцена Standoff где атакующие и защищающие сталкиваются в борьбе за инфраструктуру виртуального города F сделана впечатляюще! Помимо этого очень много интересной информации, а также мини-игр, которые могут помочь широкой аудитории понять основы кибербезопасности.

Сделал для вас подборочку трансляций:

1) Моё выступление: музыка в эпоху нейронок и Web3

2) Устройство больших языковых моделей

3) Prompt Injection: вытаскиваем максимум из AI-сервиса

4) 20 нестандартных применений ChatGPT в кибербезе

5) ChatGPT на темной и светлой стороне

6) Применение AI для обезличивания чувствительных данных

7) От ручного ML к автоматизации с помощью Python-библиотек

8) Использование Python для управления знаниями: инструменты, подходы, примеры

9) Мир на грани WEB3

10 Квантово-устойчивый блокчейн

11) Популярные нетривиальные уязвимости в смарт-контрактах Ethereum: обзор и устранение, 2022 год

P.S. Я недавно делал пост о языковых моделях, которые умеют генерить код. Возможно мы с Артёмом с 4-й презентации сделаем обзор на них
Дайджест пока я гонял на PHD фест:

📹 ВИДЕО + АРТ 🎨

Stability AI: выпустили DreamStudio в опенсорс под названием StableStudio. Будет поддержка ControlNet, локального инференса через A1111 или WebGPU, расширение через плагины, и другие ништяки. Позже туда подъедет чат. Я поставил потестил, пока это DS один-в-один. Тем более нужен API ключ Stability для работы, который можно взять в акке DS. Когда подъедет возможность использовать локальные мощности, или через плагин подцепить Stable Horde и другие ништяки, тогда будет о чем поговорить.

DragGAN: меняем композицию на фото, указывая мышкой точки как должно меняться движение объекта в кадре. Выглядит довольно интересно.

Phygital+: добавили DeepFloyd для генерации картинки с текстом, добавили Segment Anything (SAM) для аккуратного выделения объектов.

CoDi: модель, способная генерировать контент на связке модальностей текста, арта, видео и музыки. Пока без кода.

Nvidia: представили text-2-video модель PYoCo, которая является файнтюном eDiff-I, но с новым приором шума к видео. Похоже оно даже умеет в текст на видео а-ля DeepFloyd, но всё в стиле зелёных без кода.

Casablanca: нейронка на видеосозвонах автоматом направляет вашу голову и взгляд в камеру.

BlockadeLabs: добавили ControlNet в свой генератор 360-панорам. Глубину неплохо передаёт. На схожую тему вышла бумага LDM3D про генерацию 3D диффуизей.

Mesh Diffusion: генерация 3D преставлений не из вокселей или облака точек, а меша.

Upscayl: ещё один софт для апскейла фото, можно запустить локально.

Instruct pix2pix, который изначально использовался в A1111, устарел и вместо него лучше использовать контролнетовский pix2pix, который позволяет работать с хайрезом.

FastComposer: генерация изображений из текста или реф картинки без тонкой настройки.

🎸 ЗВУК 🎸

GETMusic: генерация музыки и нот любой длительности, в том числе и по рефу. Работают вместе две модели: GETScore генерирует ноты, а GETDiff генерирует музыку. Можно зафайнтюнить на любимой музыке. Похоже входит в набор инструментов Music от Microsoft.

Ecoute: транскрипция сказанного интервьюером и спикером в реальном времени в раздельные текстовые поля. Под капотом GPT-3.5 + маленькая версия Whisper для text2speech. Нужен API ключ OpenAI.

FunASR: тоже опенсорс инструмент для распознавания речи, но работает для конференций с большим количеством участников.

🤖 ЧАТЫ 🤖

OpenAI: ChatGPT вышел на iOS (Android позже подъедет) с поддержкой Whisper для перевода голоса в текст. Пока только для акков из США. Также накатили дефолтный WebBrowsing для владельцев плюсов, а не через плагин WebPilot который от третьих лиц и ему надо доверять. Очень ждём Code Interpreter вот это будет вообще разнос.

Запрещёнка анонсировала свой аналог Copilot для написания кода, а также показала свой чип MTIA v1 для ускорения DL с фокусом на рекламу.

Google: добавят в Colab возможность генерить код с помощью модели Codey, которая основана на PaLM 2. К слову выяснилось, что последняя обучалась на 3,6 трлн токенов, что в 5 раз больше, чем предыдущая модель. Посмотрим, что им это даст раз словам Сэма (OpenAI) и Эмада (Stability) гнаться за токенами нет смысла, а маленьких моделей показывающих годные результаты не мало.

Чувак с помощью социальной инженерии вытащил из GitHub Copilot системные промты.

Другой чел нашёл как с дать ChatGPT полный доступ над своей системой.

Microsoft: выкатили датасет TinyStories 2,5М со словарным запасом 5-летнего ребёнка, который написан GPT-3.5 и GPT-4 и подходит для тренировки и валидации новых LM размером до 10М параметров. Плюс опубликовали исследование на тему обмена данными между разными LLM.

Tascade: добавили генерацию с помощью GPT-4 списка задач, отслеживания его выполнения, создания майндмэпа и тд.

DreamGPT: усиливаем галлюцинации нейронок, для создания новых идей.

Dora: генерируем одностраничный сайт по текстовому промту.

Gradio: используем любую модель с Gradio по API через JavaScript.

TokenHawk: ещё один лама чат на WebGPU.