Psy Eyes
6.79K subscribers
1.45K photos
1.57K videos
6 files
1.56K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
GEN2 + Wonder Dynamics + Uberduck

1) Сгенерил с помощью Runway GEN-2 базовый футаж с людьми (WD только их нормально распознаёт).

2) В Wonder Dynamics заменил людей на целевых персонажей (на 3 сек уходит полтора часа рендера)

3) В Runway убрал фон и добавил сабы

4) На основе сабов сгенерил озвучку в Uberduck

5) Вкинул в Runway и пустил на рендер.

Итоговое видео и behind the scenes прицепляю. Have fun!
Bytadance, создатели TikTok, выпустили модель, которая может разбить аудио на сотни звуковых классов. Может пригодиться, например, если проект композиции потерян, а нужно вытащить семпл/стем.

Код открыт, но то, что вместо демонстрационного видео приложен ноториально-заверенный скриншот, не внушает. Тем не менее затестим.

Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT (белыми) VS Bard (чёрными)

Реддит
Дайджест:

📹 ВИДЕО + АРТ 🎨

ControlNet + Segment Anything: модель генерирует арт на основе входного изображения с высоким соответствием.

Make-A-Protagonist: редактирование стиля видео на основе текстового промта и реф изображения.

Mayavee: изменение стиля видео по подходу похожее на Ebsynth, только через веб-интерфейс и с превью.

ULIP-2: улучшаем генерацию и классификацию 3D, используя на входе три модальности — тест, изображение, и облако точек.

AutoRecon: автономная генерация 3D объектов (с удалением фона) по фото с разных сторон. Пока без кода.

🎸 ЗВУК 🎸

Google: тизерят модель SoundStorm для генерации звука и диалогов с высоким качеством.

🤖 ЧАТЫ 🤖

Guidance: библиотека, дающая больше контроля при использовании промта с чат-ботами.

SaleForce: официальный релиз модели CodeT5+ для генерации кода (code-2-code не в режиме чата). Есть веса от 220М до 16B.
Выглядит отлично!

А, в целом, нас ждёт тренд на сюжеты, где люди воюют с AI.

https://www.youtube.com/watch?v=573GCxqkYEg&ab_channel=20thCenturyStudios
Завтра выступаю на Positive Hack Days. Это форум, объединяющий этичных хакеров со всего мира, на котором, помимо кибербезопасности, в этом году, будут обсуждать AI, web3 и метавселенные.

Можно будет послушать о хаках ChatGPT с помощью социальной инженерии, квантово-устойчивых блокчейнах, анонимности случайных Telegram-номеров, и про другие ништяки. Даже соревнование по взлому городской инфраструктуры будет.

В прошлом году совокупно было 140 тыс. человек онлайн и оффлайн.

Я выступаю на сцене "Доверие к технологиям" в 18:30 — 19:00. Будете проходить мимо Парка Горького — залетайте, на мою панельку вход свободный. Захотите пересечься, пишите в личку.

Онлайн трансляция будет тут:
https://phdays.com/
Вчера закончился Positive Hack Days. Побывать на соревновании настоящих хакеров уже крутой опыт, да ещё и сама сцена Standoff где атакующие и защищающие сталкиваются в борьбе за инфраструктуру виртуального города F сделана впечатляюще! Помимо этого очень много интересной информации, а также мини-игр, которые могут помочь широкой аудитории понять основы кибербезопасности.

Сделал для вас подборочку трансляций:

1) Моё выступление: музыка в эпоху нейронок и Web3

2) Устройство больших языковых моделей

3) Prompt Injection: вытаскиваем максимум из AI-сервиса

4) 20 нестандартных применений ChatGPT в кибербезе

5) ChatGPT на темной и светлой стороне

6) Применение AI для обезличивания чувствительных данных

7) От ручного ML к автоматизации с помощью Python-библиотек

8) Использование Python для управления знаниями: инструменты, подходы, примеры

9) Мир на грани WEB3

10 Квантово-устойчивый блокчейн

11) Популярные нетривиальные уязвимости в смарт-контрактах Ethereum: обзор и устранение, 2022 год

P.S. Я недавно делал пост о языковых моделях, которые умеют генерить код. Возможно мы с Артёмом с 4-й презентации сделаем обзор на них
Дайджест пока я гонял на PHD фест:

📹 ВИДЕО + АРТ 🎨

Stability AI: выпустили DreamStudio в опенсорс под названием StableStudio. Будет поддержка ControlNet, локального инференса через A1111 или WebGPU, расширение через плагины, и другие ништяки. Позже туда подъедет чат. Я поставил потестил, пока это DS один-в-один. Тем более нужен API ключ Stability для работы, который можно взять в акке DS. Когда подъедет возможность использовать локальные мощности, или через плагин подцепить Stable Horde и другие ништяки, тогда будет о чем поговорить.

DragGAN: меняем композицию на фото, указывая мышкой точки как должно меняться движение объекта в кадре. Выглядит довольно интересно.

Phygital+: добавили DeepFloyd для генерации картинки с текстом, добавили Segment Anything (SAM) для аккуратного выделения объектов.

CoDi: модель, способная генерировать контент на связке модальностей текста, арта, видео и музыки. Пока без кода.

Nvidia: представили text-2-video модель PYoCo, которая является файнтюном eDiff-I, но с новым приором шума к видео. Похоже оно даже умеет в текст на видео а-ля DeepFloyd, но всё в стиле зелёных без кода.

Casablanca: нейронка на видеосозвонах автоматом направляет вашу голову и взгляд в камеру.

BlockadeLabs: добавили ControlNet в свой генератор 360-панорам. Глубину неплохо передаёт. На схожую тему вышла бумага LDM3D про генерацию 3D диффуизей.

Mesh Diffusion: генерация 3D преставлений не из вокселей или облака точек, а меша.

Upscayl: ещё один софт для апскейла фото, можно запустить локально.

Instruct pix2pix, который изначально использовался в A1111, устарел и вместо него лучше использовать контролнетовский pix2pix, который позволяет работать с хайрезом.

FastComposer: генерация изображений из текста или реф картинки без тонкой настройки.

🎸 ЗВУК 🎸

GETMusic: генерация музыки и нот любой длительности, в том числе и по рефу. Работают вместе две модели: GETScore генерирует ноты, а GETDiff генерирует музыку. Можно зафайнтюнить на любимой музыке. Похоже входит в набор инструментов Music от Microsoft.

Ecoute: транскрипция сказанного интервьюером и спикером в реальном времени в раздельные текстовые поля. Под капотом GPT-3.5 + маленькая версия Whisper для text2speech. Нужен API ключ OpenAI.

FunASR: тоже опенсорс инструмент для распознавания речи, но работает для конференций с большим количеством участников.

🤖 ЧАТЫ 🤖

OpenAI: ChatGPT вышел на iOS (Android позже подъедет) с поддержкой Whisper для перевода голоса в текст. Пока только для акков из США. Также накатили дефолтный WebBrowsing для владельцев плюсов, а не через плагин WebPilot который от третьих лиц и ему надо доверять. Очень ждём Code Interpreter вот это будет вообще разнос.

Запрещёнка анонсировала свой аналог Copilot для написания кода, а также показала свой чип MTIA v1 для ускорения DL с фокусом на рекламу.

Google: добавят в Colab возможность генерить код с помощью модели Codey, которая основана на PaLM 2. К слову выяснилось, что последняя обучалась на 3,6 трлн токенов, что в 5 раз больше, чем предыдущая модель. Посмотрим, что им это даст раз словам Сэма (OpenAI) и Эмада (Stability) гнаться за токенами нет смысла, а маленьких моделей показывающих годные результаты не мало.

Чувак с помощью социальной инженерии вытащил из GitHub Copilot системные промты.

Другой чел нашёл как с дать ChatGPT полный доступ над своей системой.

Microsoft: выкатили датасет TinyStories 2,5М со словарным запасом 5-летнего ребёнка, который написан GPT-3.5 и GPT-4 и подходит для тренировки и валидации новых LM размером до 10М параметров. Плюс опубликовали исследование на тему обмена данными между разными LLM.

Tascade: добавили генерацию с помощью GPT-4 списка задач, отслеживания его выполнения, создания майндмэпа и тд.

DreamGPT: усиливаем галлюцинации нейронок, для создания новых идей.

Dora: генерируем одностраничный сайт по текстовому промту.

Gradio: используем любую модель с Gradio по API через JavaScript.

TokenHawk: ещё один лама чат на WebGPU.
Какие-то святые люди прикрутили Claude с его 100к контекстным окном для возможности суммаризации бумаг с Arxiv и дальнейшего чата. Я пару месяцев назад выл и страстно желал эту фичу и вот она.

Просто в Paper ID вбиваете номер бумаги (его видно и в открытом pdf), жмёте Load Paper, а дальше вперед с вопросами.

И....похоже оно умеет ваять код на основе ресерч бумаги. GPT-4 не смог просканить гитхаб, чтобы сравнить сгенерённый код тому, что в репозитории, а вот Stable Vicuna смогла. Ожидаемо говорит он поверхностный и напрямую не связан с бумагой, тем не менее он рабочий.

Штош, ждём заточенную arxiv-2-code модель.

https://huggingface.co/spaces/taesiri/ClaudeReadsArxiv
Дайджест:

📹 ВИДЕО + АРТ 🎨

Epic Games: запустили серию гайдов по виртуальному продакшему. Будет полезно интересующимся видео, анимацией и геймдевом.

MaskFreeVIS: сегментация видео на основе SAM без масок у объектов, вместо них используются ограничивающие силуэты (bounding boxes). Говорят этот подход легко применить, не нужна тренировка и большие вычислительные мощности.

Diff-Pruning: новый эффективный метод прунинга (уменьшения сложности модели и удаления избыточных параметров / связей) для диффузионных моделей.

LLM-Pruner: модель прунинга для больших языковых моделей.

SeeTRUE: датасет и бенчмарк для text-2-image и image-2-text моделей, которые могут помочь улучшить результаты генераций.

🤖 ЧАТЫ 🤖

RecurrentGPT: генерация длинных текстов, например новелл, с возможностью организации интерактивного повествования для читателя. Демо

LIMA: файнтюн ламы 65B, обученный на 1к токенов без RLHF, и который показывает 43% ответов как GPT-4, 58% как Bard и 65% как DaVinci003.

Intel: анонсировали суперкомпьютеры Aurora с фокусом на AI, плюс генеративную модель genAI с 1Т (триллионом) параметров.

Выжимку архивных бумаг можете делать этой тулзой.
This media is not supported in your browser
VIEW IN TELEGRAM
Massively Multilingual Speech (ММS) — модели для распознавания и генерирования речи, поддерживающие более 1100 языков.

Это стало возможным благодаря использованию метода самообучения wav2vec 2.0 и нового датасета, представляющего собой подписанные данные с 1100 языков, плюс неразмеченные данные с почти 4000 языков. Некоторые из них, такие как язык татуё, имеют всего несколько сотен носителей, и для большинства случаев ранее не существовало технологии распознавания речи​.

Для сбора датасета использовались религиозные тексты, в частности Библия, которая переведена на множество языков. Чтение Нового Завета на 1100+ языках дало 32 часа данных​.

Проект MMS показал, что его модели превосходят существующие и покрывают в 10 раз больше языков, плюс делают в половину меньше ошибок, чем OpenAI Whisper​.

P.S. Вы сколько языков знаете? Я русский, английский, и кошачий.

https://ai.facebook.com/blog/multilingual-model-speech-recognition/
Adobe интегрировали в последнюю версию Photoshop возможность генерить text-2-image через свой сервис Firefly. Фича находится в бета стадии и называется Generative Fill.

Схема знакомая: выделяете место в котором надо что-то сгенерить, вбиваете промт, оно генерит на выбор 3 варианта искомого. Если не вбивать промт, нейронка попробует сама угадать контекст (например, может пригодиться на аутпейтинге). Для каждой генерации создаётся новый слой, что удобно.

Из любопытного: нейронка хорошо понимает, где нужны тени и отражения, что заметно на видео. Также весьма неплохо работает с текстурой — обратите внимание на солевые кромки озера. Да, освещение и масштаб сгенерённых объектов не идеальные, но это уже существенное ускорение рабочих процессов. И... вы же топите за то, чтобы вас не заменили, так?

Чтобы опробовать фичу нужно установить Creative Cloud и залогиниться в нём (может у вас даже поставилось автоматом с фотошопом). Затем, в разделе Beta-apps установить Photoshop (Beta) с версией 24.6 . Если после установки Generative Fill не будет как на видео, зайдите в раздел Обновления и накатите апдейт на установленную бету (я хз почему сразу не устанавливается самая пропатченная версия). Продукты из бета-категории ставятся параллельно в свои папки и никак не повредят вашим уже существующим пиратским установкам. Но без интернета Generative Fill не работает. У вас будет 7 дней на тест в триальном режиме. Альтернативно, если у вас есть доступ к веб-интерфейсу Firefly вы можете попробовать фичу там.

Причём в этом разделе на самом деле вагон приложений с приставкой Beta, что намекает на экспансию генеративных фич во все продукты Adobe. Хорошо подготовились!

Добавил за секунду компанию своему котану, сгенерённому на DeepFloyd IF.
Дайджест:

💻 Анонсы с конференции Microsoft Build: 💻

* В Windows 11 будет добавлен AI-ассистент Copilot на основе чата Bing. Через него можно будет решать широкий спектр задач: от смены темы винды, до взаимодействия с командой. Работает с документами для их суммаризации и перефразирования. Может запускать приложения и искать контент, например плейлист в Spotify с определённым настроением.

* Поддержка сторонних плагинов для Bing и ChatGPT. Также обновится Microsoft Store, где появится хаб для проектов с нейронками. Теги к ним и суммаризацию обзоров будет генерить AI

* Наличие GitHub Copilot X, который в отличие от обычного Copilot умеет писать код по текстовому запросу.

* Через ONNXMLTools можно сконвертировать AI-модель в аппаратно-независимый формат .onxm, а через Olive оптимизировать его для ускорения работы на целевом железе

Релиз новых фич для Windows 11 в июне

📹 ВИДЕО + АРТ 🎨

Nvidia выпустили драйвер 532.03, который в купе с DirectML и Olive показывает почти 2х (по версии Microsoft 6х) прирост производительности при генерации в SD 1.5 оптимизированной через Olive. Поддержка DirectML заявлена и в AMD, которые теперь получат оптимизацию SD на RX 7900 и Ryzen 7040, когда испекут драйвера

Video-ControlNet: генерация видео с ControlNet на борту, через карты глубины и краёв. Кода пока нет

Blizzard Diffusion: разработчик игр Activision Blizzard выпустит модель для генерации концепт-артов и косметиков для игровых предметов. Занятно, что недавно регуляторы разрешили Microsoft купить эту компанию

🎸 ЗВУК 🎸

AudioToken: генерация звука к видео или изображению на входе

EfficientSpeech: небольшая модель для генерирования голоса по тексту. Влезает даже на Raspberry Pi 4

🤖 ЧАТЫ 🤖

Andrej Karpathy: Как натренировать свою языковую модель с нуля

Goat: файнтюн ламы, который умеет в арифметику лучше GPT-4... По крайне мере без плагина Wolfram

Бумага с описанием фреймворка для приведения LLM в соответствие намерениям человека (alignment) через синтетический фидбэк (RLHF), минимизируя участие человека