Psy Eyes
6.79K subscribers
1.45K photos
1.57K videos
6 files
1.56K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
SeViLA — нейронка, которая может распознать, что происходит на видео. Без субтитров, ChatGPT, регистрации и СМС.

1) Загружаешь видео
2) Задаёшь вопрос
3) Даёшь три варианта ответа
4) Video Frame я поставил 32 как в примерах, ибо не ясно что имеется ввиду
5) Keyframe это сколько кадров с указанным запросом надо найти

Из всего, что я тестил это первый пример, когда анализ видео сработал. Суммаризаторы на основе OpenAI требуют API и оно соответственно платное за каждый запрос. А эта вещь работает как в Gradio, так и локально можно крутить, если есть 12 ГБ видеопамяти. Початиться с видео нельзя, но на текущих скоростях, пока я это пишу, кто-то уже код такого решения заливает.

Демо
GEN2 + Wonder Dynamics + Uberduck

1) Сгенерил с помощью Runway GEN-2 базовый футаж с людьми (WD только их нормально распознаёт).

2) В Wonder Dynamics заменил людей на целевых персонажей (на 3 сек уходит полтора часа рендера)

3) В Runway убрал фон и добавил сабы

4) На основе сабов сгенерил озвучку в Uberduck

5) Вкинул в Runway и пустил на рендер.

Итоговое видео и behind the scenes прицепляю. Have fun!
Bytadance, создатели TikTok, выпустили модель, которая может разбить аудио на сотни звуковых классов. Может пригодиться, например, если проект композиции потерян, а нужно вытащить семпл/стем.

Код открыт, но то, что вместо демонстрационного видео приложен ноториально-заверенный скриншот, не внушает. Тем не менее затестим.

Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT (белыми) VS Bard (чёрными)

Реддит
Дайджест:

📹 ВИДЕО + АРТ 🎨

ControlNet + Segment Anything: модель генерирует арт на основе входного изображения с высоким соответствием.

Make-A-Protagonist: редактирование стиля видео на основе текстового промта и реф изображения.

Mayavee: изменение стиля видео по подходу похожее на Ebsynth, только через веб-интерфейс и с превью.

ULIP-2: улучшаем генерацию и классификацию 3D, используя на входе три модальности — тест, изображение, и облако точек.

AutoRecon: автономная генерация 3D объектов (с удалением фона) по фото с разных сторон. Пока без кода.

🎸 ЗВУК 🎸

Google: тизерят модель SoundStorm для генерации звука и диалогов с высоким качеством.

🤖 ЧАТЫ 🤖

Guidance: библиотека, дающая больше контроля при использовании промта с чат-ботами.

SaleForce: официальный релиз модели CodeT5+ для генерации кода (code-2-code не в режиме чата). Есть веса от 220М до 16B.
Выглядит отлично!

А, в целом, нас ждёт тренд на сюжеты, где люди воюют с AI.

https://www.youtube.com/watch?v=573GCxqkYEg&ab_channel=20thCenturyStudios
Завтра выступаю на Positive Hack Days. Это форум, объединяющий этичных хакеров со всего мира, на котором, помимо кибербезопасности, в этом году, будут обсуждать AI, web3 и метавселенные.

Можно будет послушать о хаках ChatGPT с помощью социальной инженерии, квантово-устойчивых блокчейнах, анонимности случайных Telegram-номеров, и про другие ништяки. Даже соревнование по взлому городской инфраструктуры будет.

В прошлом году совокупно было 140 тыс. человек онлайн и оффлайн.

Я выступаю на сцене "Доверие к технологиям" в 18:30 — 19:00. Будете проходить мимо Парка Горького — залетайте, на мою панельку вход свободный. Захотите пересечься, пишите в личку.

Онлайн трансляция будет тут:
https://phdays.com/
Вчера закончился Positive Hack Days. Побывать на соревновании настоящих хакеров уже крутой опыт, да ещё и сама сцена Standoff где атакующие и защищающие сталкиваются в борьбе за инфраструктуру виртуального города F сделана впечатляюще! Помимо этого очень много интересной информации, а также мини-игр, которые могут помочь широкой аудитории понять основы кибербезопасности.

Сделал для вас подборочку трансляций:

1) Моё выступление: музыка в эпоху нейронок и Web3

2) Устройство больших языковых моделей

3) Prompt Injection: вытаскиваем максимум из AI-сервиса

4) 20 нестандартных применений ChatGPT в кибербезе

5) ChatGPT на темной и светлой стороне

6) Применение AI для обезличивания чувствительных данных

7) От ручного ML к автоматизации с помощью Python-библиотек

8) Использование Python для управления знаниями: инструменты, подходы, примеры

9) Мир на грани WEB3

10 Квантово-устойчивый блокчейн

11) Популярные нетривиальные уязвимости в смарт-контрактах Ethereum: обзор и устранение, 2022 год

P.S. Я недавно делал пост о языковых моделях, которые умеют генерить код. Возможно мы с Артёмом с 4-й презентации сделаем обзор на них
Дайджест пока я гонял на PHD фест:

📹 ВИДЕО + АРТ 🎨

Stability AI: выпустили DreamStudio в опенсорс под названием StableStudio. Будет поддержка ControlNet, локального инференса через A1111 или WebGPU, расширение через плагины, и другие ништяки. Позже туда подъедет чат. Я поставил потестил, пока это DS один-в-один. Тем более нужен API ключ Stability для работы, который можно взять в акке DS. Когда подъедет возможность использовать локальные мощности, или через плагин подцепить Stable Horde и другие ништяки, тогда будет о чем поговорить.

DragGAN: меняем композицию на фото, указывая мышкой точки как должно меняться движение объекта в кадре. Выглядит довольно интересно.

Phygital+: добавили DeepFloyd для генерации картинки с текстом, добавили Segment Anything (SAM) для аккуратного выделения объектов.

CoDi: модель, способная генерировать контент на связке модальностей текста, арта, видео и музыки. Пока без кода.

Nvidia: представили text-2-video модель PYoCo, которая является файнтюном eDiff-I, но с новым приором шума к видео. Похоже оно даже умеет в текст на видео а-ля DeepFloyd, но всё в стиле зелёных без кода.

Casablanca: нейронка на видеосозвонах автоматом направляет вашу голову и взгляд в камеру.

BlockadeLabs: добавили ControlNet в свой генератор 360-панорам. Глубину неплохо передаёт. На схожую тему вышла бумага LDM3D про генерацию 3D диффуизей.

Mesh Diffusion: генерация 3D преставлений не из вокселей или облака точек, а меша.

Upscayl: ещё один софт для апскейла фото, можно запустить локально.

Instruct pix2pix, который изначально использовался в A1111, устарел и вместо него лучше использовать контролнетовский pix2pix, который позволяет работать с хайрезом.

FastComposer: генерация изображений из текста или реф картинки без тонкой настройки.

🎸 ЗВУК 🎸

GETMusic: генерация музыки и нот любой длительности, в том числе и по рефу. Работают вместе две модели: GETScore генерирует ноты, а GETDiff генерирует музыку. Можно зафайнтюнить на любимой музыке. Похоже входит в набор инструментов Music от Microsoft.

Ecoute: транскрипция сказанного интервьюером и спикером в реальном времени в раздельные текстовые поля. Под капотом GPT-3.5 + маленькая версия Whisper для text2speech. Нужен API ключ OpenAI.

FunASR: тоже опенсорс инструмент для распознавания речи, но работает для конференций с большим количеством участников.

🤖 ЧАТЫ 🤖

OpenAI: ChatGPT вышел на iOS (Android позже подъедет) с поддержкой Whisper для перевода голоса в текст. Пока только для акков из США. Также накатили дефолтный WebBrowsing для владельцев плюсов, а не через плагин WebPilot который от третьих лиц и ему надо доверять. Очень ждём Code Interpreter вот это будет вообще разнос.

Запрещёнка анонсировала свой аналог Copilot для написания кода, а также показала свой чип MTIA v1 для ускорения DL с фокусом на рекламу.

Google: добавят в Colab возможность генерить код с помощью модели Codey, которая основана на PaLM 2. К слову выяснилось, что последняя обучалась на 3,6 трлн токенов, что в 5 раз больше, чем предыдущая модель. Посмотрим, что им это даст раз словам Сэма (OpenAI) и Эмада (Stability) гнаться за токенами нет смысла, а маленьких моделей показывающих годные результаты не мало.

Чувак с помощью социальной инженерии вытащил из GitHub Copilot системные промты.

Другой чел нашёл как с дать ChatGPT полный доступ над своей системой.

Microsoft: выкатили датасет TinyStories 2,5М со словарным запасом 5-летнего ребёнка, который написан GPT-3.5 и GPT-4 и подходит для тренировки и валидации новых LM размером до 10М параметров. Плюс опубликовали исследование на тему обмена данными между разными LLM.

Tascade: добавили генерацию с помощью GPT-4 списка задач, отслеживания его выполнения, создания майндмэпа и тд.

DreamGPT: усиливаем галлюцинации нейронок, для создания новых идей.

Dora: генерируем одностраничный сайт по текстовому промту.

Gradio: используем любую модель с Gradio по API через JavaScript.

TokenHawk: ещё один лама чат на WebGPU.
Какие-то святые люди прикрутили Claude с его 100к контекстным окном для возможности суммаризации бумаг с Arxiv и дальнейшего чата. Я пару месяцев назад выл и страстно желал эту фичу и вот она.

Просто в Paper ID вбиваете номер бумаги (его видно и в открытом pdf), жмёте Load Paper, а дальше вперед с вопросами.

И....похоже оно умеет ваять код на основе ресерч бумаги. GPT-4 не смог просканить гитхаб, чтобы сравнить сгенерённый код тому, что в репозитории, а вот Stable Vicuna смогла. Ожидаемо говорит он поверхностный и напрямую не связан с бумагой, тем не менее он рабочий.

Штош, ждём заточенную arxiv-2-code модель.

https://huggingface.co/spaces/taesiri/ClaudeReadsArxiv
Дайджест:

📹 ВИДЕО + АРТ 🎨

Epic Games: запустили серию гайдов по виртуальному продакшему. Будет полезно интересующимся видео, анимацией и геймдевом.

MaskFreeVIS: сегментация видео на основе SAM без масок у объектов, вместо них используются ограничивающие силуэты (bounding boxes). Говорят этот подход легко применить, не нужна тренировка и большие вычислительные мощности.

Diff-Pruning: новый эффективный метод прунинга (уменьшения сложности модели и удаления избыточных параметров / связей) для диффузионных моделей.

LLM-Pruner: модель прунинга для больших языковых моделей.

SeeTRUE: датасет и бенчмарк для text-2-image и image-2-text моделей, которые могут помочь улучшить результаты генераций.

🤖 ЧАТЫ 🤖

RecurrentGPT: генерация длинных текстов, например новелл, с возможностью организации интерактивного повествования для читателя. Демо

LIMA: файнтюн ламы 65B, обученный на 1к токенов без RLHF, и который показывает 43% ответов как GPT-4, 58% как Bard и 65% как DaVinci003.

Intel: анонсировали суперкомпьютеры Aurora с фокусом на AI, плюс генеративную модель genAI с 1Т (триллионом) параметров.

Выжимку архивных бумаг можете делать этой тулзой.
This media is not supported in your browser
VIEW IN TELEGRAM
Massively Multilingual Speech (ММS) — модели для распознавания и генерирования речи, поддерживающие более 1100 языков.

Это стало возможным благодаря использованию метода самообучения wav2vec 2.0 и нового датасета, представляющего собой подписанные данные с 1100 языков, плюс неразмеченные данные с почти 4000 языков. Некоторые из них, такие как язык татуё, имеют всего несколько сотен носителей, и для большинства случаев ранее не существовало технологии распознавания речи​.

Для сбора датасета использовались религиозные тексты, в частности Библия, которая переведена на множество языков. Чтение Нового Завета на 1100+ языках дало 32 часа данных​.

Проект MMS показал, что его модели превосходят существующие и покрывают в 10 раз больше языков, плюс делают в половину меньше ошибок, чем OpenAI Whisper​.

P.S. Вы сколько языков знаете? Я русский, английский, и кошачий.

https://ai.facebook.com/blog/multilingual-model-speech-recognition/