Psy Eyes

FreeU — исследователи нашли способ улучшить качество генерации диффузионных моделей с U-net архитектурой за счёт добавления всего пары строк кода без каких-либо затрат. Не нужно ни тренировки, ни ввода новых параметров, и нет увеличения во времени семплинга или ещё больше VRAM. Работает с картинками и видео.

Сайт

1.88K viewsAndrey Bezryadin, 07:30

Psy Eyes

OpenAI анонсировали DALL-E 3

Модель следует простому текстовому описанию без детального промта. Слова на картинках тоже может генерить. Будет интеграция с ChatGPT.

OpenAI будет контролировать, что люди генерируют и не давать создать арт с публичными лицами, воспроизвести стили определённых художников, или делать то, что они посчитают не безопасным.

Релиз в октябре для Plus и Enterprise пользователей.

Анонс

1.8K viewsAndrey Bezryadin, 08:29

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Rich Text-2-Image вышли в релиз и добавили поддержку SDXL. Можно менять стиль картинки привычным форматированием текста, как в Word.

Сайт
Демо
Гитхаб

1.95K viewsAndrey Bezryadin, 09:32

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Модель для генерации оптических иллюзий перевертышей. Работает пока не так хорошо как спирали, но я думаю сообщество допилит.

Попробовать
Колаб

2.06K viewsAndrey Bezryadin, 10:31

Psy Eyes

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Чуваки сделали гаусианный AR рендер для iOS устройств с Metal на борту.

Твит
Гитхаб

2.76K viewsAndrey Bezryadin, 11:32

Psy Eyes

будь бунтарём

2.04K viewsAndrey Bezryadin, 14:07

Psy Eyes

1.45K viewsAndrey Bezryadin, 15:04

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

ProPainter обзавёлся колабом. Работает без веб-интерфейса... *воет по юзверьски*

DreamGaussian: гауссианная генерация 3D-модели занимает 1 минуту против 15 с нерфами. Однако опять нет интерфейса. * выступает дуэт Вой вдвоём*

GSGEN: тоже генерация 3D через гауссианы, и тоже без интерфейса. *группа Voi — переворот стола.mp3*

Простая замена фона через SDXL.

Выкатили демо для FreeU.

Microsoft: показала инструмент CCEdit для смены стиля видео с неплохой консистентностью. Вот только нет кода, и опенсорсный Render-a-Video намного лучше по качеству.

AnimeInBet: генерация промежуточных кадров между кейфреймами в аниме. Напоминает DragNUWA, только код открыт.

CarperAI, являющийся одним из проектов StabilityAI, представили DRLX (Diffusion Reinforcement learning), библиотеку для RLHF диффузионных моделей, которая может помочь с распределённой тренировкой и масштабирование инференса.

Phygital+: добавили легкую рестилизацию SDXL, цветокор, поддержку GPT-4, и другие ништяки.

CSM: добавили генерацию 3D моделей по тексту.

Scene Dreamer: появился код модели для генерации 3D миров по 2D изображению.

Демо InstFlow для быстрой генерации через SD в 1 шаг.

Модель для генерации видео на основе аудио и текстовой подсказки.

🎸 ЗВУК 🎸

Spotify: добавили переводы подкастов на другой язык с сохранением интонации. Работает через Whisper от OpenAI. Странно, что не сообразили своё решение.

🤖 ЧАТЫ 🤖

OpenAI: завезли в ChatGPT, а также GPT-4 возможность скармливать картинки и аудио. Нейронка может давать подсказки что делать и отвечать одним из нескольких голосов на выбор. Постепенно разворачивают это среди владельцев плюсов. Ещё ChatGPT теперь может искать информацию в интернете и его данные обновились до января 2022 года.

Open Interpreter: опенсорсная вариация Code Interpreter от OpenAI, которая работает локально с 100+ LLM.

DVLab: зафайнтюнили ламу-2 13В и 70В работать с 32К контекстом. Демо туть.

Тем временем запрещёнка сама презентовала ламу 2 с 32К контекстом, которая превосходит gpt-3.5-turbo-16k на тестах. Также анонсировала AI чат-бота интегрированного в их сервисы, языковую модель AnyMAL, которая может чатиться по картинкам, видео, аудио, итд. Плюс text-2-image модель Emu, которая может помимо картинок ваять стикеры.

Microsoft: выкатили обнову Windows 11 с AI-фичами, а также интегрировали Bing в упомянутого выше чат-бота запрещёнки.

Mistral: выпустили 7B модель, которая лучше ламы 2-13В на бенчмарках, хорошо умеет в код, обладает 8К контекстом и дружелюбной коммерческой лицензией. Сможешь поиграться на своей игровой видюхе.

Hugging Face Transformers теперь имеют поддержку Flash Attention 2, что значит можно файнтюнить и запускать модели вроде Falcon и ламы в 2 раза быстрее.

QA-LoRA: новый подход к созданию лор, с фокусом на балансе между свободной и квантизацией. Можно применить парой строчек кода.

Intel: выпустили библиотеку на питоне для эффективной квантизации моделей в формат FP8 после тренировки.

BlindChat: опенсорсная альтернатива ChatGPT с фокусом на приватности — работает локально в браузере, на первом запуске качается модель LaMini-Flan-T5-783M.

JAM: фреймворк для модульной совместной работы языковых и генеративных моделей.

DeepSpeed Ulysses: метод высокоэффективного и масштабируемого обучения LLM с чрезвычайно большим контекстом.

DeepSpeed-VisualChat: обучаем 70B языковые модели мультимодальности... нет оно не связано с проектом выше.

VideoDirectorGPT: модель делает подробные описания происходящего на видео. Кода пока нет.

Зато есть проект VidChapters-7M, в котором собран датасет из 817К свободных видео и 7М подписей к ним.

SCREWS: модульный фреймворк дающий LLM возможность вернуться к своему ответу, обдумать его и отвечать лучше в последствии.

ReConcile: круглый стол для LLM, где они могут обсудить шаг за шагом работу над тасками.

CodePlan: планируем и кодим репозитории с помощью LLM. Плюс исследование на тему кибербезопасности кода.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K viewsAndrey Bezryadin, 15:04

Psy Eyes

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

За неделю сразу несколько text-2-video моделей вышли в поле зрения.

Replay от Genmo:
Может похвастаться качеством 720p в 30 к/с и высокой консистентностью картинки. Есть управление камерой и уровнем движения в кадре. Также имеются эффекты для контроля генерации масками, своего-рода как в Pika Labs (о чем в следующем посте). Негативного промта нет, так что лучше поподробнее прописать основной запрос. Вкинуть свою картинку как основу тоже нельзя. Есть инструмент Animate, но он для создания гифок и упразднён ибо вместо него Replay теперь. Зато на генерацию дают 100 fuel в день. Сколько это в крутках тяжело сказать, ибо помимо видео можно генерить картинки, гифки, текст, и 3D, а сводной таблицы или вообще упоминания стоимости генерации не видно.

LaVie
Фреймворк из text-2-video модели, инструмента для интерполирования кадров и консистентной картинки, а также апскейлера для повышения разрешения. Кода пока нет.

Show-1
Сочетает в себе пиксельную и латентную диффузионные модели для генерации видео по тексту. Пиксельная используется для создания видео с низким разрешением и сильной корреляцией между текстом и видео, а латентная увеличивает разрешение до высокого качества.

1.43K viewsAndrey Bezryadin, 16:36

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Ах да, ещё AnimateDiff обзавёлся контролем камеры.

Гитхаб
Твит

1.44K viewsAndrey Bezryadin, 16:43

Psy Eyes

0:44

This media is not supported in your browser

VIEW IN TELEGRAM

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

Pika Labs внедрили фичу "encrypt" — можно в видео зашифровать текст или изображение. Они применяются как маски и их легче заметить, когда прищуришься.

Команда /encrypt_text зашифровывает в видео текст до 20 символов. Параметры к ней:

message: текст для шифрования.
prompt: описание видео, работает с другими параметрами.
image (необязательно): картинка на которой генерация будет основываться.
font (необязательно): шрифт зашифрованного текста, доступно 5 доступных вариантов (см. видео).
-w (необязательно): вес текста, чем большее значение, тем он заметнее (диапазон: от 0 до 2, по умолчанию 1).
-size (необязательно): размер шрифта (диапазон: от 50 до 100, по умолчанию 100).

Командой /encrypt_image, можно в видео зашифровать изображение (например, портрет, логотип, и т.д.) Параметры:

message: прикладываем изображение, которое нужно зашифровать.
prompt: описание видео, работает с другими параметрами.
image (необязательно): картинка на которой генерация будет основываться.
-w (необязательно): вес вшиваемого изображения, чем большее значение, тем он заметнее (диапазон: от 0 до 2, по умолчанию 1).

2.41K viewsAndrey Bezryadin, 17:17

Пика-пика, котаны! Опробовал /encrypt_text от Pika Labs в сочетании с движениями камеры. Для фиксирования стиля использовал один и тот же сид (его видно в названии скачанной с дискорда генерации). Дальше собрал это всё в Davinci, а музыку сгенерил в Stable Audio.

message (вшиваемый текст): PSY EYES

промты для каждого движения камеры:

по часовой:

top view of a cyberpunk city at night -seed XXXX -camera rotate cw

против часовой:

top view of a cyberpunk city at night -seed XXXX -camera rotate ccw

приблизить:

top view of a cyberpunk city at night -seed XXXX -camera zoom in

отдалить:

top view of a cyberpunk city at night -seed XXXX -camera zoom out

влево:

top view of a cyberpunk city at night -seed XXXX -camera pan left

вправо:

top view of a cyberpunk city at night -seed XXXX -camera pan right

вверх:

top view of a cyberpunk city at night -seed XXXX -camera pan up

вниз:

top view of a cyberpunk city at night -seed XXXX -camera pan down

Для рекламных роликов, музыкальных видео, а скоро и футажей с дрона весьма интересная вещь.

Основные параметры в Pika Labs
Параметры для управления камерой
Параметры для вживления текста или изображения

1.74K viewsAndrey Bezryadin, edited 14:17

Psy Eyes

StabilityAI выпустили языковую модель Stable LM 3B.

Она сделана с фокусом на мобильных устройствах, где будет потреблять мало ресурсов и обойдётся дешевле в обслуживании. Её можно зафайнтюнить на своих данных, чтобы она была экспертом в указанной области.

Натренирована на 1Т (триллионе) токенов в течение 4 эпох на 256 A100 и показывается себя лучше остальных в своём классе, плюс превосходит некоторые 7B модели. Контекст 4К, весит 5,5 Гб.

А ещё на днях вышла Mistral 7B, которая лучше ламы-2 13B на бенчмарках. То есть маленьких, но мощных и оптимизированных моделей становится всё больше.

Эмад ожидает увидеть рой таких экспертов на телефоне в следующем году.

Анонс
Модель на HF
Код
Технический отчёт

4.65K viewsAndrey Bezryadin, 18:23

About

Blog

Apps

Platform