Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
FreeU — исследователи нашли способ улучшить качество генерации диффузионных моделей с U-net архитектурой за счёт добавления всего пары строк кода без каких-либо затрат. Не нужно ни тренировки, ни ввода новых параметров, и нет увеличения во времени семплинга или ещё больше VRAM. Работает с картинками и видео.

Сайт
OpenAI анонсировали DALL-E 3

Модель следует простому текстовому описанию без детального промта. Слова на картинках тоже может генерить. Будет интеграция с ChatGPT.

OpenAI будет контролировать, что люди генерируют и не давать создать арт с публичными лицами, воспроизвести стили определённых художников, или делать то, что они посчитают не безопасным.

Релиз в октябре для Plus и Enterprise пользователей.

Анонс
This media is not supported in your browser
VIEW IN TELEGRAM
Rich Text-2-Image вышли в релиз и добавили поддержку SDXL. Можно менять стиль картинки привычным форматированием текста, как в Word.

Сайт
Демо
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Модель для генерации оптических иллюзий перевертышей. Работает пока не так хорошо как спирали, но я думаю сообщество допилит.

Попробовать
Колаб
Чуваки сделали гаусианный AR рендер для iOS устройств с Metal на борту.

Твит
Гитхаб
будь бунтарём
Дайджест:

📹 ВИДЕО + АРТ 🎨

ProPainter обзавёлся колабом. Работает без веб-интерфейса... *воет по юзверьски*

DreamGaussian: гауссианная генерация 3D-модели занимает 1 минуту против 15 с нерфами. Однако опять нет интерфейса. * выступает дуэт Вой вдвоём*

GSGEN: тоже генерация 3D через гауссианы, и тоже без интерфейса. *группа Voi — переворот стола.mp3*

Простая замена фона через SDXL.

Выкатили демо для FreeU.

Microsoft: показала инструмент CCEdit для смены стиля видео с неплохой консистентностью. Вот только нет кода, и опенсорсный Render-a-Video намного лучше по качеству.

AnimeInBet: генерация промежуточных кадров между кейфреймами в аниме. Напоминает DragNUWA, только код открыт.

CarperAI, являющийся одним из проектов StabilityAI, представили DRLX (Diffusion Reinforcement learning), библиотеку для RLHF диффузионных моделей, которая может помочь с распределённой тренировкой и масштабирование инференса.

Phygital+: добавили легкую рестилизацию SDXL, цветокор, поддержку GPT-4, и другие ништяки.

CSM: добавили генерацию 3D моделей по тексту.

Scene Dreamer: появился код модели для генерации 3D миров по 2D изображению.

Демо InstFlow для быстрой генерации через SD в 1 шаг.

Модель для генерации видео на основе аудио и текстовой подсказки.

🎸 ЗВУК 🎸

Spotify: добавили переводы подкастов на другой язык с сохранением интонации. Работает через Whisper от OpenAI. Странно, что не сообразили своё решение.

🤖 ЧАТЫ 🤖

OpenAI: завезли в ChatGPT, а также GPT-4 возможность скармливать картинки и аудио. Нейронка может давать подсказки что делать и отвечать одним из нескольких голосов на выбор. Постепенно разворачивают это среди владельцев плюсов. Ещё ChatGPT теперь может искать информацию в интернете и его данные обновились до января 2022 года.

Open Interpreter: опенсорсная вариация Code Interpreter от OpenAI, которая работает локально с 100+ LLM.

DVLab: зафайнтюнили ламу-2 13В и 70В работать с 32К контекстом. Демо туть.

Тем временем запрещёнка сама презентовала ламу 2 с 32К контекстом, которая превосходит gpt-3.5-turbo-16k на тестах. Также анонсировала AI чат-бота интегрированного в их сервисы, языковую модель AnyMAL, которая может чатиться по картинкам, видео, аудио, итд. Плюс text-2-image модель Emu, которая может помимо картинок ваять стикеры.

Microsoft: выкатили обнову Windows 11 с AI-фичами, а также интегрировали Bing в упомянутого выше чат-бота запрещёнки.

Mistral: выпустили 7B модель, которая лучше ламы 2-13В на бенчмарках, хорошо умеет в код, обладает 8К контекстом и дружелюбной коммерческой лицензией. Сможешь поиграться на своей игровой видюхе.

Hugging Face Transformers теперь имеют поддержку Flash Attention 2, что значит можно файнтюнить и запускать модели вроде Falcon и ламы в 2 раза быстрее.

QA-LoRA: новый подход к созданию лор, с фокусом на балансе между свободной и квантизацией. Можно применить парой строчек кода.

Intel: выпустили библиотеку на питоне для эффективной квантизации моделей в формат FP8 после тренировки.

BlindChat: опенсорсная альтернатива ChatGPT с фокусом на приватности — работает локально в браузере, на первом запуске качается модель LaMini-Flan-T5-783M.

JAM: фреймворк для модульной совместной работы языковых и генеративных моделей.

DeepSpeed Ulysses: метод высокоэффективного и масштабируемого обучения LLM с чрезвычайно большим контекстом.

DeepSpeed-VisualChat: обучаем 70B языковые модели мультимодальности... нет оно не связано с проектом выше.

VideoDirectorGPT: модель делает подробные описания происходящего на видео. Кода пока нет.

Зато есть проект VidChapters-7M, в котором собран датасет из 817К свободных видео и 7М подписей к ним.

SCREWS: модульный фреймворк дающий LLM возможность вернуться к своему ответу, обдумать его и отвечать лучше в последствии.

ReConcile: круглый стол для LLM, где они могут обсудить шаг за шагом работу над тасками.

CodePlan: планируем и кодим репозитории с помощью LLM. Плюс исследование на тему кибербезопасности кода.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
За неделю сразу несколько text-2-video моделей вышли в поле зрения.

Replay от Genmo:
Может похвастаться качеством 720p в 30 к/с и высокой консистентностью картинки. Есть управление камерой и уровнем движения в кадре. Также имеются эффекты для контроля генерации масками, своего-рода как в Pika Labs (о чем в следующем посте). Негативного промта нет, так что лучше поподробнее прописать основной запрос. Вкинуть свою картинку как основу тоже нельзя. Есть инструмент Animate, но он для создания гифок и упразднён ибо вместо него Replay теперь. Зато на генерацию дают 100 fuel в день. Сколько это в крутках тяжело сказать, ибо помимо видео можно генерить картинки, гифки, текст, и 3D, а сводной таблицы или вообще упоминания стоимости генерации не видно.

LaVie
Фреймворк из text-2-video модели, инструмента для интерполирования кадров и консистентной картинки, а также апскейлера для повышения разрешения. Кода пока нет.

Show-1
Сочетает в себе пиксельную и латентную диффузионные модели для генерации видео по тексту. Пиксельная используется для создания видео с низким разрешением и сильной корреляцией между текстом и видео, а латентная увеличивает разрешение до высокого качества.
This media is not supported in your browser
VIEW IN TELEGRAM
Ах да, ещё AnimateDiff обзавёлся контролем камеры.

Гитхаб
Твит
Pika Labs внедрили фичу "encrypt" — можно в видео зашифровать текст или изображение. Они применяются как маски и их легче заметить, когда прищуришься.

Команда /encrypt_text зашифровывает в видео текст до 20 символов. Параметры к ней:

message: текст для шифрования.
prompt: описание видео, работает с другими параметрами.
image (необязательно): картинка на которой генерация будет основываться.
font (необязательно): шрифт зашифрованного текста, доступно 5 доступных вариантов (см. видео).
-w (необязательно): вес текста, чем большее значение, тем он заметнее (диапазон: от 0 до 2, по умолчанию 1).
-size (необязательно): размер шрифта (диапазон: от 50 до 100, по умолчанию 100).

Командой /encrypt_image, можно в видео зашифровать изображение (например, портрет, логотип, и т.д.) Параметры:

message: прикладываем изображение, которое нужно зашифровать.
prompt: описание видео, работает с другими параметрами.
image (необязательно): картинка на которой генерация будет основываться.
-w (необязательно): вес вшиваемого изображения, чем большее значение, тем он заметнее (диапазон: от 0 до 2, по умолчанию 1).
Media is too big
VIEW IN TELEGRAM
Пика-пика, котаны! Опробовал /encrypt_text от Pika Labs в сочетании с движениями камеры. Для фиксирования стиля использовал один и тот же сид (его видно в названии скачанной с дискорда генерации). Дальше собрал это всё в Davinci, а музыку сгенерил в Stable Audio.

message (вшиваемый текст): PSY EYES

промты для каждого движения камеры:

по часовой: top view of a cyberpunk city at night -seed XXXX -camera rotate cw

против часовой: top view of a cyberpunk city at night -seed XXXX -camera rotate ccw

приблизить: top view of a cyberpunk city at night -seed XXXX -camera zoom in

отдалить: top view of a cyberpunk city at night -seed XXXX -camera zoom out

влево: top view of a cyberpunk city at night -seed XXXX -camera pan left

вправо: top view of a cyberpunk city at night -seed XXXX -camera pan right

вверх: top view of a cyberpunk city at night -seed XXXX -camera pan up

вниз: top view of a cyberpunk city at night -seed XXXX -camera pan down

Для рекламных роликов, музыкальных видео, а скоро и футажей с дрона весьма интересная вещь.

Основные параметры в Pika Labs
Параметры для управления камерой
Параметры для вживления текста или изображения
StabilityAI выпустили языковую модель Stable LM 3B.

Она сделана с фокусом на мобильных устройствах, где будет потреблять мало ресурсов и обойдётся дешевле в обслуживании. Её можно зафайнтюнить на своих данных, чтобы она была экспертом в указанной области.

Натренирована на 1Т (триллионе) токенов в течение 4 эпох на 256 A100 и показывается себя лучше остальных в своём классе, плюс превосходит некоторые 7B модели. Контекст 4К, весит 5,5 Гб.

А ещё на днях вышла Mistral 7B, которая лучше ламы-2 13B на бенчмарках. То есть маленьких, но мощных и оптимизированных моделей становится всё больше.

Эмад ожидает увидеть рой таких экспертов на телефоне в следующем году.

Анонс
Модель на HF
Код
Технический отчёт