Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
На почту начали прилетать доступы в Pika 1.0

Параметры для генерации перекочевали в крутилки на сайте, что сделало работу с видео ловчей и приблизило по ощущениям к Runway.

Что есть из настроек:
* Upscale: повышение разрешения с 1280х720 до 1920х1080. Причём, можно выйти за рамки - я вкинул картинку 1152х896 и после генерации заапскейлил до 2160х1728.
* Add 4s: продлеваем видео на 4 сек. Можно использовать не один раз.
* Retry: повторная генерация по тому же промту. Видосы при этом группируются в карусель, чтобы они были в одном месте.
* Repromt: использовать промт из уже имеющегося видео, не важно своего или чужого.
* Edit: выделение объектов и их замена в кадре.
* Expand canvas: меняем формат кадра (16:9, 1:1, итд) и расширяем границы.
* Image or video: генерация на основе картинки или видео.
* Video options: указываем количество кадров в секунду (fps), что может пригодиться для анимации.
* Camera control: задаём движения камеры и уровень подвижности в картинке.
* Parameters: контролируем кадр через негативные промты, сид, и ползунок консистентности.

На тестах редактирование объектов в кадре ожидаемо не такое ловкое как в промо видео, но посмотрим как будет развиваться.

Возможность зашифровывать текст или картинку в видео пока не завезли, она осталась в дискорде. Кстати в него обновлённая Pika тоже должна прийти, поэтому держим при себе:

Основные параметры в Pika Labs
Параметры для управления камерой
Параметры для зашифровывания текста или изображения

Пока что генерации бесплатные. Не щелкаем!
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney выпустили альфа-версию своего сайта. Доступно для тех, кто нагенерил 10 тыс картинок и более. Вместо параметров и ссылок теперь удобные крутилки и кнопки, которые ускоряют работу.

http://alpha.midjourney.com
This media is not supported in your browser
VIEW IN TELEGRAM
Mistral выпустили модель Mixtral 8x7B.

Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.

По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.

Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.

Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо
(ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp

Торрент:
magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.
This media is not supported in your browser
VIEW IN TELEGRAM
Vercel выпустили V0 — инструмент для генерации фронтэнда по текстовому описанию. Можно и вкинуть скриншот и на его основе получить схожий фронт, а правки можно вносить как промтом, а-ля "перемести меню слева направо", так и переключившись на код.

Потестил, работает не так ловко, как на видео, но ускорить разработку может помочь. Тем более, что не требует API ключа OpenAI, и на бесплатном тарифе есть как минимум 200 кредитов в месяц.

Так что, у screenshot-2-code появилась компания.
This media is not supported in your browser
VIEW IN TELEGRAM
PowerPaint: мощная моделька для редактирования изображения через инпейтинг, аутпейтинг, и ControlNet. Где-то показывает себя лучше FireFly.
This media is not supported in your browser
VIEW IN TELEGRAM
StabilityAI: выпустили Stable Zero123 для генерации 3D. Под капотом SD 1.5, генерящая каждый новый вид камеры, чтобы модель смотрелась консистентно со всех углов обзора.

Интересно оно как-то связано с Stable 3D анонсированным в начале ноября?

В любом случае, нужно минимум 24 Гб видеопамяти...

Сайт
HuggingFace
Дайджест:

📹 ВИДЕО + АРТ 🎨

Улучшаем качество генерации видео с помощью метода FreeInit. Можно применить к любой диффузионной модели без дополнительной тренировки. От авторов FreeU.

Google: анонсировал Imagen 2, доступный только через их облачный API Vertex.

GlitchBench: модель для распознавания гличей в играх.

KreaAI: инструмент для генерации в реальном времени перешел в открытую бету.

HOSNeRF: таки появился код FVV-модели (Free View Video), для создания видео, где можно свободно вертеть камерой.

MotionDirector: демо фреймворка для генерации видео с желаемыми движениями камеры и персонажей.

ECLIPSE: улучшаем эффективность приоров T2I моделей из семейства UnCLIP.

PatchFusion: появилось демо апскейлера по картам глубины.

Nuvo: текстурирование 3D объектов, полученных из нерфов или гаусианов.

SyncDiffusion: релизнулся код этого генератора панорам.

HeyGen: добавили перевод в один клик, пруфридинг на основе приложенных сабов, перевод нескольких спикеров, ссылки на ютуб/гугл облако. Последние 3 фичи для корпоративных клиентов.

Desco: распознавание и аннотирование объектов на изображения.

EdgeSAM: тоже распознавание, но по клику.

SAD: сегментация 3D объектов.

🎸 ЗВУК 🎸

CreateOS: открыли запись в бету на Trinity, их инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.

🤖 ЧАТЫ 🤖

В библиотеку Transformers, добавлена Mixtral, Bakllava, SeamlessM4T, поддержка GPU от AMD, и не только.

EAGLE: ускорение декодирования LLM за счёт компрессии.

Deci: зарелизили DeciLM-7B, модельку показывающую себя лучше, чем Mistral 7B.

Google
: выкатили API для Gemini, хотя их модель попала в просак ибо люди в интернете пришли к выводу, что видео с демонстрацией было фейковым.

Microsoft: выпустили модельку Phi-2 c 2.7B параметрами, обходящая на бенчах 13B модели.

Также они релизнули Promtbase — сборник ресурсов и скриптов по промтингу.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Занятно, чем ближе смотришь, тем реальнее оно кажется. Вероятно, когда видишь общий кадр, мозг выкупает на фоне остальных вещей, что есть нереальный элемент. А когда он виден лишь частично, особенно без левитации над столом, вопросов нет.

Чёрная техно-магия от Simulon.
This media is not supported in your browser
VIEW IN TELEGRAM
Osprey — выделяем объекты на картинках и получаем текстовое описание. Под капотом модели сегментатор SAM и она может работать в режимах выделения точкой, коробкой или общей сегментации.

Демо (логин и пароль osprey)
Гитхаб
Простой инструмент для вписывания лица в нужный контекст, который работает на основе SDXL.
This media is not supported in your browser
VIEW IN TELEGRAM
Amphion: меняем голос артиста на целевой. Из коробки доступно 15 вариантов, а натренировано всё на более, чем 6 ч аудиозаписей (что не много). Есть Adele, Beyonce, Bruno Mars, Michael Jackson, Taylor Swift, и другие, в основном китайские певцы.

Также можно генерить музыку, звуки, и озвучку с визуализацией полученного.

Лучше давать на вход чистый голос без музыки, потому что иначе будет очень много шумов. С песнями на русском пока не работает, но код открыт и народ научит.

Лицензия MIT (свободное коммерческое и некоммерческое использование), что удивительно.

Демо (смена вокалиста)
Демо (генерация текста нужным голосом)
Гитхаб
1
Дайджест:

📹 ВИДЕО + АРТ 🎨

A1111 обновился до v 1.7. Появилась поддержка SD Turbo, ускорение на 40% через HyperTile и не только.

AnimateDiff обновился до V3.

Gradio: подтянули поддержку LCM. Правда пока версии SD 1.5.

AMD и HuggingFace: адаптировали разные библиотеки для ускорения работы на новом серверном железе на базе Instinct.

Новая улучшалка для SDXL — Direct Preference Optimization (DPO). Делает генерации ближе к промту. Помимо версии для SDXL, есть версия для SD 1.5

Также появилась демка другой улучшалки - FreeInit. Можно попробовать скидывать Pika или Runway для генерации в качестве на основе прототипов.

VolumeDiffusion: генерим 3D объекты по тексту.

GeoDream: тоже генератор 3D, но с поддержкой Stable Zero123.

Marigold: получение карты глубины поженили с 3D принтингом.

3DLFM: получаем 3D каркас объектов из 2D картинки.

Shap-Editor: переносим стиль одного 3D объекта на другой как целиком, так и частично.

DreamDrone: генерим пролёты дрона.

UDiffText: ставим надписи на картинках.

TextDiffuser-2: тоже генератор подписей.

SlimSAM: получаем сегментацию на уровне оригинального SAM, используя всего 0,1% данных.

GLEE: сегментируем много объектов на картинках и видео.

SlimNeRF: оптимизация нерфов для работы на мобилках и маломощном железе.

Apple: представили исследование FastSR-NeRF по улучшению работы нерфов на потребительских устройствах.

HAAR: генерация причёски по тексту. Кода нет.

Google
: показали TIP, инструмент для восстановления зашакаленных картинок через текстовое описание того, что в кадре должно быть. Кода нет.

Также они показали VideoPoet, языковую модель для генерации видео без обучения. Учитывая, что Google год назад тоже показывали text-2-video модель, но так ничего и не выпустили, а сейчас у них гора конкурентов особенно в опенсорс, веры в эту модель мало. Кода нет.

🎸 ЗВУК 🎸

Microsoft: добавили генератор песен Suno в свой Copilot в виде плагина на боковой панели.

SeamlessM4T: демо переводчика голосовых записей на разные языки, включая русский.

🤖 ЧАТЫ 🤖

Mixtral только вышла, а народ уже вовсю пилит на её основе новые модели: Dolphin: версия без цензуры, в которой также улучшена работа с кодом. Вот видос на эту тему и GPTQ от Bloke. Плюс блог пост от автора.

OpenAI: выпустили гайд по составлению промтов для GPT-4. Для тех, кто пользуется давно в целом ничего нового. А новичкам будет полезно. В двух словах - модель не умеет читать ваши мысли, максимально точно описывайте что вы хотите получить и в каком формате. Если есть опорные доки/тексты/код/скриншоты - скармливайте ей. Народ уже обучил GPT на эту тему.

Microsoft: выпустили инструмент LLMLingua для сжатия промтов до нужного количества токенов и ускорения инференса.

Apple: представили LLM in a flash для оптимизации запуска языковых моделей на мобильных устройствах.

Используем DeciLM-7B-instruct в связке с LangChain для создания своего бота, чтобы чатиться по PDF'кам.

CALM2-7B: полку маленьких, но способных моделей прибыло.

CogAgent: это AI-агент на основе CogVLM для чата по визуалу.

FLAIR: датасет из 20 млрд снимков земли со спутников.

Инструмент для миграции датасета с Github на Hugging Face

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
15