Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Runway расширили контроль над камерой в генерации видео — теперь помимо направления можно цифрой указать скорость движения.

Что в купе с новой фичей Motion Brush, которой можно анимировать выделенные части кадра, уже даёт разгуляться. Как минимум можно собрать сториборд/мудборд.

Появились шаблоны стилей GEN-2, чтобы было меньше нужды играть с промтами.

Также улучшена их text-2-image модель: стала не хуже SDXL. А image-2-video теперь чётче следует базовому изображению как с промтом, так и без.

Анонс
Stability выпустили image-2-video модель для генерации видео — Stable Video Diffusion.

Она работает на базе весов SD v2.1 и имеет две версии: SVD и SVD-XT. Первая генерирует 14 кадров в разрешении 576x1024, а вторая - 25 кадров того же размера. FPS можно задать от 3 к/с до 30 к/с.

По качеству картинки утверждают, что они лучше Pika и Runway. Аргумент, как и их бенчмарк, спорный. Но мне удалось потестить демо и результат весьма годный. Например, когда я пару дней назад игрался с Runway она на основе той же картинки с котом хорошо понимала слой с городом и могла его расширить при движении камеры, а вот кота она не могла распознать и его сильно меняло в кадре. В то же время сейчас в SVD кот остался целым и камера сместилась, показывая нам и то, что было не видно за ним (пусть и с огрехами) и новое пространство слева.

Качество это хорошо, но намного важнее, что народ прицепит к этому всему контроль кадра через СontrolNet или что ещё. А там и натренируют на 4к, сделают связки с моделями для генерации дипфейков + голоса + липсинка, итд.

Можно использовать SVD и для генерации новых углов обзора объекта, что потенциально можно примостить к созданию 3D.

Также Stability готовят веб-интерфейс для работы в режиме text-2-video (запись в вейтлист здесь). Тем временем можете поиграться с генератором видео по тексту Hotshot, который работает на основе SDXL.

Будем надеяться модель не постигнет участь Stable Animation, которой буквально считай никто не воспользовался.

Демо
Анонс
Гитхаб
Хаггинг
This media is not supported in your browser
VIEW IN TELEGRAM
Занятно, что при генерации в SVD с высоким фреймрейтом камера почти не двигается. Вероятно, чтобы меньше допускать огрех в синтезе новых видов.

Альтернативно можно пустить видео с низким фреймрейтом через Flowframes и получить плавную картинку с новыми визуалом.

30 к/с повторяется несколько раз потому что на выходе получается видео длинной меньше секунды.

Видосы как они есть в комментах.
This media is not supported in your browser
VIEW IN TELEGRAM
Morph Studio обновили бота в дискорде и теперь он может генерить видео на основе наброска.

Также улучшилось качество генерации и увеличилась скорость.

Дискорд
This media is not supported in your browser
VIEW IN TELEGRAM
Новый генератор голоса по тексту: HierSpeech++

Работает без обучения (zero-shot). Просто даёшь модели короткий пример с целевым голосом и она озвучит нужный текст в заданном стиле. Помимо этого ещё и будет улучшено качество звука встроенным апскейлером с 16 до 48 kHz.

XTTS стоит призадуматься.

Гитхаб
Демо
Дайджест:

📹 ВИДЕО + АРТ 🎨

Phygital+: добавили к себе тренировку нейронки в пару кликов, автосохранения, лимиты для генерации сбрасываются теперь раз в неделю, и другие ништяки. Голосани за них на Product Hunt.

Уже появился колаб на SVD.

В LCM теперь можно генерить реалтайм расшаривая экран, например в Figma или Photoshop, как источника для скетчей.

Enfugue: альтернативный webui для генерации картинок и видео, для тех кто не фанат нод.

Neurogen: генерим дипфейки обновлёнными портативными Roop v 1.7 и Rope v 1.4.1, ваяем арт реалтайм в LCM + Fooocus, чатимся в NeuroGPT v 1.6

Колаб для генерации 360 градусных панорам.

Flowty: реалтайм генерация из набросков через LCM.

RunwayTV: можно попасть в генеративное 24/7 тв.

Luma: добавили в 3D генератор Genie сиды и негативные промты. Скоро можно будет юзать на своём дискорд сервере.

Запрещёнка выкатила редактор изображений текстом Emu Edit, который неплохо вписывает предметы в контекст (даже учитывает накладывающиеся слои). Похоже на Rich Text на основе SDXL. Также выпустили генератор видео Emu Video, выдающий 512x512 в 16 к/с длиной 4 сек.

LucidDreamer: ещё один генератор 3D по тексту.

WonderStudio: сделали аддон для Maya и Blender, чтобы выгружать из них своих персонажей.

PhysGaussian: гауссианам прицепили физику для интерактивного взаимодействия. Кода пока нет.

🎸 ЗВУК 🎸

Suno: теперь работают на сайте. Это и две новости ниже найдены у @cgevent

Mustango: генерация на основе длинных детальных промтов. Правда качество не особо.

Google: выпустит модель Lyria для генерации музыки на основе напева/инструментала и промта. А через DreamTrack можно будет создавать 30-сек вертикальные видео с клонированным голосом известных музыкантов.

OWSM: Опенсорсная версия Whisper для перевода голоса в текст.

StyleTTS 2: демо модельки для генерации голоса по тексту и его клонирования.

🤖 ЧАТЫ 🤖

Исследователи представили метод FastBERT, который используя 0,3% нейронов работает на уровне оригинального BERT, и позволяет достигнуть экспоненциального роста производительности языковых моделей. На тестах получили x78 на CPU и x40 в PyTorch.

Brave: приватный браузер добавил языковую модель Leo в боковую панель, которая бесплатно работает на основе ламы 2 и не собирает твои данные.

OpenAI: Сэм Альтман и Грэг Брокман вернулись в OpenAI. Будут перестановки в совете директоров. Тем временем сайт ChatGPT периодически лежит. В мобильной версии голосовое общение стало доступно всем пользователям.

Microsoft: выпустили фреймворк Synapse для распределённой работы с LLM и прицелом на масштабировании. Также зарелизили LLM Orca 2 с 13B параметрами, хорошо показывающую себя в пошаговом размышлении.

Данные соревнования по взлому промтами языковых моделей Hack a Promt выложены в сеть и найдена новая уязвимость.

Lmsys: ускоряем инференс LLM через параллельное декодирование Lookahead. Герганов уже внедряет в llama.cpp

Anthropic: выкатили Claude 2.1 с контекстом в 200к (500 страниц или 150 000 слов), уменьшением галлюцинаций, и расширенной поддержкой API.

Голосовой чат с Zephyr и Mistral.

LanguageBind: мультимодальный чат по видео, картинкам и не только. Сюда же Video-LLaVA.

Intel: выпустили фреймворк для упрощения запуска 4-bit LLM на CPU пользователей.

Доки:
* MoWE: архитектура взаимодействия LLM-экспертов, с упором на малое требование к ресурсам, а сами LLM выступают в роли хранилища данных.
* MultiLoRA: лора с мультизадачностью и горизонтальным масштабированием.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Веселье в самом разгаре: Screenshot-2-code

Посылаете ссыль или скриншот сайта/приложения, который нужно скопировать и тебе для него генерится HTML/Tailwind CSS.

GPT-4 Vision понимает содержимое и генерит код, а DALLE 3 ваяет схожие изображения. Последний можно отключить, если планируется использовать SDXL или что ещё.

Править код можно самому там же в редакторе и превью результатов наблюдать в реальном времени. Также можно дать AI инструкцию по генерации, чтобы он сразу менял код под твой проект.

Для работы нужен API ключ OpenAI. Можете зарегать там аккаунт и вам дадут $5 кредитов на халяву. Потестите на сколько этого хватит. А там глядишь кто и выпустит халявную версию на ламе или чём ещё.

Я год назад говорил, что такое будет через пару лет. Однако мы уже здесь. Как говорится "Ни у кого нет преимущества".

Демо
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Рекламщики: чатгпт как повысить конверсию наружной рекламы, чтобы люди на неё обращали внимание?

ChatGPT: повесь её вверх ногами.
This media is not supported in your browser
VIEW IN TELEGRAM
Pika Labs выходит из тестовой беты в крупный релиз 1.0!

Теперь генерить видео можно у них на сайте, а не только в дискорде. Помимо улучшенного качества картинки, которое тизерили ранее, появились опции контроля визуала через сайт в стиле Runway.

Что имеем:
* Видео в 1920х1080
* Выделение объектов и их замена в кадре
* Расширение границ
* Генерация на основе картинки
* Смена стиля видео

Доступ уже открыт для всех, но пускают по очереди, когда появляется свободное место.

Анонс
Media is too big
VIEW IN TELEGRAM
Luma улучшили гауссианы до v1.2 в своей апе: повысилось качество конвертации видео в 3D (особенно при работе с облаками и фоном в экстерьерных сценах).

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Stability выпустили SDXL Turbo, для быстрой генерации картинок в 1 шаг. Суть такая же как LCM, где тоже генерация идёт в реальном времени пока ты пишешь или двигаешь мышкой, только быстрее и, по заверениям Stability, качественнее.

Демо (ClipDrop)
Демо (Fal.ai)

Демо (HF)
Колаб
Локальная установка (Pinokio)
Хаггинг
Анонс
Media is too big
VIEW IN TELEGRAM
Meimu: переводим векторные SVG файлы в 3D, которые можно крутить в отличном качестве. На удивление работает замечательно и очень шустро.

* Можно изменять освещение, материал, итд
* выделять конкретные элементы и менять их
* Есть экспорт в GLB
* Поддержка вывода в любом разрешении

Сайт
Дайджест:

📹 ВИДЕО + АРТ 🎨

SVD теперь работает через ComfyUI и влезает в 8 ГБ VRAM.

LucidDreamer: появилось демо 3D генератора на основе гауссианов.

Cross Image Attention: смешиваем объекты разных стилей на фото, чтобы получить новый вид.

DreamGaussian Mini: легковесная версия гауссианов для быстрой генерации в 3D.

MagnificAI: апскейлер, который повышает разрешение и добавляет детали. Чтобы два раза не вставать вот ещё апскейлер на эту тему - SISR.

Sketch Video Synthesis: конвертируем объекты на видео в скетчи.

Используем LCM для реалтайм покраски арта.

Animagine XL 2: генерим аниме на основе SDXL, теперь в Fooocus интерфейсе и с поддержкой LCM + апскейлеров.

Улучшаем качество гауссианов с помощью Mip-Splatting.

Neurogen: обновлённый локальный чат NeuroGPT 2, и дипфейкер Rope Portable v 1.4.1 (AMD).

Google: теперь в Maps можно через вид с камеры получить рейтинг ресторана, отеля,... а там и человека.

Microsoft: добавили AI-фичи в Designer и отныне в нём можно легко выделять/заменять объекты на картинках, генерить арт через DALLE 3, и не только. Как Adobe Firefly только бесплатный.

Сбер: выкатили Kandinsky 3 с улучшенной генерацией изображений, а также возможностью выдавать видео.

ChatAnything: анимируем любые объекты на фото для чата с ними.

Nvidia: представили Makani, модель для быстрого предсказания погоды с фокусом на параллелизме, шустрой тренировке, асинхронной загрузке данных итд.

ConceptSliders: редактируем изображение текстом, сохраняя его структуру. Вот ещё ZipLoRA на эту тему.

🤖 ЧАТЫ 🤖

Андрей Карпаты выпустил часовую вводную лекцию в мир больших языковых моделей (LLM). До этого он давал лекцию как натренировать свою LLM с нуля.

Amazon: запускают Q, как конкурента ChatGPT с фокусом на бизнес сегменте.

Higgsfield: фреймворк для файнтюна LLM без необходимости в управлении Kubernetes.

CogVLM: появилось демо этого чата по картинкам (VLM).

LEO: AI-агент для взаимодействия и чата по объектам в 3D пространстве.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Ускоряем разработку с помощью Make Real от tldraw.

Следом за релизом GPT-4V появился проект Make Real на основе доски для скетчей tldraw. Он работает как через сайт makereal.tldraw.com, так и локально. Можно даже гонять в коопе с коллегами через Yjs в P2P режиме.

Суть: делаешь набросок прототипа с текстовым описанием --> выделяешь мышкой и жмёшь в углу Make Real --> GPT-4V сгенерит в новом фрейме прототип, который по двойному нажатию становится интерактивным. В углу этого фрейма есть кнопка для копирования кода и ссылки, чтобы потестить в новом окне или поделиться с кем. Нужно внести правки? Прерисовываешь/пишешь что нужно изменить + выделяешь ранее сгенерённый фрейм = по нажатию Make Real получишь новую версию с правками. По факту можно быстро собрать MVP и легко делиться им.

Например, вот вам кликабельный iPod, а здесь доска на которой он рисовался (можно форкнуть).

Есть вариант ещё проще: на Excalidraw описать текстом, что ты хочешь получить и тебе сгенерится схема, которую можно заскриншотить --> вбросить в tldraw --> получить рабочий прототип.

Полученный код можно дропнуть ChatGPT или скажем нейронке натренированной на коде, чтобы она переписала его нужным образом если что. Однако для упрощения кто-то уже запилил плагин для VS Code: рисуешь прототип и тебе генерится код в нужном языке.

Так как код Tldraw открыт сообщество уже прицепило модель LCM для генерации в реальном времени, и это открыло интересные возможности. Эта версия называется Drawfast и доступна на drawfast.tldraw.com, а также на гитхабе. Для дополнительного ускорения генерации используется API от Fal.ai. Теперь с релизом SDXL Turbo быть может генерации будут ещё шустрее.

Можно собрать и простенькие игры, datavis приколюхи, своё пианино, генератор иконок, и не только.

Сейчас нужен ключ OpenAI для доступа к GPT-4V. Но так как проект опенсорсный, и открытых альтернатив становится всё больше, возможно скоро и без ключа запашет.

Я сам уже который день из Make Real не вылезаю и дико кайфую.

Больше примеров и деталей в посте на DTF
This media is not supported in your browser
VIEW IN TELEGRAM
4K полнит. Теперь ты знаешь.