Psy Eyes

Инпейтинг прямо в NeRF. Сцена рендерится с позиции камеры, а цвета берутся отталкиваясь от соседних видов.
Сайт — Бумага

Разработчик сделал рабочую копию операционной системы Саманты из фильма «Она». Преобразование голоса в текстовый промт через Whisper —> генерация текстового ответа через GPT 3.5 —> озвучка ответа в реальном-времени через Elevenlabs. То есть, от фильма до реальности мы добрались за 10 лет.
Автор

Другой чувак связал свой Quest Pro с повседневными вещами: прослушивание музыки, просмотр погоды, регулировка штор, и прочее в режиме MR. Уже не кино. Но котана тебе всё-равно надо будет в реале.
Автор

ECON: создание по одному фото 3D модели человека. Работает даже с группой людей в сложных позах.
Сайт — Colab — Гитхаб — Плагин для Blender — Гайд

Paint-by-Skech: делаешь набросок, что изменить на картинке и получаешь несколько вариантов одежды, фонов, итд.
Бумага — Гитхаб

FaceLit: тоже создание 3D по фото, но с возможностью играться с освещением.
Сайт — Бумага — Гитхаб

Сравнение 4 автономных генеративных AI агентов: “Westworld” simulation, Camel, BabyAGI, AutoGPT.
Пост + Бумага, как научить модель самостоятельно дебажить код

2.38K viewsAndrey Bezryadin, 13:46

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Runway открыли доступ к GEN-2 в дискорде.

1) Идём в любой #generate тред

2) Вбиваем @GEN2 и дальше текстовый запрос или референсная картинка. Либо картинка + промт.

Можно применять параметры для большего контроля над выходным изображением. Ловите гайд по расширенным настройкам.

Плюс: инфа как получать результаты близкие к оригиналу по структуре, и удивить себя результатами отдалённо похожими на оригинал.

Промт:

a cat at the stage of the music festival

PS кидайте в комменты ваши промты если увас нет доступа, я буду скидывать результат

8.35K viewsAndrey Bezryadin, edited 14:43

Psy Eyes

Мой видос с котаном засветился в треде в Твиттере, нормас.

Делитесь своими генерациями в комментах. Скидывайте промты и референсные картинки, если у вас нет доступа — я буду вам дропать результаты. Если нужно применить параметры (интерполирование, CFG_scale, upscale) маякните. Одно видео генерится, примерно 2,5 минуты.

715 viewsAndrey Bezryadin, edited 11:25

Psy Eyes

Forwarded from Denis Sexy IT 🤖

3:32

Media is too big

VIEW IN TELEGRAM

Очень нравится зарождение «нейронного кинематографа» – когда из текста генерируют видео кусочки, сшивают в фильм и добавляют озвучку.

Получается, что уже сейчас каждый может пойти и снять кино мечты, вот тут в треде подборка разных работ.

До больших экранов этому подходу еще много лет, но как же круто

744 viewsAndrey Bezryadin, 11:25

Psy Eyes

Топовые обновы для телеги подъехали. Как раз искал возможность шарить папку с чатами. В который раз ловлю себя на мысли, что разрабы улавливают, что мне нужно.

https://telegram.org/blog/shareable-folders-custom-wallpapers/ru?ln=a

Общие папки, выбор обоев для отдельных чатов и многое другое

В Telegram появилась возможность быстро делиться десятками чатов с помощью одной ссылки, создавать уникальные обои для отдельных личных бесед, использовать веб-приложения в любых чатах — и многое другое.

932 viewsAndrey Bezryadin, 14:32

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

На днях телега выкатила обнову, в которой можно делиться папками с каналами и чатами.

Сдаю вам своих тележных AI-информаторов:
https://xn--r1a.website/addlist/6GFMRrtZGqwxOTEy

Тут только каналы, на которые я давно подписан и часто отсматриваю. Если будут появляться другие, то я их буду включать в папку и вам придёт уведомление о новом канале.

Некоторые чаты не смог расшарить ибо они перекрыты настройками приватности. Они прицеплены к каналам как дискуссионные группы. Просто подавайте заявку на вступление и с большой долей вероятности вам откроют.

Скидывайте в комменты свои папки.

1.16K viewsAndrey Bezryadin, 09:26

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Подъехал Segment Anything для видео — Track Anything.

Можно автоматически выделять объекты на видео и изменять их через инпейтинг (привет Roto Brush в AE). Также подойдёт в целом для слежения за объектами и их аннотирования.

Тень пока неподвластна нейронкам, ну штош.

Гитхаб — Бумага — Демо

2.26K viewsAndrey Bezryadin, 11:10

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

В ChatGPT добавили возможность не сохранять переписку.

Такие диалоги не будут использоваться для тренировки моделей и их не будет видно в боковой сайдбаре.

Новые переписки хранятся 30 дней и просматриваются только в случае необходимости для отслеживания злоупотреблений. Затем удаляются навсегда.

Плюс анонсировали подписку для бизнеса и возможность экспортировать переписку. И вот тут интересно: если использовать модели OpenAI (InstructGPT, GPT-4, итд) для тренировки конкурентных моделей запрещено правилами сервиса, то экспортированный чат это ведь просто текст, а значит и готовая пара вопрос/ответ, которую можно легально скормить своей модели.

https://openai.com/blog/new-ways-to-manage-your-data-in-chatgpt

910 viewsAndrey Bezryadin, edited 17:26

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Если вам не с кем пообщаться, самое время потрепаться со своими PDF'ками.

Скармливаете ChatPDF док с читаемым текстом и задаёте вопросы. В отличии от простого Ctrl+F нейронка может найти ответ не по прямому совпадению слов, а также обосновать свою позицию. Да и сложные вещи с формулами может рассказать простым языком. В сайдбаре переписки с доками хранятся отдельными чатами. При желании диалогом можно поделиться с коллегами.

В бесконечном потоке бумаг с анонсом новых технологий помогает сохранить много времени.

На бесплатном тарифе можно общаться с 3 PDF в день (макс 120 стр и 10 мб на каждую) и задавать им не больше 50 вопросов в день.

959 viewsAndrey Bezryadin, 08:03

Psy Eyes

Stability AI выпустили API для апскейлинга (повышения разрешения) без потери четкости изображения.

Под капотом две опенсорсные модели:
* Cверхбыстрый Real-ESRGAN, который может удвоить типичное разрешение 512x512 за полсекунды.
* А также Stable Diffusion 4x Upscaler, которому требуется 20 — 40 секунд для увеличения изображения, но он обеспечивает более детальные результаты с богатой текстурой.

Главным преимуществом 4x Upscaler является усовершенствованный процесс диффузии, который увеличивает воспринимаемый уровень детализации при повышении масштаба входного изображения.

Пользователи официальных плагинов для Photoshop и Blender уже могут пользоваться фичей через API. По идее должно работать и с расширением для A1111, а также Dreamstudio.

P.S. Вы можете потестить фичу следующим образом:
1) Ставим расширение для фотошопа по ссылке в выше
2) Делаем акк в Dreamstudio и получаем халявные кредиты
3) Из настроек аккаунта копируем API ключ в расширение в фотошопе. Тестим!

1.03K viewsAndrey Bezryadin, edited 14:30

Psy Eyes

Скармливаем нейронке текст неограниченного размера для суммаризации и ответов на вопросы через — Self-Controlled Memory (SCM).

Пока графического интерфейса никто к этому не прикрепил, но можно потестить по инструкции с гитхаба.

Работает с любыми моделями: OpenAI-преподобными, Llama-подобными (Alpaca, Vicuna,...) и прочими. По умолчанию настроено на модель text-davinci-003, но можно поставить другую командой --model_name.

До этого были представлены способы как расширить контекстную память языковых моделей вроде GPT-4 (у которой лимит в 32к токенов) до 260к токенов, а также 1 млн токенов.

Бумага — Гитхаб

991 viewsAndrey Bezryadin, 09:58

Psy Eyes

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Пол это лава

Автор юзал GEN1 от Runway

711 viewsAndrey Bezryadin, 12:19

Psy Eyes

Дайджест новостей:

📹 ВИДЕО + АРТ 🎨

Runway: в GEN-1 теперь можно генерить видео до 15 сек, вышло приложение на iOS, а также в web-версии появилось превью генераций, чтобы вы могли выбрать в какую сторону режиссировать.

Phygital+ вышли в открытую альфу, дано 150 бесплатных генераций в месяц. ControlNet и Dreambooth на премиуме.

Исследователи оптимизировали SD 1.4 для запуска на мобилках. На генерацию арта 512х512 на Samsung S23 Ultra ушло 12 секунд. Можно почесать за ушком своей радостной GTX 1050.

SD + ControlNet теперь в Blender. Дополнительные гайды.

Плюс SD в After Effects, а также в Maya.

Total-Recon: генерация новых углов съёмки камеры (вид из глаз, со спины, сверху) и прицепливание 3D-объектов к персонажам.

HOSNeRF: создание видео, в котором объект может перемещаться в кадре, а зритель менять точку просмотра на 360° вокруг него. Это уже второе free-view video (FVV) за две недели и тоже заюзан NeRF.

F2-NeRF: быстрый рендер нерфов со свободным перемещением камеры и высоким качеством деталей.

AMT: новый метод интерполирования видео (повышения к/с) с очень плавными результатами.

Anything-3D: выделение объектов с помощью Segment Anything и преобразование их в 3D, NeRF, или изменения угла камеры.

Segment Anything 3D: схоже с предыдущим вариантом, но если там объекты выделялись из фото, то тут из NeRF сразу в 3D. Заодно Inpaint Anything, в котором можно инпейтить объекты внутри NeRF.

🎸 ЗВУК 🎸

AudioGPT: обширная аудио-модель для генерации и распознавания музыки, звуковых эффектов и речи.

Video-2-SoundFX: генерация звуковых эффектов к видеоряду.

Bark: генерация текстом музыки и звуковых эффектов, а также клонирование голоса. Работает на разных языках.

Whisper JAX: оптимизировали Whisperдля работы в 70 раз быстрее.

Waveformer: выделение инструментов в звуковом ряде или исключение шумов.

🤖 ЧАТЫ 🤖

Hugging Face: выпустили своего чат-бота HuggingChat. Под капотом OpenAssistant 30B на основе ламы.

ChatGPT 3.5 начали давать доступ к интернету. Фича пока не развернута на все аккаунты.

848 viewsAndrey Bezryadin, edited 18:59

Psy Eyes

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

DeepFloyd при поддержке Stability AI выпустили новую text-2-image модель — DeepFloyd IF.

По качеству генераций сравнимо с Midjourney или Imagen от Google, но в отличие от них здесь открыт код и хорошо распознаётся текст на картинке.

Есть несколько режимов:
* Генерация по промту
* Стайлтрансфер
* Апскейл (можно юзать IF, а можно Stable 4x)
* Инпейтинг

Причем стайлтрансфер и инпейтинг работают в zero-shot, то есть по одной картинке без трени.

Онлайн демо пока не доступно. Чтобы запустить локально нужна видюха с минимум 16ГБ оперативки. 24ГБ если надумаешь юзать для апскейла. На гитхабе проекта пишут, что есть способы снизить потребление памяти, но все мы понимаем, что не до 1 ГБ. Хотя учитывая вчерашние новости про генерации на мобилках...

Гитхаб

684 viewsAndrey Bezryadin, 07:27

About

Blog

Apps

Platform