Psy Eyes

Новое в tldraw:

* можно открыть код сгенерированного проекта в Replit, у которых есть и своя нейронка натренированная на коде
* интеграция с p5.js для визуализации на основе JS
* внедрили matplotlib для построения графиков
* улучшения по мелочи

1.64K viewsAndrey Bezryadin, 12:25

Psy Eyes

1:57

This media is not supported in your browser

VIEW IN TELEGRAM

Tencent выкатила AppAgent, нейронку которая может выполнять задания в любых приложениях на смартфоне (пока только Android). Человек задаёт AI таски простым языком и она их делает имитируя тапы и свайпы. Работает на базе GPT-4V и можно научить новым вещам просто продемонстрировав, что нужно делать. Либо она сама разберётся (кто знает больше фич телеги ты или AI?).

Теперь нейронка может за тебя смотреть ютуб и тикток. Добби свободен!

1.9K viewsAndrey Bezryadin, 13:50

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Самая быстрая генерация на диком западе — StreamDiffusion.

Стримим диффузию на скорости до 100+ FPS. Под капотом на выбор SD-turbo (быстрее) или LCM-LoRA (медленнее). Можно работать как в режиме text-2-image, так и image-2-image.

1.54K viewsAndrey Bezryadin, edited 15:10

PIA (Personalized Image Animator) — аниматор изображений, отлично следующий базовой картинке (без отсебятины).

Хорошо поддаётся контролю:
* редактирование объектов в кадре промтом
* задание уровня движения
* смена стиля на основе любой модели с CivitAI
* зацикливание видео

Сайт
Демо
Гитхаб

1.78K viewsAndrey Bezryadin, 15:58

Psy Eyes

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

Интересная статья и калькулятор расхода видеопамяти при использовании разных LLM.

Cколько VRAM требуется GPU для обучения и файнтюна языковых моделей? Какие факторы влияют на потребление VRAM? Как оно меняется при различных настройках модели?

НЕ рассматриваются вопросы использования кванитизированных моделей и лор.

Статья: https://asmirnov.xyz/vram
Калькулятор: выбираете LLM и параметры, инференс или обучение и жмете кнопку посчитать.
https://vram.asmirnov.xyz/

1.31K viewsAndrey Bezryadin, 16:53

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Pika 1.0 теперь доступен всем, а не только по вейтлисту.

AnyDoor: демо виртуальной примерочной.

MotionDirector: теперь можно настраивать стиль объектов в видео и как они должны появляться в кадре.

MotionCtrl: пришиваем контроль камеры к опенсорсным моделям. Пока работает с LVDM/VideoCrafter. Поддержка SVD и AnimateDiff подъедет позже, хотя в последнем контроль камеры точно есть.

HarmonyView: генерим из одной картинки разные углы обзора для получения 3D. Основано на SyncDreamer.

AGAP: редактируем 3D сцену через стилизацию, интерактивное рисование, и сегментацию.

PlatoNeRF: инструмент для получения новых углов обзора в 3D с использование NeRF и лидаров.

DreamDistribution: даём нейронке рефы и она генерит схожее в 2D или 3D.

LangSplat: сегментируем объекты в 3D, используя гауссианы.

OneFormer: тоже мультизадачный фреймворк для сегментации.

UniRef++: сегментируем что-угодно на картинках и видео по рефу.

SPM: удаляем или изменяем объекты на картинках так, чтобы они смотрелись концептуально выдержанно.

TF-T2V: text-2-video фреймворк для генерации видео на основе датасета без аннотаций.

HD Painter: инпейнтинг с учётом контекста.

Apple: тоже выпустили свой сегментатор объектов на картинках Ferret.

🎸 ЗВУК 🎸

Korus AI: в коллабе с лейблом mau5trap запустили конкурс AI-ремиксов на треки Deadmau5.

🤖 ЧАТЫ 🤖

MetaGPT: появился веб-интерфейс мощного фреймворка из AI-агентов, реализующего полный цикл разработки программного обеспечения.

Argilla: выпустили Notux 8x7B-v1 файнтюн Mixtral, который показывает себя лучше базовой модели.

Microsoft: используем Windows AI Studio для разработки и файнтюна разных LLM c Hugging Face локально или через Azure.

Также они выпустили Copilot на Android, с бесплатным чатом на GPT-4 и DALLE 3. Может понадобиться VPN.

OpenChat: ещё одна опенсорсная альтернатива GPT-3.5.

VCoder: это VLM, использующая сегментацию и карты глубины для улучшения чата по картинкам.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

2.01K viewsAndrey Bezryadin, edited 17:53

Psy Eyes

Forwarded from Neurogen

UltimateVocalRemover - раскладываем аудио на компоненты

Что умеет Ultimate Vocal Remover?

Разделять аудио файлы на мультитреки (можно достать барабаны, вокал, бас и т.д.),
разделять вокал и инструментал (создание минусовок),
удаление артефактов из аудио (чистка от шумов, ревера и т.д.),
изменение длительности, питча аудио и другое. Подробнее можно прочитать тут.

Скачать
Для Mac и Windows есть готовые установщики. Все остальное можно найти на GitHub странице проекта.

Мануал на русском

1.83K viewsAndrey Bezryadin, 07:44

Psy Eyes

Очень классно! Ребята из @aifilmmaker продолжают пилить годный контент с помощью нейронок.

1.97K viewsAndrey Bezryadin, 08:57

Psy Eyes

Forwarded from Ai Filmmaker (Dmitriy Alekseev)

1:31

Media is too big

VIEW IN TELEGRAM

Memories of winter holidays (Ai animation)

Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov

Music: Hip-hop classica

2.01K viewsAndrey Bezryadin, 08:57

Psy Eyes

С Новым Годом, котаны! Пусть в 2024-м нейронки помогут вам освободиться от рутины, реализовать креативные интересные проекты, и притянуть к себе лавину лавешек, которую вы оседлаете. Веселья каждую секунду пространства!

2.21K viewsAndrey Bezryadin, 21:35

Psy Eyes

Начинаем год с раздачи 5 премиумов.

2.11K viewsAndrey Bezryadin, 21:36

Psy Eyes

21:37

Psy Eyes

This media is not supported in the widget

VIEW IN TELEGRAM

2.26K viewsAndrey Bezryadin, 21:37

Psy Eyes

This media is not supported in the widget

VIEW IN TELEGRAM

2.41K viewsAndrey Bezryadin, 21:40

Psy Eyes

Скоро будем играть в Герои, решая капчу

2.51K viewsAndrey Bezryadin, edited 11:04

Psy Eyes

Я одолел последний крабовый салат и добрался до клавы.

1.56K viewsAndrey Bezryadin, 15:27

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Nvidia: обновили TensorRT, ускоритель генераций на основе SD, до версии V 0.2. Появилась поддержка генерации видео через SVD, лор на SDXL, можно комбинировать лоры, и прочее по мелочи.

Luma: 3D генератор Genie вышел в релиз V 1.0 на сайте и в iOS приложении. Улучшилось качество мешей и материалов.

Triplane Gaussian: быстрый генератор гауссианов по одной картинке.

Pika: ввели подписки. На бесплатном тарифе 30 кредитов, которых хватит на 9 секунд генерации видео. Кредиты восстанавливаются ежедневно. Платки варьируются от 8$ до $58 в месяц. На самом деле я удивлён, что они ввели это только сейчас.

Hand Refiner: моделька заточенная под исправление кривых рук на генерациях.

Alibaba: меняем фон, одежду и вписываем объекты в нужный контекст с Replace Anything.

У PixArt появилась LCM модель, демки для Alpha генератора, и готовится Betta генератор.

Moore Threads: выкатили свою продвинутую версию AnimateAnyone для получения анимации человека по одному фото. Также запустили платформу для AI-контента Maliang.

Anim-400K: датасет для автоматизированного дубляжа с японского на английский и наоборот.

Демка апскейлера зашакаленных изображений PASD Magnify.

Получаем 3D модели животных по фото.

Open-Vocabulary SAM: сегментируем объекты на картинках по клику.

audio2photoreal: скармливаем запись диалога и поучаем 2 анимированных аватара.

Меняем текст на изображении с учётом контекста.

CoTracker запрещёнки теперь может отслеживать в 10 раз больше точек на видео.

MotionGPT: генерим текстом движения персонажа или получаем описание движений.

🎸 ЗВУК 🎸

Royal: выкатили Sonic для генерации ремиксов на треки известных артистов, их минтингом ончейн, и возможностью монетизации через дистрибуцию и прочее. Сейчас можно сделать рем на 3LAU. Есть похожий проект — Korus.

Запрещёнка выпустила генератор музыки MAGNeT, который вроде как выдаёт аудио с меньшими артефактами и быстрее, но не могу сказать, что звучит сильно лучше MusicGen. Ещё зарелизили SeamlessExpressive, модель для высококачественного голосового перевода с сохранением интонации автора.

OpenVoice: открытая модель для клонирования голоса с контролем над интонациями и другими эмоциональными деталями.

Tencent: генерим музыку с помощью M2UGEN на основе текста, видео или картинок, чатимся по ней, и редактируем промтом. Качество пока не очень, но посмотрим куда пойдёт. Свободная лицензия MIT.

DreamTalk: липсинк голоса с указанным фото.

Nvidia: переводим голос в текст с помощью Parakeet.

🤖 ЧАТЫ 🤖

Видеогайд как зафайнтюнить Mixtral 8x7B под себя. Ранее от них же вышел гайд как зафайнтюнить Mistral.

С помощью Gradio Lite можно можно строить бессерверные AI-приложения, которые будут работать приватно прямо в браузере. Есть Playground чтобы потестить код в реальном времени.

На выставке CES 2024 AMD представили видюху RX 7600 XT и процессоры серии Ryzen 8000 со встроенным нейронным NPU-ускорителем для работы с нейросетями без использования видеокарты. Intel тоже внедряет NPU в свои чипы. Nvidia ответили видюхами 40-й серии Super: RTX 4080 Super, RTX 4070 Ti Super, RTX 4070 Super + ранее анонсировали 4090 D как решение для обхода санкций. Из софта показали Audio2face для липсинка, NPC с которыми можно общаться голосом в играх, Convai для быстрого создания аватаров, RTX Chat для работы с LLM, и iStock как аналог Firefly. Мобильные процессоры от Google и Qualcomm берут вектор на локальный инференс AI на телефоне. Ноутбуки Microsoft обзаведутся кнопкой для запуска AI-ассистента Copilot. Также показали NPU-ускорители в формфакторах NVMe и PCI-E карт от Panmnesia, Neuchips, DeepX, и других производителей.

NeuralMagic: Ламу 2 запустили на CPU и зафайнтюнили на датасете связанным с математикой.

OpenAI: запустили GPT Store. В каталоге уже 3+ млн пользовательских GPT. Есть фильтрация и каждую неделю будут кураторские подборки. Магазин доступен подписчикам Plus, Enterprise, а также нового тарифа Team. Позже подъедет монетизация GPT, но только в определённых странах.

OpenChat: производительная 7B LLM теперь доступна через меню Hugging Chat.

1.84K viewsAndrey Bezryadin, edited 15:27

Psy Eyes

Mergekit: инструментарий для смешивания LLM'ок.

Кормим языковые модели TOFU, для забывания ~~приватных/проприетарных~~ нужных вещей, которые были в тренировочном датасете.

Nvidia: смешали TensorRT с RAG и Llamaindex, чтобы улучшить ответы языковых моделей на ламе.

Google: с помощью фреймворка Patchscope можно простым языком узнать у LLM её внутреннюю структуру, и другие детали.

DeepSeek: выпустили MoE (Mixture of Experts) модель с 16B параметрами. Скоро каждый чат-бот будет MoE как Mixtral. Вот ещё MoE на двух или четырёх маленьких Phi от Microsoft.

Alibaba: демка Qwen-72B на HF.

LittleStory: генерим сказки для детей с иллюстрациями.

Расширяем контекстное окно LLM с 4к до 400к с помощью Activation Beacon. Плюс ещё одна бумага Infinite-LLM на эту тему.

LiteLama: можно погонять ламу 2 на телефоне, 460М параметров. Также появилась TinyLlama, маленькая, но способная с 1.1B параметров.

Clipper: конвертер и кроулер из HTML в Markdown.

Tencent: дотренировала ламу 2-7B на коде и матане и получили LLaMA-Pro 8B.

Alibaba: выпустили Qwen-VL-Plus для чата по картинкам. В этой версии лучше работа разными форматами кадра и мелким текстом.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

2.16K viewsAndrey Bezryadin, edited 15:27

Psy Eyes

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Спидран по новостям за выхи

2K viewsAndrey Bezryadin, 16:34

Psy Eyes

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

DragNUWA вышла в тираж и её уже совместили со Stable Video Diffusion (SVD).

Можно генерить видео на основе картинок с описанием и стрелочками для контроля движения в кадре.

Оригинальная NUWA была анонсирована Microsoft в прошлом году и её код так и не был опубликован.

Если демо не работает попробуйте скачать с гитхаба и запустить локально.

Сайт
Гитхаб
Демо
ComfyUI

2.23K viewsAndrey Bezryadin, 13:39

About

Blog

Apps

Platform