Psy Eyes

Forwarded from Ai Filmmaker (Dmitriy Alekseev)

Memories of winter holidays (Ai animation)

Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov

Music: Hip-hop classica

2.01K viewsAndrey Bezryadin, 08:57

Psy Eyes

С Новым Годом, котаны! Пусть в 2024-м нейронки помогут вам освободиться от рутины, реализовать креативные интересные проекты, и притянуть к себе лавину лавешек, которую вы оседлаете. Веселья каждую секунду пространства!

2.21K viewsAndrey Bezryadin, 21:35

Psy Eyes

Начинаем год с раздачи 5 премиумов.

2.11K viewsAndrey Bezryadin, 21:36

Psy Eyes

21:37

Psy Eyes

This media is not supported in the widget

VIEW IN TELEGRAM

2.26K viewsAndrey Bezryadin, 21:37

Psy Eyes

This media is not supported in the widget

VIEW IN TELEGRAM

2.41K viewsAndrey Bezryadin, 21:40

Psy Eyes

Скоро будем играть в Герои, решая капчу

2.51K viewsAndrey Bezryadin, edited 11:04

Psy Eyes

Я одолел последний крабовый салат и добрался до клавы.

1.56K viewsAndrey Bezryadin, 15:27

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Nvidia: обновили TensorRT, ускоритель генераций на основе SD, до версии V 0.2. Появилась поддержка генерации видео через SVD, лор на SDXL, можно комбинировать лоры, и прочее по мелочи.

Luma: 3D генератор Genie вышел в релиз V 1.0 на сайте и в iOS приложении. Улучшилось качество мешей и материалов.

Triplane Gaussian: быстрый генератор гауссианов по одной картинке.

Pika: ввели подписки. На бесплатном тарифе 30 кредитов, которых хватит на 9 секунд генерации видео. Кредиты восстанавливаются ежедневно. Платки варьируются от 8$ до $58 в месяц. На самом деле я удивлён, что они ввели это только сейчас.

Hand Refiner: моделька заточенная под исправление кривых рук на генерациях.

Alibaba: меняем фон, одежду и вписываем объекты в нужный контекст с Replace Anything.

У PixArt появилась LCM модель, демки для Alpha генератора, и готовится Betta генератор.

Moore Threads: выкатили свою продвинутую версию AnimateAnyone для получения анимации человека по одному фото. Также запустили платформу для AI-контента Maliang.

Anim-400K: датасет для автоматизированного дубляжа с японского на английский и наоборот.

Демка апскейлера зашакаленных изображений PASD Magnify.

Получаем 3D модели животных по фото.

Open-Vocabulary SAM: сегментируем объекты на картинках по клику.

audio2photoreal: скармливаем запись диалога и поучаем 2 анимированных аватара.

Меняем текст на изображении с учётом контекста.

CoTracker запрещёнки теперь может отслеживать в 10 раз больше точек на видео.

MotionGPT: генерим текстом движения персонажа или получаем описание движений.

🎸 ЗВУК 🎸

Royal: выкатили Sonic для генерации ремиксов на треки известных артистов, их минтингом ончейн, и возможностью монетизации через дистрибуцию и прочее. Сейчас можно сделать рем на 3LAU. Есть похожий проект — Korus.

Запрещёнка выпустила генератор музыки MAGNeT, который вроде как выдаёт аудио с меньшими артефактами и быстрее, но не могу сказать, что звучит сильно лучше MusicGen. Ещё зарелизили SeamlessExpressive, модель для высококачественного голосового перевода с сохранением интонации автора.

OpenVoice: открытая модель для клонирования голоса с контролем над интонациями и другими эмоциональными деталями.

Tencent: генерим музыку с помощью M2UGEN на основе текста, видео или картинок, чатимся по ней, и редактируем промтом. Качество пока не очень, но посмотрим куда пойдёт. Свободная лицензия MIT.

DreamTalk: липсинк голоса с указанным фото.

Nvidia: переводим голос в текст с помощью Parakeet.

🤖 ЧАТЫ 🤖

Видеогайд как зафайнтюнить Mixtral 8x7B под себя. Ранее от них же вышел гайд как зафайнтюнить Mistral.

С помощью Gradio Lite можно можно строить бессерверные AI-приложения, которые будут работать приватно прямо в браузере. Есть Playground чтобы потестить код в реальном времени.

На выставке CES 2024 AMD представили видюху RX 7600 XT и процессоры серии Ryzen 8000 со встроенным нейронным NPU-ускорителем для работы с нейросетями без использования видеокарты. Intel тоже внедряет NPU в свои чипы. Nvidia ответили видюхами 40-й серии Super: RTX 4080 Super, RTX 4070 Ti Super, RTX 4070 Super + ранее анонсировали 4090 D как решение для обхода санкций. Из софта показали Audio2face для липсинка, NPC с которыми можно общаться голосом в играх, Convai для быстрого создания аватаров, RTX Chat для работы с LLM, и iStock как аналог Firefly. Мобильные процессоры от Google и Qualcomm берут вектор на локальный инференс AI на телефоне. Ноутбуки Microsoft обзаведутся кнопкой для запуска AI-ассистента Copilot. Также показали NPU-ускорители в формфакторах NVMe и PCI-E карт от Panmnesia, Neuchips, DeepX, и других производителей.

NeuralMagic: Ламу 2 запустили на CPU и зафайнтюнили на датасете связанным с математикой.

OpenAI: запустили GPT Store. В каталоге уже 3+ млн пользовательских GPT. Есть фильтрация и каждую неделю будут кураторские подборки. Магазин доступен подписчикам Plus, Enterprise, а также нового тарифа Team. Позже подъедет монетизация GPT, но только в определённых странах.

OpenChat: производительная 7B LLM теперь доступна через меню Hugging Chat.

1.84K viewsAndrey Bezryadin, edited 15:27

Psy Eyes

Mergekit: инструментарий для смешивания LLM'ок.

Кормим языковые модели TOFU, для забывания ~~приватных/проприетарных~~ нужных вещей, которые были в тренировочном датасете.

Nvidia: смешали TensorRT с RAG и Llamaindex, чтобы улучшить ответы языковых моделей на ламе.

Google: с помощью фреймворка Patchscope можно простым языком узнать у LLM её внутреннюю структуру, и другие детали.

DeepSeek: выпустили MoE (Mixture of Experts) модель с 16B параметрами. Скоро каждый чат-бот будет MoE как Mixtral. Вот ещё MoE на двух или четырёх маленьких Phi от Microsoft.

Alibaba: демка Qwen-72B на HF.

LittleStory: генерим сказки для детей с иллюстрациями.

Расширяем контекстное окно LLM с 4к до 400к с помощью Activation Beacon. Плюс ещё одна бумага Infinite-LLM на эту тему.

LiteLama: можно погонять ламу 2 на телефоне, 460М параметров. Также появилась TinyLlama, маленькая, но способная с 1.1B параметров.

Clipper: конвертер и кроулер из HTML в Markdown.

Tencent: дотренировала ламу 2-7B на коде и матане и получили LLaMA-Pro 8B.

Alibaba: выпустили Qwen-VL-Plus для чата по картинкам. В этой версии лучше работа разными форматами кадра и мелким текстом.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

2.16K viewsAndrey Bezryadin, edited 15:27

Psy Eyes

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Спидран по новостям за выхи

2K viewsAndrey Bezryadin, 16:34

Psy Eyes

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

DragNUWA вышла в тираж и её уже совместили со Stable Video Diffusion (SVD).

Можно генерить видео на основе картинок с описанием и стрелочками для контроля движения в кадре.

Оригинальная NUWA была анонсирована Microsoft в прошлом году и её код так и не был опубликован.

Если демо не работает попробуйте скачать с гитхаба и запустить локально.

Сайт
Гитхаб
Демо
ComfyUI

2.23K viewsAndrey Bezryadin, 13:39

Psy Eyes

Forwarded from Not Boring Tech

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

💖 Понравилось: подборка визуальных гайдов для понимания основ больших языковых моделей (LLM). Вы разберетесь, как устроена архитектура нейросетей, даже если не особо понимаете в кодинге.

Сложные концепции и фундаментальные принципы представили в виде иллюстраций, схем и графиков! Оригинал подборки по платной подписке, поэтому выгрузил вам список визуализаций. Сохраняйте:

• Трансформеры по иллюстрациям;

• GPT-2 по иллюстрациям;

• Подробная визуализация LLM;

• Интерактивная статья про генеративный ИИ от Financial Times;

• Инструмент от OpenAI, чтобы разобраться в токенах;

• Объяснение работы токенайзеров;

• Визуализация разделения текста;

• Модели машинного обучения — они запоминают или обобщают (продвинутый уровень).

@notboring_tech

2.05K viewsAndrey Bezryadin, 14:42

Psy Eyes

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:01

This media is not supported in your browser

VIEW IN TELEGRAM

DragNUWA отлично себя показывает. Контроль картинки решает.

2.68K viewsAndrey Bezryadin, 17:49

Psy Eyes

1.75K viewsAndrey Bezryadin, 17:21

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Google Colab перекрыл возможность работы с веб-интерфейсами для генераций на бесплатном тарифе. На платном без изменений.

Phygital+: добавили холст для удобной работы с генерациями.

Neurogen: используем Photomaker для генераций по лицу, ваяем дипфейки в FaceFusion v2.2.1

MotionCtrl: пришили контроль камеры к генерации видео через SVD.

DreamTalk — вкидываем картинку (желательно, чтобы лицо было чётко видно), целевую озвучку или выбираем из списка, и получаем анимированное фото с липсинком.

Banodoco проводят розыгрыш двух 4090.

Появился код и демо FreeNoise, улучшающего результаты видео генераций.

VideoCrafter: в версии V2 этого генератора видео улучшили качество картинки, а также обработку движений и композиции. Но Pika всё-равно впереди.

TriplaneGaussian: появился код 3D генератора на гауссианах. Демо всё также тут.

gsplat.js: теперь можно конвертировать гауссианы из .splat в формат .ply

Alibaba: выпустили единый инструментарий SCEPTER Studio в котором можно тренить, файнтюнить, генерить, и редактировать модели и контент.

GaussianAvatar: даём на вход видео и получаем аватара из гауссианов.

Google: новый генератор видео Lumiere, который в привычном стиле гугла может никогда и не выйти в свет.

🎸 ЗВУК 🎸

Splash: выпустили свою старшую модель AI XL для генерации музыки из промта, а также текстов песен. Доступна по подписке, но стандартную модель можно погонять бесплатно.

🤖 ЧАТЫ 🤖

Гайд по файнтюну LLM на видюхе до 24 ГБ VRAM. Чтоб два раза не вставать вот ещё один, но уже с использованием Runpod.

Binoculars: проверяем сгенерирован ли текст нейронкой.

Hugging Face: для Hugging Chat обновился веб-поиск, став стабильнее.

Gradio: выпустили галерею кастомных компонентов, через которые можно собирать AI-приложения для просмотра карт, чтения PDF, и тд.

WebSight: датасет из HTML/CSS и скриншотов, с лицензией CC-BY-4.0. Подойдёт для трени/файнтюна моделей генерируюющих код сайта по скриншоту. Есть демо.

Stability AI: выпустили совсем маленькую языковую модель Stable LM2 Zephyr с всего 1.6B параметров, плюс тоже мелкую для генерации кода Stable Code 3B. Возможно скоро выдадут свою MoE как Mixtral.

EAGLE: ускоритель LLM обновился до V 1.1. Появилась поддержка gpt-fast (~x2 к скорости) и Mixtral 8-7B.

SeeAct: новый AI-агент, который обладает зрением GPT-4V и может выполнять задания по сети.

LangChain: выпустили своих AI-агентов v 0.1

Microsoft: запустили Copilot Pro. Под капотом тот же GPT-4, можно делать свои GPT, есть интеграция с Microsoft 365 и приложение для iOS/Android.

На Hugging Face есть трекер использования вашего датасета кем-либо.

Jan.ai: интерфейс для работы с локальными языковыми моделями (можно в 1 клик скачать с HF прямо в апе). Скоро появится мобильная версия и фреймворк для AI-ассистентов.

Автоматизируем оценку своих LLM через гугл колаб.

Moondream: новый чат по картинкам (VLM).

01.ai: тоже выпустили VLM разных размеров: Yi-VL-34B и меньше на 6B. Старшая модель встала в лидерборде сразу за GPT-4V.

InternLM: вышел V2 код LLM'ок размером от 7B до 20B, у младшей модели 200к контекст (можно книжки пихать).

Fireworks.ai: выпустили чат по картинкам FireLLaVa c коммерческой лицензией. У оригинальной адобовской лавы возможно было только некоммерческое использование.

Популярные исследования с Arxiv выжатые и озвученные нейронкой в формате видео подкастов и выжимок. Примеры:

* MEDUSA — ускоряем инференс LLM за счёт распараллеливания (бумага / выжимка)
* Zero Bubble Parallelism — новый эффективный метод распределённой трени (гитхаб / бумага / выжимка)

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

2.42K viewsAndrey Bezryadin, edited 17:21

Psy Eyes

В сети есть уже несколько zero-shot моделей, в которых можно вкинуть своё фото, вбить промт или выбрать стиль, и получить картинку в нужном контексте. В отличие от прошлогодних нейронок, основанных на методе Dreambooth, такие модели не требуют обучения на ваших данных и могут генерить с вами фотосет с парадного входа.

InstantID
По одному фото выдаёт хорошие результаты, можно прицепить рефернс для понимания целевой позы, есть controlnet через pose/canny/depth/ и их можно комбинировать, как и смешивать стили. В отличие от других моделей, в один кадр можно вписать более одного человека или совместить их в одну личину в требуемой пропорции.

Демо (англ) // Демо (рус) // Сайт // Гитхаб

PhotoMaker
Здесь можно обойтись одним фото, но чем больше — тем лучше. В промте обязательно надо указать слово img (например, woman img или man img) иначе выдаст ошибку. Есть вариант для фотореалистичных генераций, а есть для стилизации.

Демо (реализм) // Демо (стилизация) // Сайт // Гитхаб

IP-Adapter-FaceID Plus
Это версия IP Adapter зафайнтюненная генерить человеческие лица в реалистичном или стилизованном ключе. В онлайн варианте есть немного контроля. Если нужен controlnet, то это уже локально надо модель ставить.

Демо // Гитхаб

SDXL-Auto-FaceSwap
Хороший однокнопочный вариант на основе SDXL, но сейчас на паузе. Вероятно, чтобы его снова запустить понадобятся платные опции железа Hugging Face.

Демо

5.05K viewsAndrey Bezryadin, 15:38

About

Blog

Apps

Platform