Новое в tldraw:
* можно открыть код сгенерированного проекта в Replit, у которых есть и своя нейронка натренированная на коде
* интеграция с p5.js для визуализации на основе JS
* внедрили matplotlib для построения графиков
* улучшения по мелочи
* можно открыть код сгенерированного проекта в Replit, у которых есть и своя нейронка натренированная на коде
* интеграция с p5.js для визуализации на основе JS
* внедрили matplotlib для построения графиков
* улучшения по мелочи
This media is not supported in your browser
VIEW IN TELEGRAM
Tencent выкатила AppAgent, нейронку которая может выполнять задания в любых приложениях на смартфоне (пока только Android). Человек задаёт AI таски простым языком и она их делает имитируя тапы и свайпы. Работает на базе GPT-4V и можно научить новым вещам просто продемонстрировав, что нужно делать. Либо она сама разберётся (кто знает больше фич телеги ты или AI?).
Теперь нейронка может за тебя смотреть ютуб и тикток. Добби свободен!
Теперь нейронка может за тебя смотреть ютуб и тикток. Добби свободен!
This media is not supported in your browser
VIEW IN TELEGRAM
Самая быстрая генерация на диком западе — StreamDiffusion.
Стримим диффузию на скорости до 100+ FPS. Под капотом на выбор SD-turbo (быстрее) или LCM-LoRA (медленнее). Можно работать как в режиме text-2-image, так и image-2-image.
Стримим диффузию на скорости до 100+ FPS. Под капотом на выбор SD-turbo (быстрее) или LCM-LoRA (медленнее). Можно работать как в режиме text-2-image, так и image-2-image.
Media is too big
VIEW IN TELEGRAM
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Интересная статья и калькулятор расхода видеопамяти при использовании разных LLM.
Cколько VRAM требуется GPU для обучения и файнтюна языковых моделей? Какие факторы влияют на потребление VRAM? Как оно меняется при различных настройках модели?
НЕ рассматриваются вопросы использования кванитизированных моделей и лор.
Статья: https://asmirnov.xyz/vram
Калькулятор: выбираете LLM и параметры, инференс или обучение и жмете кнопку посчитать.
https://vram.asmirnov.xyz/
Cколько VRAM требуется GPU для обучения и файнтюна языковых моделей? Какие факторы влияют на потребление VRAM? Как оно меняется при различных настройках модели?
НЕ рассматриваются вопросы использования кванитизированных моделей и лор.
Статья: https://asmirnov.xyz/vram
Калькулятор: выбираете LLM и параметры, инференс или обучение и жмете кнопку посчитать.
https://vram.asmirnov.xyz/
Дайджест:
📹 ВИДЕО + АРТ 🎨
Pika 1.0 теперь доступен всем, а не только по вейтлисту.
AnyDoor: демо виртуальной примерочной.
MotionDirector: теперь можно настраивать стиль объектов в видео и как они должны появляться в кадре.
MotionCtrl: пришиваем контроль камеры к опенсорсным моделям. Пока работает с LVDM/VideoCrafter. Поддержка SVD и AnimateDiff подъедет позже, хотя в последнем контроль камеры точно есть.
HarmonyView: генерим из одной картинки разные углы обзора для получения 3D. Основано на SyncDreamer.
AGAP: редактируем 3D сцену через стилизацию, интерактивное рисование, и сегментацию.
PlatoNeRF: инструмент для получения новых углов обзора в 3D с использование NeRF и лидаров.
DreamDistribution: даём нейронке рефы и она генерит схожее в 2D или 3D.
LangSplat: сегментируем объекты в 3D, используя гауссианы.
OneFormer: тоже мультизадачный фреймворк для сегментации.
UniRef++: сегментируем что-угодно на картинках и видео по рефу.
SPM: удаляем или изменяем объекты на картинках так, чтобы они смотрелись концептуально выдержанно.
TF-T2V: text-2-video фреймворк для генерации видео на основе датасета без аннотаций.
HD Painter: инпейнтинг с учётом контекста.
Apple: тоже выпустили свой сегментатор объектов на картинках Ferret.
🎸 ЗВУК 🎸
Korus AI: в коллабе с лейблом mau5trap запустили конкурс AI-ремиксов на треки Deadmau5.
🤖 ЧАТЫ 🤖
MetaGPT: появился веб-интерфейс мощного фреймворка из AI-агентов, реализующего полный цикл разработки программного обеспечения.
Argilla: выпустили Notux 8x7B-v1 файнтюн Mixtral, который показывает себя лучше базовой модели.
Microsoft: используем Windows AI Studio для разработки и файнтюна разных LLM c Hugging Face локально или через Azure.
Также они выпустили Copilot на Android, с бесплатным чатом на GPT-4 и DALLE 3. Может понадобиться VPN.
OpenChat: ещё одна опенсорсная альтернатива GPT-3.5.
VCoder: это VLM, использующая сегментацию и карты глубины для улучшения чата по картинкам.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Pika 1.0 теперь доступен всем, а не только по вейтлисту.
AnyDoor: демо виртуальной примерочной.
MotionDirector: теперь можно настраивать стиль объектов в видео и как они должны появляться в кадре.
MotionCtrl: пришиваем контроль камеры к опенсорсным моделям. Пока работает с LVDM/VideoCrafter. Поддержка SVD и AnimateDiff подъедет позже, хотя в последнем контроль камеры точно есть.
HarmonyView: генерим из одной картинки разные углы обзора для получения 3D. Основано на SyncDreamer.
AGAP: редактируем 3D сцену через стилизацию, интерактивное рисование, и сегментацию.
PlatoNeRF: инструмент для получения новых углов обзора в 3D с использование NeRF и лидаров.
DreamDistribution: даём нейронке рефы и она генерит схожее в 2D или 3D.
LangSplat: сегментируем объекты в 3D, используя гауссианы.
OneFormer: тоже мультизадачный фреймворк для сегментации.
UniRef++: сегментируем что-угодно на картинках и видео по рефу.
SPM: удаляем или изменяем объекты на картинках так, чтобы они смотрелись концептуально выдержанно.
TF-T2V: text-2-video фреймворк для генерации видео на основе датасета без аннотаций.
HD Painter: инпейнтинг с учётом контекста.
Apple: тоже выпустили свой сегментатор объектов на картинках Ferret.
🎸 ЗВУК 🎸
Korus AI: в коллабе с лейблом mau5trap запустили конкурс AI-ремиксов на треки Deadmau5.
🤖 ЧАТЫ 🤖
MetaGPT: появился веб-интерфейс мощного фреймворка из AI-агентов, реализующего полный цикл разработки программного обеспечения.
Argilla: выпустили Notux 8x7B-v1 файнтюн Mixtral, который показывает себя лучше базовой модели.
Microsoft: используем Windows AI Studio для разработки и файнтюна разных LLM c Hugging Face локально или через Azure.
Также они выпустили Copilot на Android, с бесплатным чатом на GPT-4 и DALLE 3. Может понадобиться VPN.
OpenChat: ещё одна опенсорсная альтернатива GPT-3.5.
VCoder: это VLM, использующая сегментацию и карты глубины для улучшения чата по картинкам.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Neurogen
UltimateVocalRemover - раскладываем аудио на компоненты
Что умеет Ultimate Vocal Remover?
Разделять аудио файлы на мультитреки (можно достать барабаны, вокал, бас и т.д.),
разделять вокал и инструментал (создание минусовок),
удаление артефактов из аудио (чистка от шумов, ревера и т.д.),
изменение длительности, питча аудио и другое. Подробнее можно прочитать тут.
Скачать
Для Mac и Windows есть готовые установщики. Все остальное можно найти на GitHub странице проекта.
Мануал на русском
Что умеет Ultimate Vocal Remover?
Разделять аудио файлы на мультитреки (можно достать барабаны, вокал, бас и т.д.),
разделять вокал и инструментал (создание минусовок),
удаление артефактов из аудио (чистка от шумов, ревера и т.д.),
изменение длительности, питча аудио и другое. Подробнее можно прочитать тут.
Скачать
Для Mac и Windows есть готовые установщики. Все остальное можно найти на GitHub странице проекта.
Мануал на русском
Очень классно! Ребята из @aifilmmaker продолжают пилить годный контент с помощью нейронок.
Forwarded from Ai Filmmaker (Dmitriy Alekseev)
Media is too big
VIEW IN TELEGRAM
Memories of winter holidays (Ai animation)
Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov
Music: Hip-hop classica
Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov
Music: Hip-hop classica
С Новым Годом, котаны! Пусть в 2024-м нейронки помогут вам освободиться от рутины, реализовать креативные интересные проекты, и притянуть к себе лавину лавешек, которую вы оседлаете. Веселья каждую секунду пространства!
Psy Eyes
This media is not supported in the widget
VIEW IN TELEGRAM
Дайджест:
📹 ВИДЕО + АРТ 🎨
Nvidia: обновили TensorRT, ускоритель генераций на основе SD, до версии V 0.2. Появилась поддержка генерации видео через SVD, лор на SDXL, можно комбинировать лоры, и прочее по мелочи.
Luma: 3D генератор Genie вышел в релиз V 1.0 на сайте и в iOS приложении. Улучшилось качество мешей и материалов.
Triplane Gaussian: быстрый генератор гауссианов по одной картинке.
Pika: ввели подписки. На бесплатном тарифе 30 кредитов, которых хватит на 9 секунд генерации видео. Кредиты восстанавливаются ежедневно. Платки варьируются от 8$ до $58 в месяц. На самом деле я удивлён, что они ввели это только сейчас.
Hand Refiner: моделька заточенная под исправление кривых рук на генерациях.
Alibaba: меняем фон, одежду и вписываем объекты в нужный контекст с Replace Anything.
У PixArt появилась LCM модель, демки для Alpha генератора, и готовится Betta генератор.
Moore Threads: выкатили свою продвинутую версию AnimateAnyone для получения анимации человека по одному фото. Также запустили платформу для AI-контента Maliang.
Anim-400K: датасет для автоматизированного дубляжа с японского на английский и наоборот.
Демка апскейлера зашакаленных изображений PASD Magnify.
Получаем 3D модели животных по фото.
Open-Vocabulary SAM: сегментируем объекты на картинках по клику.
audio2photoreal: скармливаем запись диалога и поучаем 2 анимированных аватара.
Меняем текст на изображении с учётом контекста.
CoTracker запрещёнки теперь может отслеживать в 10 раз больше точек на видео.
MotionGPT: генерим текстом движения персонажа или получаем описание движений.
🎸 ЗВУК 🎸
Royal: выкатили Sonic для генерации ремиксов на треки известных артистов, их минтингом ончейн, и возможностью монетизации через дистрибуцию и прочее. Сейчас можно сделать рем на 3LAU. Есть похожий проект — Korus.
Запрещёнка выпустила генератор музыки MAGNeT, который вроде как выдаёт аудио с меньшими артефактами и быстрее, но не могу сказать, что звучит сильно лучше MusicGen. Ещё зарелизили SeamlessExpressive, модель для высококачественного голосового перевода с сохранением интонации автора.
OpenVoice: открытая модель для клонирования голоса с контролем над интонациями и другими эмоциональными деталями.
Tencent: генерим музыку с помощью M2UGEN на основе текста, видео или картинок, чатимся по ней, и редактируем промтом. Качество пока не очень, но посмотрим куда пойдёт. Свободная лицензия MIT.
DreamTalk: липсинк голоса с указанным фото.
Nvidia: переводим голос в текст с помощью Parakeet.
🤖 ЧАТЫ 🤖
Видеогайд как зафайнтюнить Mixtral 8x7B под себя. Ранее от них же вышел гайд как зафайнтюнить Mistral.
С помощью Gradio Lite можно можно строить бессерверные AI-приложения, которые будут работать приватно прямо в браузере. Есть Playground чтобы потестить код в реальном времени.
На выставке CES 2024 AMD представили видюху RX 7600 XT и процессоры серии Ryzen 8000 со встроенным нейронным NPU-ускорителем для работы с нейросетями без использования видеокарты. Intel тоже внедряет NPU в свои чипы. Nvidia ответили видюхами 40-й серии Super: RTX 4080 Super, RTX 4070 Ti Super, RTX 4070 Super + ранее анонсировали 4090 D как решение для обхода санкций. Из софта показали Audio2face для липсинка, NPC с которыми можно общаться голосом в играх, Convai для быстрого создания аватаров, RTX Chat для работы с LLM, и iStock как аналог Firefly. Мобильные процессоры от Google и Qualcomm берут вектор на локальный инференс AI на телефоне. Ноутбуки Microsoft обзаведутся кнопкой для запуска AI-ассистента Copilot. Также показали NPU-ускорители в формфакторах NVMe и PCI-E карт от Panmnesia, Neuchips, DeepX, и других производителей.
NeuralMagic: Ламу 2 запустили на CPU и зафайнтюнили на датасете связанным с математикой.
OpenAI: запустили GPT Store. В каталоге уже 3+ млн пользовательских GPT. Есть фильтрация и каждую неделю будут кураторские подборки. Магазин доступен подписчикам Plus, Enterprise, а также нового тарифа Team. Позже подъедет монетизация GPT, но только в определённых странах.
OpenChat: производительная 7B LLM теперь доступна через меню Hugging Chat.
📹 ВИДЕО + АРТ 🎨
Nvidia: обновили TensorRT, ускоритель генераций на основе SD, до версии V 0.2. Появилась поддержка генерации видео через SVD, лор на SDXL, можно комбинировать лоры, и прочее по мелочи.
Luma: 3D генератор Genie вышел в релиз V 1.0 на сайте и в iOS приложении. Улучшилось качество мешей и материалов.
Triplane Gaussian: быстрый генератор гауссианов по одной картинке.
Pika: ввели подписки. На бесплатном тарифе 30 кредитов, которых хватит на 9 секунд генерации видео. Кредиты восстанавливаются ежедневно. Платки варьируются от 8$ до $58 в месяц. На самом деле я удивлён, что они ввели это только сейчас.
Hand Refiner: моделька заточенная под исправление кривых рук на генерациях.
Alibaba: меняем фон, одежду и вписываем объекты в нужный контекст с Replace Anything.
У PixArt появилась LCM модель, демки для Alpha генератора, и готовится Betta генератор.
Moore Threads: выкатили свою продвинутую версию AnimateAnyone для получения анимации человека по одному фото. Также запустили платформу для AI-контента Maliang.
Anim-400K: датасет для автоматизированного дубляжа с японского на английский и наоборот.
Демка апскейлера зашакаленных изображений PASD Magnify.
Получаем 3D модели животных по фото.
Open-Vocabulary SAM: сегментируем объекты на картинках по клику.
audio2photoreal: скармливаем запись диалога и поучаем 2 анимированных аватара.
Меняем текст на изображении с учётом контекста.
CoTracker запрещёнки теперь может отслеживать в 10 раз больше точек на видео.
MotionGPT: генерим текстом движения персонажа или получаем описание движений.
🎸 ЗВУК 🎸
Royal: выкатили Sonic для генерации ремиксов на треки известных артистов, их минтингом ончейн, и возможностью монетизации через дистрибуцию и прочее. Сейчас можно сделать рем на 3LAU. Есть похожий проект — Korus.
Запрещёнка выпустила генератор музыки MAGNeT, который вроде как выдаёт аудио с меньшими артефактами и быстрее, но не могу сказать, что звучит сильно лучше MusicGen. Ещё зарелизили SeamlessExpressive, модель для высококачественного голосового перевода с сохранением интонации автора.
OpenVoice: открытая модель для клонирования голоса с контролем над интонациями и другими эмоциональными деталями.
Tencent: генерим музыку с помощью M2UGEN на основе текста, видео или картинок, чатимся по ней, и редактируем промтом. Качество пока не очень, но посмотрим куда пойдёт. Свободная лицензия MIT.
DreamTalk: липсинк голоса с указанным фото.
Nvidia: переводим голос в текст с помощью Parakeet.
🤖 ЧАТЫ 🤖
Видеогайд как зафайнтюнить Mixtral 8x7B под себя. Ранее от них же вышел гайд как зафайнтюнить Mistral.
С помощью Gradio Lite можно можно строить бессерверные AI-приложения, которые будут работать приватно прямо в браузере. Есть Playground чтобы потестить код в реальном времени.
На выставке CES 2024 AMD представили видюху RX 7600 XT и процессоры серии Ryzen 8000 со встроенным нейронным NPU-ускорителем для работы с нейросетями без использования видеокарты. Intel тоже внедряет NPU в свои чипы. Nvidia ответили видюхами 40-й серии Super: RTX 4080 Super, RTX 4070 Ti Super, RTX 4070 Super + ранее анонсировали 4090 D как решение для обхода санкций. Из софта показали Audio2face для липсинка, NPC с которыми можно общаться голосом в играх, Convai для быстрого создания аватаров, RTX Chat для работы с LLM, и iStock как аналог Firefly. Мобильные процессоры от Google и Qualcomm берут вектор на локальный инференс AI на телефоне. Ноутбуки Microsoft обзаведутся кнопкой для запуска AI-ассистента Copilot. Также показали NPU-ускорители в формфакторах NVMe и PCI-E карт от Panmnesia, Neuchips, DeepX, и других производителей.
NeuralMagic: Ламу 2 запустили на CPU и зафайнтюнили на датасете связанным с математикой.
OpenAI: запустили GPT Store. В каталоге уже 3+ млн пользовательских GPT. Есть фильтрация и каждую неделю будут кураторские подборки. Магазин доступен подписчикам Plus, Enterprise, а также нового тарифа Team. Позже подъедет монетизация GPT, но только в определённых странах.
OpenChat: производительная 7B LLM теперь доступна через меню Hugging Chat.
Mergekit: инструментарий для смешивания LLM'ок.
Кормим языковые модели TOFU, для забыванияприватных/проприетарных нужных вещей, которые были в тренировочном датасете.
Nvidia: смешали TensorRT с RAG и Llamaindex, чтобы улучшить ответы языковых моделей на ламе.
Google: с помощью фреймворка Patchscope можно простым языком узнать у LLM её внутреннюю структуру, и другие детали.
DeepSeek: выпустили MoE (Mixture of Experts) модель с 16B параметрами. Скоро каждый чат-бот будет MoE как Mixtral. Вот ещё MoE на двух или четырёх маленьких Phi от Microsoft.
Alibaba: демка Qwen-72B на HF.
LittleStory: генерим сказки для детей с иллюстрациями.
Расширяем контекстное окно LLM с 4к до 400к с помощью Activation Beacon. Плюс ещё одна бумага Infinite-LLM на эту тему.
LiteLama: можно погонять ламу 2 на телефоне, 460М параметров. Также появилась TinyLlama, маленькая, но способная с 1.1B параметров.
Clipper: конвертер и кроулер из HTML в Markdown.
Tencent: дотренировала ламу 2-7B на коде и матане и получили LLaMA-Pro 8B.
Alibaba: выпустили Qwen-VL-Plus для чата по картинкам. В этой версии лучше работа разными форматами кадра и мелким текстом.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Кормим языковые модели TOFU, для забывания
Nvidia: смешали TensorRT с RAG и Llamaindex, чтобы улучшить ответы языковых моделей на ламе.
Google: с помощью фреймворка Patchscope можно простым языком узнать у LLM её внутреннюю структуру, и другие детали.
DeepSeek: выпустили MoE (Mixture of Experts) модель с 16B параметрами. Скоро каждый чат-бот будет MoE как Mixtral. Вот ещё MoE на двух или четырёх маленьких Phi от Microsoft.
Alibaba: демка Qwen-72B на HF.
LittleStory: генерим сказки для детей с иллюстрациями.
Расширяем контекстное окно LLM с 4к до 400к с помощью Activation Beacon. Плюс ещё одна бумага Infinite-LLM на эту тему.
LiteLama: можно погонять ламу 2 на телефоне, 460М параметров. Также появилась TinyLlama, маленькая, но способная с 1.1B параметров.
Clipper: конвертер и кроулер из HTML в Markdown.
Tencent: дотренировала ламу 2-7B на коде и матане и получили LLaMA-Pro 8B.
Alibaba: выпустили Qwen-VL-Plus для чата по картинкам. В этой версии лучше работа разными форматами кадра и мелким текстом.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Спидран по новостям за выхи
DragNUWA вышла в тираж и её уже совместили со Stable Video Diffusion (SVD).
Можно генерить видео на основе картинок с описанием и стрелочками для контроля движения в кадре.
Оригинальная NUWA была анонсирована Microsoft в прошлом году и её код так и не был опубликован.
Если демо не работает попробуйте скачать с гитхаба и запустить локально.
Сайт
Гитхаб
Демо
ComfyUI
Можно генерить видео на основе картинок с описанием и стрелочками для контроля движения в кадре.
Оригинальная NUWA была анонсирована Microsoft в прошлом году и её код так и не был опубликован.
Если демо не работает попробуйте скачать с гитхаба и запустить локально.
Сайт
Гитхаб
Демо
ComfyUI