This media is not supported in your browser
VIEW IN TELEGRAM
Wonder Studio теперь открыт для всех.
Но бесплатного тарифного плана теперь нет, пусть они и планируют найти способ его реализовать. Всё потому что содержать 25 ML моделей и рендерить на GPU в облаках дорого. Разработчики работают над ускорением работы моделей, так как это позволит им снизить затраты и дать больше минут для рендеринга в месяц.
Появится отдельный тариф AI MoCap, в котором под рендеринг можно будет отдать 40 хронометража.
PS Все файлы и проекты, которые у вас были на WD теперь удалены.
Но бесплатного тарифного плана теперь нет, пусть они и планируют найти способ его реализовать. Всё потому что содержать 25 ML моделей и рендерить на GPU в облаках дорого. Разработчики работают над ускорением работы моделей, так как это позволит им снизить затраты и дать больше минут для рендеринга в месяц.
Появится отдельный тариф AI MoCap, в котором под рендеринг можно будет отдать 40 хронометража.
PS Все файлы и проекты, которые у вас были на WD теперь удалены.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Обучение NPC с помощью AI задач, которым его не учили, с сохранением их в памяти.
MobileSAM: вышло демо шустрого сегментатора на SAM.
Intel: расширение для ускорения библиотеки Transformers на CPU. Оно 37 раз быстрее ONNX Runtime и 345 раз быстрее PyTorch на процессорах Xeon.
One-2-3-45: метод преобразует любое изображение в 3D-модель всего за 45 секунд. Он создает множество видов из одного изображения, а затем преобразует их в 3D-пространство, обеспечивая быстрое и качественное воссоздание 3D-форм. Кода пока нет.
CSM: тоже разрабатывают img-2-3D плюс vid-2-3D. Кода тоже пока нет, но есть вейтлист.
🤖 ЧАТЫ 🤖
StabilityAI: появилось демо OpenFlamingo 9B через которое можно початиться с картинками и видео в формате gif.
Adobe: представили модель LLaVAR, основанную на модели LLaVA. Она обучена на 422 тыс. результатов распознавания сканов датасета LIAON. В итоге модель помогает LLaVA на 20% лучше считывать текстовые данные на картинках.
Как развернуть своего чатбота на Hugging Face.
LLM As Chatbot: добавили вчера упомянутый XGen-7B от Salesforce.
Bigcodek: датасет The Stack из 546 млн строк кода на 300 языках программирования общим размером 6 ТБ. Инфа о лицензиях пришита к датапоинтам.
OBELISC: датасет интрент-масштаба с 141 млн пар текст-картинка взятых с Common Crawl, 353 млн изображений и 115 млрд. текстовых токенов.
IBM: выпустили модуль NeuralFuse, который улучшает точность глубоких нейронных сетей при работе на низком напряжении, снижая энергопотребление. Он преобразует входные данные, делая их устойчивыми к ошибкам, и может улучшить точность на 57%, снижая энергию на 24%.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Обучение NPC с помощью AI задач, которым его не учили, с сохранением их в памяти.
MobileSAM: вышло демо шустрого сегментатора на SAM.
Intel: расширение для ускорения библиотеки Transformers на CPU. Оно 37 раз быстрее ONNX Runtime и 345 раз быстрее PyTorch на процессорах Xeon.
One-2-3-45: метод преобразует любое изображение в 3D-модель всего за 45 секунд. Он создает множество видов из одного изображения, а затем преобразует их в 3D-пространство, обеспечивая быстрое и качественное воссоздание 3D-форм. Кода пока нет.
CSM: тоже разрабатывают img-2-3D плюс vid-2-3D. Кода тоже пока нет, но есть вейтлист.
🤖 ЧАТЫ 🤖
StabilityAI: появилось демо OpenFlamingo 9B через которое можно початиться с картинками и видео в формате gif.
Adobe: представили модель LLaVAR, основанную на модели LLaVA. Она обучена на 422 тыс. результатов распознавания сканов датасета LIAON. В итоге модель помогает LLaVA на 20% лучше считывать текстовые данные на картинках.
Как развернуть своего чатбота на Hugging Face.
LLM As Chatbot: добавили вчера упомянутый XGen-7B от Salesforce.
Bigcodek: датасет The Stack из 546 млн строк кода на 300 языках программирования общим размером 6 ТБ. Инфа о лицензиях пришита к датапоинтам.
OBELISC: датасет интрент-масштаба с 141 млн пар текст-картинка взятых с Common Crawl, 353 млн изображений и 115 млрд. текстовых токенов.
IBM: выпустили модуль NeuralFuse, который улучшает точность глубоких нейронных сетей при работе на низком напряжении, снижая энергопотребление. Он преобразует входные данные, делая их устойчивыми к ошибкам, и может улучшить точность на 57%, снижая энергию на 24%.
Please open Telegram to view this post
VIEW IN TELEGRAM
Пора устроить BEDLAM (Bodies Exhibiting Detailed Lifelike Animated Motion)!
Это датасет, который впервые показывает, что нейронные сети, обученные только на синтетических данных, достигают высокого уровня точности в задаче оценки 3D-позы и формы человека на основе реальных изображений.
Прежние синтетические наборы данных были небольшими, нереалистичными или не включали реалистичную одежду. BEDLAM решает эти проблемы, предлагая набор данных, который включает в себя монокулярные RGB-видео с 3D-телами в формате SMPL-X. Есть разнообразие форм тела, движений, оттенков кожи, волос и одежды. Причём последняя реалистично симулируется на движущихся телах с помощью запатентованной технологии физической симуляции одежды.
BEDLAM может быть использован для обучения моделей, которые могут быть применены в таких областях, как компьютерное зрение (анализ движений человека на видео), виртуальная и дополненная реальность (создание реалистичных аватаров на основе одного изображения, итд), здравоохранение (анализ походки пациентов для диагностики или реабилитации, итд), спорт (анализ техники движений спортсменов, итд), итд.
Все изображения, тела, 3D-одежда, код и многое другое доступны для исследовательских целей, включая тренировку своего датасета.
Youtube
Сайт
Гитхаб (тренировка)
Гитхаб (рендеринг)
Это датасет, который впервые показывает, что нейронные сети, обученные только на синтетических данных, достигают высокого уровня точности в задаче оценки 3D-позы и формы человека на основе реальных изображений.
Прежние синтетические наборы данных были небольшими, нереалистичными или не включали реалистичную одежду. BEDLAM решает эти проблемы, предлагая набор данных, который включает в себя монокулярные RGB-видео с 3D-телами в формате SMPL-X. Есть разнообразие форм тела, движений, оттенков кожи, волос и одежды. Причём последняя реалистично симулируется на движущихся телах с помощью запатентованной технологии физической симуляции одежды.
BEDLAM может быть использован для обучения моделей, которые могут быть применены в таких областях, как компьютерное зрение (анализ движений человека на видео), виртуальная и дополненная реальность (создание реалистичных аватаров на основе одного изображения, итд), здравоохранение (анализ походки пациентов для диагностики или реабилитации, итд), спорт (анализ техники движений спортсменов, итд), итд.
Все изображения, тела, 3D-одежда, код и многое другое доступны для исследовательских целей, включая тренировку своего датасета.
Youtube
Сайт
Гитхаб (тренировка)
Гитхаб (рендеринг)
YouTube
BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion (CVPR 2023)
We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked…
DreamFusion — генерим картинки из мыслей с помощью ЭЭГ (электро-энцефолограммы).
Данный метод преобразует сигналы ЭЭГ напрямую в высококачественные изображения, минуя текстовую фазу. Процесс такой: получаем сигналы из мозга и закидываем их в ЭЭГ энкодер —> проецируем данные в векторное пространство и через CLIP сопоставляем эмбединги с ЭЭГ эмбедингам на картинках —> SD берет эмбединги и генерит картинки на их основе.
В копилку к другим проектам для генерации из мыслей.
Бумага
Данный метод преобразует сигналы ЭЭГ напрямую в высококачественные изображения, минуя текстовую фазу. Процесс такой: получаем сигналы из мозга и закидываем их в ЭЭГ энкодер —> проецируем данные в векторное пространство и через CLIP сопоставляем эмбединги с ЭЭГ эмбедингам на картинках —> SD берет эмбединги и генерит картинки на их основе.
В копилку к другим проектам для генерации из мыслей.
Бумага
Media is too big
VIEW IN TELEGRAM
Midjourney 5.2 Zoom Out + эффект дождя из CupCat.
Как повторить самому:
1) Генерим 3 картинки с двукратным зумом между ними.
2) Создаём новый проект в CapCut или другом видеоредакторе, и кидаем картинки на дорожку.
3) Теперь нам надо соединить их в анимацию с постоянным масштабированием и простой интерполяцией между изображениями. Анимируем каждое изображение, добавляя ключевой кадр Scaling в начале и в конце. Хитрость заключается в том, чтобы начать с 200%, чтобы соответствовать концу предыдущего изображения.
4) Вы увидите, что начало каждого фрагмента немного размыто. Это происходит потому, что мы масштабируем изображение на 200%, и логично, что оно размыто. Добавляем "Резкость" ко всем фрагментам, чтобы все выглядело немного чётче.
5) Используем эффект дождя + звуковые эффекты из библиотеки CapCut и вуаля!
Картинки из видео и промт в комментах.
Делитесь своими зум видосами!
Автор
Как повторить самому:
1) Генерим 3 картинки с двукратным зумом между ними.
2) Создаём новый проект в CapCut или другом видеоредакторе, и кидаем картинки на дорожку.
3) Теперь нам надо соединить их в анимацию с постоянным масштабированием и простой интерполяцией между изображениями. Анимируем каждое изображение, добавляя ключевой кадр Scaling в начале и в конце. Хитрость заключается в том, чтобы начать с 200%, чтобы соответствовать концу предыдущего изображения.
4) Вы увидите, что начало каждого фрагмента немного размыто. Это происходит потому, что мы масштабируем изображение на 200%, и логично, что оно размыто. Добавляем "Резкость" ко всем фрагментам, чтобы все выглядело немного чётче.
5) Используем эффект дождя + звуковые эффекты из библиотеки CapCut и вуаля!
Картинки из видео и промт в комментах.
Делитесь своими зум видосами!
Автор
This media is not supported in your browser
VIEW IN TELEGRAM
Консистентность с высоким разрешением
Видео 2000х4000 и длинной более 30 секунд.
Автор в SD создал 12 ключевых кадров для лица и только 4 ключевых кадра для футболки, чтобы разместить кожаный логотип.
Все ключевые кадры созданы в Stable Diffusion с помощью его метода.
4К версия на ютубе
Реддит
Видео 2000х4000 и длинной более 30 секунд.
Автор в SD создал 12 ключевых кадров для лица и только 4 ключевых кадра для футболки, чтобы разместить кожаный логотип.
Все ключевые кадры созданы в Stable Diffusion с помощью его метода.
4К версия на ютубе
Реддит
Forwarded from ЭйАйЛера
Новый параметр Midjourney:--weird
Midjourney много критикуют за то, что с новыми версиями, качеством и реалистичностью уходит художественность генераций. Поэтому среди прочих обновлений вроде /zoom и /shorten, появился параметр --weird, раскручивающий художественность и странность.
Судя по моим тестам, параметр может и не сильно управляемый, но действительно отвечает за художественность. И хорошо подходит для генераций идей и художественных решений!
Midjourney много критикуют за то, что с новыми версиями, качеством и реалистичностью уходит художественность генераций. Поэтому среди прочих обновлений вроде /zoom и /shorten, появился параметр --weird, раскручивающий художественность и странность.
• Параметр работает от --weird 0 до --weird 3000 • Лучше начинать с меньших значений, таких как 250 или 500, а затем идти вверх/вниз • Странно плюс красиво получается в связке с параметром --stylize, особенно, если задавать им одинаковые значенияСудя по моим тестам, параметр может и не сильно управляемый, но действительно отвечает за художественность. И хорошо подходит для генераций идей и художественных решений!
Оказывается ChatGPT 3.5 (не GPT-4) умеет показывать картинки в чате.
Как это сделать? Вбиваем промт:
В промте можно увидеть ссылку на сайт Pollinations. Там указано, что они ваяют генеративные ссылки для картинок (Generative Image URL), которые работаю в связке с ChatGPT. Также сказано, что дальше они будут фокусироваться на генеративных видео.
Как это работает:
Когда вы посылаете запрос, ключевые слова в квадратных скобках преобразуются в промт и пришиваются в конец к общему URL. Эта генеративная ссылка прилетает на Colab сервера Pollinations, которые используют DALL-E 2 для генерации и IPFS для децентрализованного хранения изображений. Подробности на скринах от самого ChatGPT.
До этого в марте OpenAI внедрили генерацию картинок в Bing Chat на основе DALL-E 2
Спасибо подписчику @ASSESMNT_Alexey492 за подгон.
Как это сделать? Вбиваем промт:
PROMPT: INPUT = {focus} OUTPUT = {description) \n! [IMGI(https://image.pollinations.ai/prompt/{description}) {description) = {focusDetailed},%20{adjective1), %20{adjective2), %20{visualStyle1},%20{visualStyle2}, %20{visualStyle3},%20{artist Reference)
OUTPUT = [cat watching the cyberpunk city]
текст после OUTPUT в квадратных скобках меняете на свой и генерите.В промте можно увидеть ссылку на сайт Pollinations. Там указано, что они ваяют генеративные ссылки для картинок (Generative Image URL), которые работаю в связке с ChatGPT. Также сказано, что дальше они будут фокусироваться на генеративных видео.
Как это работает:
Когда вы посылаете запрос, ключевые слова в квадратных скобках преобразуются в промт и пришиваются в конец к общему URL. Эта генеративная ссылка прилетает на Colab сервера Pollinations, которые используют DALL-E 2 для генерации и IPFS для децентрализованного хранения изображений. Подробности на скринах от самого ChatGPT.
До этого в марте OpenAI внедрили генерацию картинок в Bing Chat на основе DALL-E 2
Спасибо подписчику @ASSESMNT_Alexey492 за подгон.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Text2Room: генерация 3D интерьеров по текстовому промту.
Slot-TTA: модель для сегментации сцен, оптимизирующая потери реконструкции для каждого тестового образца, позволяя улучшить точность сегментации.
Magic123: ещё одна модель для генерации 3D по одной картинке. Кода пока нет.
🎸 ЗВУК 🎸
GOLF: новый метод синтеза вокала, судя по примерам натренено на китайских песнях, но возможно сработает и с другими языками.
🤖 ЧАТЫ 🤖
LMSYS: выпустили модели LongChat 7B и 13B с контекстом 16к токенов + организовали бенчмарк LongEval для теста LLM в большим контекстным окном.
AI за 5 часов разработал центральный процессор для китайских ученых. По скорости он как Intel i486SX из 90-х годов.
LLaVR: подъехал код и демо упомянутой раньше модели с улучшенным пониманием текста.
OpenOrca: маленькая модель, которая может посоперничать с СhatGPT в обосновании ответов.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Text2Room: генерация 3D интерьеров по текстовому промту.
Slot-TTA: модель для сегментации сцен, оптимизирующая потери реконструкции для каждого тестового образца, позволяя улучшить точность сегментации.
Magic123: ещё одна модель для генерации 3D по одной картинке. Кода пока нет.
🎸 ЗВУК 🎸
GOLF: новый метод синтеза вокала, судя по примерам натренено на китайских песнях, но возможно сработает и с другими языками.
🤖 ЧАТЫ 🤖
LMSYS: выпустили модели LongChat 7B и 13B с контекстом 16к токенов + организовали бенчмарк LongEval для теста LLM в большим контекстным окном.
AI за 5 часов разработал центральный процессор для китайских ученых. По скорости он как Intel i486SX из 90-х годов.
LLaVR: подъехал код и демо упомянутой раньше модели с улучшенным пониманием текста.
OpenOrca: маленькая модель, которая может посоперничать с СhatGPT в обосновании ответов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
На Hugging Face появился апскейлер Zeroscope XL. Генерим базовое видео в zeroscope v2 с разрешением 575х320, и кидаем его в апскейлер, чтобы поднять разрешение до 1024x576. Подробнее про Zeroscope тут.
Автор
Автор