Двойной 3D удар:
Wonder3D — закидываете картинку и вам генерятся виды плюс карты нормалей с разных точек обзора. Чтобы выдавался протекстурированный 3D меш надо поставить модель локально. Демо + гитхаб
Также появилась Zero123++, улучшенная версия генератора разных углов камеры по одной картинке. Здесь сам меш не генерится. Демо раз, и два, плюс гитхаб.
Wonder3D — закидываете картинку и вам генерятся виды плюс карты нормалей с разных точек обзора. Чтобы выдавался протекстурированный 3D меш надо поставить модель локально. Демо + гитхаб
Также появилась Zero123++, улучшенная версия генератора разных углов камеры по одной картинке. Здесь сам меш не генерится. Демо раз, и два, плюс гитхаб.
Плагин Luma для UE обновился и теперь поддерживает гауссианы (Gaussian Splatting), позволяющие создавать сцены с высокой четкостью в реальном времени.
Можно со всех сторон снять на видео/фото объект или помещение, а дальше рулить пролётами камеры или вырезать фотореалистичные вещи и вставлять их в другие сцены, менять освещение, добавлять эффекты.
Плагин поддерживает рендеринг как полностью объемного формата (.luma) в нерф, так и интерактивных сцен, построенных на гауссианах (.ply) — не требуется никакой работы с форматами мешей, геометрией, материалами или потоками. Можно объединить в одной сцене нерфы и гауссианы.
На втором видео пример как это можно использовать в продакшене.
Плагин и инструкция
Можно со всех сторон снять на видео/фото объект или помещение, а дальше рулить пролётами камеры или вырезать фотореалистичные вещи и вставлять их в другие сцены, менять освещение, добавлять эффекты.
Плагин поддерживает рендеринг как полностью объемного формата (.luma) в нерф, так и интерактивных сцен, построенных на гауссианах (.ply) — не требуется никакой работы с форматами мешей, геометрией, материалами или потоками. Можно объединить в одной сцене нерфы и гауссианы.
На втором видео пример как это можно использовать в продакшене.
Плагин и инструкция
This media is not supported in your browser
VIEW IN TELEGRAM
Genmo обновили генератор видео Replay до v 0.2 и теперь он может:
* генерить на основе картинки
* показывать в превью рендеринг в реальном времени
* выдавать разрешение больше 2К
* и длительность видео до 10 секунд
А я говорил здесь в комментах, что у нас будет 2К до конца года, вот только не думал что от Genmo. Время ещё есть, Pika ультра-чёткую бету уже тизерит. Runway пока молчит, хотя генераторов видео становится с каждым днём всё больше.
* генерить на основе картинки
* показывать в превью рендеринг в реальном времени
* выдавать разрешение больше 2К
* и длительность видео до 10 секунд
А я говорил здесь в комментах, что у нас будет 2К до конца года, вот только не думал что от Genmo. Время ещё есть, Pika ультра-чёткую бету уже тизерит. Runway пока молчит, хотя генераторов видео становится с каждым днём всё больше.
Forwarded from Метаверсошная
This media is not supported in your browser
VIEW IN TELEGRAM
Абсолютное величие - Шэдоухарт отплясывает у кого-то в комнате.
Не знаю как это сделано, мое предположение - стащили модельку Шэдоухарт, анимировали через Mixamo, а потом закинули в FigminXR - приложение смешанной реальности на шлеме квест 3.
Я недавно кстати купила это приложение - там можно рисовать как в Tilt Brush (потому что они заколлабились), можно создавать воксельные модели, можно загружать готовые модели со sketchfab.
Как разберусь - выложу что-нибудьтанцующего Леона из резидента
(ну вот, в комментариях подсказывают, что сделано в Virt-a-mate, а в нем чтоб разобраться - надо три высших образования получить 😞 )
Не знаю как это сделано, мое предположение - стащили модельку Шэдоухарт, анимировали через Mixamo, а потом закинули в FigminXR - приложение смешанной реальности на шлеме квест 3.
Я недавно кстати купила это приложение - там можно рисовать как в Tilt Brush (потому что они заколлабились), можно создавать воксельные модели, можно загружать готовые модели со sketchfab.
Как разберусь - выложу что-нибудь
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
PERF: генерация нерф сцен, но на основе панорам. Результат по глубине и четкости выглядит неплохо, хотя Flythrough от Lumа будет качественней и удобнее. Саму панораму можно сгенерировать например тут. Модель пригодится для преобразования панорам в 3D, генерации из текста в 3D, стилизации 3D-сцен.
Сайт
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Вот и Runway обновили свой генератор видео на GEN-2 для работы в качество. Можно потестить уже сейчас в вебе и на мобиле.
Конкуренция отличная шутка: Runway, Pika и Genmo считай синхронно притопили.
Конкуренция отличная шутка: Runway, Pika и Genmo считай синхронно притопили.
Luma представили Genie, модель для генерации 3D в дискорде.
Выбираем любую ветку #genie и пишем
Фича бесплатная на время, так что не щёлкаем.
Выбираем любую ветку #genie и пишем
/genie промт. Превью из 4 вариантов генерится за секунды, им можно поделиться по ссылке для детального рассмотрения, и поиграться с цветом/материалом. Понравившийся в превью вариант можно послать на детальную обработку нажав Refine в дискорде (отобразится в ветке #genie-refine), и далее скачать 3D модельку в .glb, чтобы закинуть в Blender или куда ещё.Фича бесплатная на время, так что не щёлкаем.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Новая модель:
— контекст длиннее. 128K токенов (365 страниц обычной книги)
— модель более аккуратна при работе с длинным текстом, не теряет то, что было в серединке
— фича для разрабов: можно заставить модель писать ответы в JSON-формате
— можно вызывать несколько функций за раз
— можно указать seed генерации, чтобы получать воспроизводимость
— скоро добавят logprobs в API
— Retrieval прямо из коробки, можно загружать документы на платформу и они будут подтягиватсья (F стартапам chatWithPDF)
— Теперь модель знает события не до сентября 2021го, а апреля 2023го
— Эта новая модель принимает картинки на вход через API
— DALLE-3 + text-to-speech (6 голосов) сегодня появятся в API
— Для GPT-4 появится файнтюнинг сегодня (но на узкую выборку пользователей)
— Custom Models: программа плотной работыт инженеров OpenAI с вашей компанией, чтобы помочь адаптировать тренировку под ваши проблемы
ЦЕНА НА GPT-4-TURBO (Sam говорит, что эта модель ещё и умнее GPT-4) уменьшена в 3 раза для промпта и в 2 раза для генерации!
Обещают скоро ещё больше ускорить GPT-4 Turbo
— контекст длиннее. 128K токенов (365 страниц обычной книги)
— модель более аккуратна при работе с длинным текстом, не теряет то, что было в серединке
— фича для разрабов: можно заставить модель писать ответы в JSON-формате
— можно вызывать несколько функций за раз
— можно указать seed генерации, чтобы получать воспроизводимость
— скоро добавят logprobs в API
— Retrieval прямо из коробки, можно загружать документы на платформу и они будут подтягиватсья (F стартапам chatWithPDF)
— Теперь модель знает события не до сентября 2021го, а апреля 2023го
— Эта новая модель принимает картинки на вход через API
— DALLE-3 + text-to-speech (6 голосов) сегодня появятся в API
— Для GPT-4 появится файнтюнинг сегодня (но на узкую выборку пользователей)
— Custom Models: программа плотной работыт инженеров OpenAI с вашей компанией, чтобы помочь адаптировать тренировку под ваши проблемы
ЦЕНА НА GPT-4-TURBO (Sam говорит, что эта модель ещё и умнее GPT-4) уменьшена в 3 раза для промпта и в 2 раза для генерации!
Обещают скоро ещё больше ускорить GPT-4 Turbo
Абстрактный промт в SDXL, Midjourney и DALLE 3
С генерацией конкретных объектов/субъектов зачастую всё довольно прямолинейно: чем детальнее описываешь промт, тем ближе результат к тому, что ищешь.
А что если закинуть то, у чего нет четкой визуализации, нечто сложно-воображаемое и несовместимое?
Промт:
Результат получается довольно артовый. А Bing ещё и может на ходу интерпретировать в чате своё творчество. Для удобства сравнения изложил всё постом на DTF. За генерацию на текущей Midjourney спасибо @ylai15
https://dtf.ru/s/595875-neyro-iskusstvo/2247232-abstraktnyy-promt-v-sdxl-midjourney-i-dalle-3
С генерацией конкретных объектов/субъектов зачастую всё довольно прямолинейно: чем детальнее описываешь промт, тем ближе результат к тому, что ищешь.
А что если закинуть то, у чего нет четкой визуализации, нечто сложно-воображаемое и несовместимое?
Промт:
Unupdatable unacceptance of unparallel unlikenessРезультат получается довольно артовый. А Bing ещё и может на ходу интерпретировать в чате своё творчество. Для удобства сравнения изложил всё постом на DTF. За генерацию на текущей Midjourney спасибо @ylai15
https://dtf.ru/s/595875-neyro-iskusstvo/2247232-abstraktnyy-promt-v-sdxl-midjourney-i-dalle-3
Дайджест:
📹 ВИДЕО + АРТ 🎨
Alibaba: выкатили I2VGen-XL для генерации видео в 1280x720.
YOLO-NAS: детектируем людей в кадре и их движение в кадре.
S-LoRA: новый метод позволяющий работать с тысячами лор на одном или ряде GPU.
EmerNeRF: прогнозирование движения на дороге с помощью нерф.
Tinygrad: проект геохота (George Hotz) сделал генератор в SD на WebGPU.
🎸 ЗВУК 🎸
Запрещёнка выкатила демо Musicgen, генерящее стерео звук. Все модели линейки обновлены. Примеры тут.
OpenAI: выпустили Whisper V3 для получения транскрипта аудио и его перевода. Можно вкидывать наговорить в диктовон, скнуть видео, или ссыль на YouTube. И ещё TTS от них.
🤖 ЧАТЫ 🤖
x.ai: Илон анонсировал свою LLM Grok-33B, которая постепенно будет раскатывать среди владельцев премиумов в твиттер. Можно будет генерить текст, код, и чатиться по контенту.
01.ai: тоже новый игрок на рынке LLM с моделью Yi. Показывает себя лучше Falcon и ламы 2, имеет контекст 200k (больше, чем GPT-4 Turbo), и опенсорс, плюс есть дружелюбная лицензия.
В LLaVA добавили интерактив, и теперь можно сегментировать объекты в кадре для удаления/замены, есть инпейтинг, и генерация на основе.
На арену чат-ботов добавили GPT-4 Turbo. Лавочку скоро прикроют, можно на халяву потестить.
DeepSeek Coder: модель для написания кода, контекст 16К, размеры до 33B, демо.
mPLUG-Owl2: обновлённая версия модели сочетающей в себе визуальную языковую модель (VLM) и большую языковую модель (LLM). Можно чатиться по картинкам, и даже даёт ссылки в ответах.
Microsoft: представили SoM (Set-of-Mark), это VLM соединённый с GPT-4V API для сегментации картинок и чата по ним.
CogVLM: ещё одна VLM, хорошо показывающая себя на бенчмарках.
CodeFuse: мульти-тасковый файнтюнинг кодовых LLM.
WebcamGPT: чат по кадрам с вебкамеры.
Исследование:
* Распределённое обучение трансформеров на ультра-длинных текстах. Получилось в 5 раз быстрее и в 10 раз дешевле вывести вывести текст, чем на 144 Nvidia V100.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Alibaba: выкатили I2VGen-XL для генерации видео в 1280x720.
YOLO-NAS: детектируем людей в кадре и их движение в кадре.
S-LoRA: новый метод позволяющий работать с тысячами лор на одном или ряде GPU.
EmerNeRF: прогнозирование движения на дороге с помощью нерф.
Tinygrad: проект геохота (George Hotz) сделал генератор в SD на WebGPU.
🎸 ЗВУК 🎸
Запрещёнка выкатила демо Musicgen, генерящее стерео звук. Все модели линейки обновлены. Примеры тут.
OpenAI: выпустили Whisper V3 для получения транскрипта аудио и его перевода. Можно вкидывать наговорить в диктовон, скнуть видео, или ссыль на YouTube. И ещё TTS от них.
🤖 ЧАТЫ 🤖
x.ai: Илон анонсировал свою LLM Grok-33B, которая постепенно будет раскатывать среди владельцев премиумов в твиттер. Можно будет генерить текст, код, и чатиться по контенту.
01.ai: тоже новый игрок на рынке LLM с моделью Yi. Показывает себя лучше Falcon и ламы 2, имеет контекст 200k (больше, чем GPT-4 Turbo), и опенсорс, плюс есть дружелюбная лицензия.
В LLaVA добавили интерактив, и теперь можно сегментировать объекты в кадре для удаления/замены, есть инпейтинг, и генерация на основе.
На арену чат-ботов добавили GPT-4 Turbo. Лавочку скоро прикроют, можно на халяву потестить.
DeepSeek Coder: модель для написания кода, контекст 16К, размеры до 33B, демо.
mPLUG-Owl2: обновлённая версия модели сочетающей в себе визуальную языковую модель (VLM) и большую языковую модель (LLM). Можно чатиться по картинкам, и даже даёт ссылки в ответах.
Microsoft: представили SoM (Set-of-Mark), это VLM соединённый с GPT-4V API для сегментации картинок и чата по ним.
CogVLM: ещё одна VLM, хорошо показывающая себя на бенчмарках.
CodeFuse: мульти-тасковый файнтюнинг кодовых LLM.
WebcamGPT: чат по кадрам с вебкамеры.
Исследование:
* Распределённое обучение трансформеров на ультра-длинных текстах. Получилось в 5 раз быстрее и в 10 раз дешевле вывести вывести текст, чем на 144 Nvidia V100.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Figma представили FigJam
Можно генерировать шаблоны и визуал, сортировать идеи по категориям и обобщать предложения команды.
https://www.figma.com/community/file/1303763169823959146/figjam-ai-playground
Можно генерировать шаблоны и визуал, сортировать идеи по категориям и обобщать предложения команды.
https://www.figma.com/community/file/1303763169823959146/figjam-ai-playground
Умельцы уже пилят сцены с помощью 3D генератора Luma. Для анимации персонажей использован Mixamo, а собрано всё в Blender.
Твит
Твит