Psy Eyes
6.79K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Двойной 3D удар:

Wonder3D — закидываете картинку и вам генерятся виды плюс карты нормалей с разных точек обзора. Чтобы выдавался протекстурированный 3D меш надо поставить модель локально. Демо + гитхаб

Также появилась Zero123++, улучшенная версия генератора разных углов камеры по одной картинке. Здесь сам меш не генерится. Демо раз, и два, плюс гитхаб.
Плагин Luma для UE обновился и теперь поддерживает гауссианы (Gaussian Splatting), позволяющие создавать сцены с высокой четкостью в реальном времени.

Можно со всех сторон снять на видео/фото объект или помещение, а дальше рулить пролётами камеры или вырезать фотореалистичные вещи и вставлять их в другие сцены, менять освещение, добавлять эффекты.

Плагин поддерживает рендеринг как полностью объемного формата (.luma) в нерф, так и интерактивных сцен, построенных на гауссианах (.ply) — не требуется никакой работы с форматами мешей, геометрией, материалами или потоками. Можно объединить в одной сцене нерфы и гауссианы.

На втором видео пример как это можно использовать в продакшене.

Плагин и инструкция
This media is not supported in your browser
VIEW IN TELEGRAM
Genmo обновили генератор видео Replay до v 0.2 и теперь он может:

* генерить на основе картинки
* показывать в превью рендеринг в реальном времени
* выдавать разрешение больше 2К
* и длительность видео до 10 секунд

А я говорил здесь в комментах, что у нас будет 2К до конца года, вот только не думал что от Genmo. Время ещё есть, Pika ультра-чёткую бету уже тизерит. Runway пока молчит, хотя генераторов видео становится с каждым днём всё больше.
This media is not supported in your browser
VIEW IN TELEGRAM
Абсолютное величие - Шэдоухарт отплясывает у кого-то в комнате.

Не знаю как это сделано, мое предположение - стащили модельку Шэдоухарт, анимировали через Mixamo, а потом закинули в FigminXR - приложение смешанной реальности на шлеме квест 3.

Я недавно кстати купила это приложение - там можно рисовать как в Tilt Brush (потому что они заколлабились), можно создавать воксельные модели, можно загружать готовые модели со sketchfab.
Как разберусь - выложу что-нибудь танцующего Леона из резидента

(ну вот, в комментариях подсказывают, что сделано в Virt-a-mate, а в нем чтоб разобраться - надо три высших образования получить 😞)
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
PERF: генерация нерф сцен, но на основе панорам. Результат по глубине и четкости выглядит неплохо, хотя Flythrough от Lumа будет качественней и удобнее. Саму панораму можно сгенерировать например тут. Модель пригодится для преобразования панорам в 3D, генерации из текста в 3D, стилизации 3D-сцен.

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Вот и Runway обновили свой генератор видео на GEN-2 для работы в качество. Можно потестить уже сейчас в вебе и на мобиле.

Конкуренция отличная шутка: Runway, Pika и Genmo считай синхронно притопили.
Luma представили Genie, модель для генерации 3D в дискорде.

Выбираем любую ветку #genie и пишем /genie промт. Превью из 4 вариантов генерится за секунды, им можно поделиться по ссылке для детального рассмотрения, и поиграться с цветом/материалом. Понравившийся в превью вариант можно послать на детальную обработку нажав Refine в дискорде (отобразится в ветке #genie-refine), и далее скачать 3D модельку в .glb, чтобы закинуть в Blender или куда ещё.

Фича бесплатная на время, так что не щёлкаем.
Media is too big
VIEW IN TELEGRAM
🚨 В сеть слили дизайн iPhone 16. Подтверждено наличие трёх портов USB Type-C. Уже можно выбрать цвет и сделать предзаказ.

* 3D мемы в массы через Luma
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Новая модель:
— контекст длиннее. 128K токенов (365 страниц обычной книги)
— модель более аккуратна при работе с длинным текстом, не теряет то, что было в серединке
— фича для разрабов: можно заставить модель писать ответы в JSON-формате
— можно вызывать несколько функций за раз
— можно указать seed генерации, чтобы получать воспроизводимость
— скоро добавят logprobs в API
— Retrieval прямо из коробки, можно загружать документы на платформу и они будут подтягиватсья (F стартапам chatWithPDF)
— Теперь модель знает события не до сентября 2021го, а апреля 2023го
— Эта новая модель принимает картинки на вход через API

— DALLE-3 + text-to-speech (6 голосов) сегодня появятся в API
— Для GPT-4 появится файнтюнинг сегодня (но на узкую выборку пользователей)
— Custom Models: программа плотной работыт инженеров OpenAI с вашей компанией, чтобы помочь адаптировать тренировку под ваши проблемы

ЦЕНА НА GPT-4-TURBO (Sam говорит, что эта модель ещё и умнее GPT-4) уменьшена в 3 раза для промпта и в 2 раза для генерации!

Обещают скоро ещё больше ускорить GPT-4 Turbo
Абстрактный промт в SDXL, Midjourney и DALLE 3

С генерацией конкретных объектов/субъектов зачастую всё довольно прямолинейно: чем детальнее описываешь промт, тем ближе результат к тому, что ищешь.

А что если закинуть то, у чего нет четкой визуализации, нечто сложно-воображаемое и несовместимое?

Промт: Unupdatable unacceptance of unparallel unlikeness

Результат получается довольно артовый. А Bing ещё и может на ходу интерпретировать в чате своё творчество. Для удобства сравнения изложил всё постом на DTF. За генерацию на текущей Midjourney спасибо @ylai15

https://dtf.ru/s/595875-neyro-iskusstvo/2247232-abstraktnyy-promt-v-sdxl-midjourney-i-dalle-3
Дайджест:

📹 ВИДЕО + АРТ 🎨

Alibaba: выкатили I2VGen-XL для генерации видео в 1280x720.

YOLO-NAS: детектируем людей в кадре и их движение в кадре.

S-LoRA: новый метод позволяющий работать с тысячами лор на одном или ряде GPU.

EmerNeRF: прогнозирование движения на дороге с помощью нерф.

Tinygrad: проект геохота (George Hotz) сделал генератор в SD на WebGPU.

🎸 ЗВУК 🎸

Запрещёнка выкатила демо Musicgen, генерящее стерео звук. Все модели линейки обновлены. Примеры тут.

OpenAI: выпустили Whisper V3 для получения транскрипта аудио и его перевода. Можно вкидывать наговорить в диктовон, скнуть видео, или ссыль на YouTube. И ещё TTS от них.

🤖 ЧАТЫ 🤖

x.ai: Илон анонсировал свою LLM Grok-33B, которая постепенно будет раскатывать среди владельцев премиумов в твиттер. Можно будет генерить текст, код, и чатиться по контенту.

01.ai: тоже новый игрок на рынке LLM с моделью Yi. Показывает себя лучше Falcon и ламы 2, имеет контекст 200k (больше, чем GPT-4 Turbo), и опенсорс, плюс есть дружелюбная лицензия.

В LLaVA добавили интерактив, и теперь можно сегментировать объекты в кадре для удаления/замены, есть инпейтинг, и генерация на основе.

На арену чат-ботов добавили GPT-4 Turbo. Лавочку скоро прикроют, можно на халяву потестить.

DeepSeek Coder: модель для написания кода, контекст 16К, размеры до 33B, демо.

mPLUG-Owl2: обновлённая версия модели сочетающей в себе визуальную языковую модель (VLM) и большую языковую модель (LLM). Можно чатиться по картинкам, и даже даёт ссылки в ответах.

Microsoft: представили SoM (Set-of-Mark), это VLM соединённый с GPT-4V API для сегментации картинок и чата по ним.

CogVLM: ещё одна VLM, хорошо показывающая себя на бенчмарках.

CodeFuse: мульти-тасковый файнтюнинг кодовых LLM.

WebcamGPT: чат по кадрам с вебкамеры.

Исследование:
* Распределённое обучение трансформеров на ультра-длинных текстах. Получилось в 5 раз быстрее и в 10 раз дешевле вывести вывести текст, чем на 144 Nvidia V100.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Figma представили FigJam

Можно генерировать шаблоны и визуал, сортировать идеи по категориям и обобщать предложения команды.

https://www.figma.com/community/file/1303763169823959146/figjam-ai-playground
Умельцы уже пилят сцены с помощью 3D генератора Luma. Для анимации персонажей использован Mixamo, а собрано всё в Blender.

Твит