Метаверсище и ИИще
47.1K subscribers
5.99K photos
4.45K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
#ябвзял

Тут прошли
утечки про RTX 5090.

Самое главное - 32 Гига видео-памяти.
Не скажу, что много, для наших ИИ-нужд хорошо бы смотрелось 48 Гиг.

32GB of GDDR7 memory on a 512-bit bus, with 21,760 CUDA cores.

Блок питания вам понадобится еще мощнее, плюс 150W к потреблению, относительно 4090.

Сроки? На CES 2025 в январе будут новости про это.

p.S. 5080 с 16гиг VRAM точно не имеет никакого смысла.
🔥26👍141
Automatic1111 только для озвучки.

Тут в коментах прошли вопросы про TTS.

Смотрите, вот для моделей генерации картинок есть Web интерфейсы типа Forge, Automatic или Fooocus
Для запуска разных LLM есть LM Studio, Ollama или, простихоспади, Убабуга.
Оказывается есть аналогичный интерфейс для звука: для запуска опен-сорсных озвучивателей текста, клонирования голоса и даже генерации музыки.
Проект не новый, но недавно хорошо обновился. Причем там есть поддержка целого выводка моделей:
Bark (protoSuno), MusicGen + AudioGen, Tortoise, RVC, Vocos, Demucs, SeamlessM4T, MAGNeT, Stable Audio, Maha TTS, MMS, и других..

https://github.com/rsxdalv/tts-generation-webui
https://rsxdalv.github.io/tts-generation-webui/

Ну и если вы гик, то загляните в Silly Tavern, пропустить ллм-другую с tts наперевес.
https://github.com/SillyTavern/SillyTavern

@cgevent
🔥24👍73
Помните Мойшу?

Это как бы конкурент OpenAI Advanced Voice Mode, который приподвзрывал интернетик в июле.
Я писал про него подробно вот тут:
https://xn--r1a.website/cgevent/8724

Помню, что мнения разделились, одним зашло, другим (и мне) - нет.
Но то, что французы смогли быстро выкатить ответочку OpenAI с относительно низкой задержкой ответа, которую можно перебивать - было круто.

Сейчас еще круче - они выложили все это в опен сорс.
https://github.com/kyutai-labs/moshi

Можете развести локально!

И вот держите очень подробную статью про устройство Мойши изнутри.
https://habr.com/ru/articles/845744/

Напоминаю, что онлайн демо тут:
https://moshi.chat/

@cgevent
🔥25👍101👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Тут народ в коментах, как бы жалуется "ох, видеогенераторы пока не дают достаточного качества для кино и больших экранов"

Мои кожаные друзья, а ничего, что у нас полгода назад (в досоровский период) не было вообще никаких видео-генераторов, кроме поедания спагетти на 0.01 уилласмита? Поделки в виде Stable Video Diffusion - не в счет - 2 секунды таскания пикселей в плоскости экрана с фейковым параллаксом. В сломо.

А ничего что год назад у нас даже мыслей об этом не было, только кипящий ад из Warp Diffusion?

Давайте чуть обождем, щас выборы в штатах пройдут в ноябре, глядишь с видосов совсем стопкран сорвут.

А пока поглядите, что УЖЕ СЕЙЧАС делает Клинг без постобработки.

Тут 3Д-шники вздрагивают и вспоминают про рейтрейс, рефракции, каустики, доф и прочих врагов рендера.

Одной кнопачкой!

Точнее одной фразой: ""Cinematic tracking close-up: A glass of white wine catching the golden sunlight on a beautifully set dining table. Soft, diffused lighting enhances the warm and inviting atmosphere."

@cgevent
4👍87🔥48👎82
Привлечение инвестиций в эпоху ИИ

Много пишу об ИИ-стартапах, но для развития проекта кроме технологии нужны деньги.

Конкретными рецептами привлечения инвестиций в своем канале делится Андрей Резинкин.

Андрей — действующей венчурный инвестор, в портфеле которого такие AI-стартапы как Aitomatic, XOR, Intone и др.

Секретный соус канала Андрея — показать процесс привлечения инвестиций в стартап именно с точки зрения инвестора.

Вот несколько характерных постов, предлагаю начать с них:

1️⃣ Какой питч-дек зацепит инвестора?

Инструкция по созданию 12 ключевых слайдов, которую вы точно законспектируете:
https://xn--r1a.website/startup_venture/520

2️⃣ Сколько денег просить у инвестора?

Рассчитываем, когда стартап выйдет в прибыль и сколько $ для этого нужно:
https://xn--r1a.website/startup_venture/274

3️⃣ Какая доля останется у фаундера после 5 раундов инвестиций?

Андрей делится google-таблицей со вшитыми формулами, чтобы вы могли сделать прогноз размытия фаундеров для своего стартапа:
https://xn--r1a.website/startup_venture/289

Вообще взгляд инвестора — это в некотором смысле «мета-анализ» ввиду огромного количества просмотренных стартапов. У Андрея есть эта насмотренность!

Если вам, как и мне, заходят авторские каналы с высокой плотностью полезностей — залетайте в канал Андрея.
#промо
👎20👍9
GGHead: Fast and Generalizable 3D Gaussian Heads

Помните StyleGAN и все эти https://thispersondoesnotexist.com/

Главный плюс Ганов - они быстрые.

А теперь глядите сюда. Их загнали в 3Д.

Генерация фотореалистичных 3D-голов только на основе обучения на 2D-изображениях. В отличие от существующих работ, таких как EG3D, используется эффективная растеризация 3D-гауссианов, тем самым уменьшая необходимость в каких-либо 2D-сетях сверхразрешения и обеспечечивая согласованности(!) представлений.

Генерация и рендеринг 3D-головы идут с разрешением 1К в реальном времени(!), Карл.

Также возможно добавление выражений лица или семантического контроля, подгонка отдельных изображений в реальном времени.

As 3D Gaussians are sensitive to adversarial training, we introduce tailored regularization strategies and a UV total variation loss to facilitate high geometric fidelity of the generated heads.

Ну и самое главное - есть код, ибо не китай.
https://github.com/tobias-kirschstein/gghead
Есть бумажищща:
https://tobias-kirschstein.github.io/gghead/
И отличное видео:
https://www.youtube.com/watch?v=M5vq3DoZ7RI

Гауссианы наступают...

@cgevent
🔥36👍91
Forwarded from Psy Eyes
Runway: режим Video-2-Video теперь есть и в Turbo версии Gen-3. До этого оно было только в базовой модели.

Также в Turbo завезли работу с вертикальными видео.

Твит
Сайт
Про Runway Turbo
👍47🔥5😁2
Давайте сегодня отдохнем с ИИ-видео.

Для фана сделаем такое голосование (заодно поглядим на ботов)

Смотрите, вот вам 4 видоса. Выберите лучший на ваш кожаный вкус\глаз.

Ставьте под постом:
👍 - первый
❤️ - второй
🔥 - третий
😄 - четвертый

Если не распознали, что надо ставить - вы бот.
Если ⭐️ - вы красавчик.

Потом подведем итоги, расскажу, кто есть кто и сверимся с интернетом.

@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
273🔥316👍108😁6511👎4😱2
А тем временем опен сорс и видеогенерация.

Вот, что генерит ореnсорсный CogVideoX-Fun (файнтюн от Алибабы) по тем же самым промптам(из предыдущего поста).

Я вчера убил пару часиков, но поставил его локально. По-взрослому, без Комфи, только хардкор, только градио-морда, только гитхаб (без особых инструкций, как положено у китайцев).
https://github.com/aigc-apps/CogVideoX-Fun

Морда оказалась на полукитайском и слегка отличается от спейсов на Hugging Face.
Режим Long Video еще не тестировал.
Модель 2B - совсем треш, поэтому сразу остался на 5B варианте.

Считает достаточно быстро, минуту на 6 сек видео с настройками по дефолту (H100). Жрет 24 гига видеопамяти.

Вчера в коменты сбрасывал NSFW, но тут не буду травмировать ничью психику.

На видео примеры с 50 и 100 steps на Euler. И последний это DDIM_Cog на 100 Steps. Остальное по дефолту. По ходу Steps не добавляют качества после 50.

Кстати, video2video тоже работает и как будто улучшает качество.

@cgevent
👍20😁133🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
А вы говорите, что chatGPT не умеет (отучен) петь в Adv. Voice Mode!

Ну как бы да, слуха воще нет, поет мимо нот, очень похоже на типичного кожаного из караоке.

Но поёт!

Забрал отсюда:
https://x.com/aj_dev_smith/status/1839472954289131947

Вот типа промпт:

I didn’t actually ask it to sing. just asked it to shout out songs over a chord progression and it started on its own. and yeah, seems like it’s trained to tune out anything other than a voice

@cgevent
😁59👍1510🔥3👎1
А вы говорите, что ChatGPT зацензурирован...

@cgevent
2😁158🔥8😱7👍32