#ябвзял
Тут прошли утечки про RTX 5090.
Самое главное - 32 Гига видео-памяти.
Не скажу, что много, для наших ИИ-нужд хорошо бы смотрелось 48 Гиг.
32GB of GDDR7 memory on a 512-bit bus, with 21,760 CUDA cores.
Блок питания вам понадобится еще мощнее, плюс 150W к потреблению, относительно 4090.
Сроки? На CES 2025 в январе будут новости про это.
p.S. 5080 с 16гиг VRAM точно не имеет никакого смысла.
Тут прошли утечки про RTX 5090.
Самое главное - 32 Гига видео-памяти.
Не скажу, что много, для наших ИИ-нужд хорошо бы смотрелось 48 Гиг.
32GB of GDDR7 memory on a 512-bit bus, with 21,760 CUDA cores.
Блок питания вам понадобится еще мощнее, плюс 150W к потреблению, относительно 4090.
Сроки? На CES 2025 в январе будут новости про это.
p.S. 5080 с 16гиг VRAM точно не имеет никакого смысла.
🔥26👍14❤1
Automatic1111 только для озвучки.
Тут в коментах прошли вопросы про TTS.
Смотрите, вот для моделей генерации картинок есть Web интерфейсы типа Forge, Automatic или Fooocus
Для запуска разных LLM есть LM Studio, Ollama или, простихоспади, Убабуга.
Оказывается есть аналогичный интерфейс для звука: для запуска опен-сорсных озвучивателей текста, клонирования голоса и даже генерации музыки.
Проект не новый, но недавно хорошо обновился. Причем там есть поддержка целого выводка моделей:
Bark (protoSuno), MusicGen + AudioGen, Tortoise, RVC, Vocos, Demucs, SeamlessM4T, MAGNeT, Stable Audio, Maha TTS, MMS, и других..
https://github.com/rsxdalv/tts-generation-webui
https://rsxdalv.github.io/tts-generation-webui/
Ну и если вы гик, то загляните в Silly Tavern, пропустить ллм-другую с tts наперевес.
https://github.com/SillyTavern/SillyTavern
@cgevent
Тут в коментах прошли вопросы про TTS.
Смотрите, вот для моделей генерации картинок есть Web интерфейсы типа Forge, Automatic или Fooocus
Для запуска разных LLM есть LM Studio, Ollama или, простихоспади, Убабуга.
Оказывается есть аналогичный интерфейс для звука: для запуска опен-сорсных озвучивателей текста, клонирования голоса и даже генерации музыки.
Проект не новый, но недавно хорошо обновился. Причем там есть поддержка целого выводка моделей:
Bark (protoSuno), MusicGen + AudioGen, Tortoise, RVC, Vocos, Demucs, SeamlessM4T, MAGNeT, Stable Audio, Maha TTS, MMS, и других..
https://github.com/rsxdalv/tts-generation-webui
https://rsxdalv.github.io/tts-generation-webui/
Ну и если вы гик, то загляните в Silly Tavern, пропустить ллм-другую с tts наперевес.
https://github.com/SillyTavern/SillyTavern
@cgevent
GitHub
GitHub - rsxdalv/TTS-WebUI: A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice…
A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice, XTTSv2, DIA, Kokoro, OpenVoice, ParlerTTS, Stable Audio, MMS, StyleTTS2, MAGNet, AudioGen, ...
🔥24👍7❤3
Хабр
Moshi: GPT4-O voice mode дома (обзор)
Intro Прежде чем приступать к самому обзору, хотелось бы обозначить отличительные черты подхода, относительно большинства диалоговых систем: Текущие системы работают в каскадной манере: сначала...
Помните Мойшу?
Это как бы конкурент OpenAI Advanced Voice Mode, который приподвзрывал интернетик в июле.
Я писал про него подробно вот тут:
https://xn--r1a.website/cgevent/8724
Помню, что мнения разделились, одним зашло, другим (и мне) - нет.
Но то, что французы смогли быстро выкатить ответочку OpenAI с относительно низкой задержкой ответа, которую можно перебивать - было круто.
Сейчас еще круче - они выложили все это в опен сорс.
https://github.com/kyutai-labs/moshi
Можете развести локально!
И вот держите очень подробную статью про устройство Мойши изнутри.
https://habr.com/ru/articles/845744/
Напоминаю, что онлайн демо тут:
https://moshi.chat/
@cgevent
Это как бы конкурент OpenAI Advanced Voice Mode, который приподвзрывал интернетик в июле.
Я писал про него подробно вот тут:
https://xn--r1a.website/cgevent/8724
Помню, что мнения разделились, одним зашло, другим (и мне) - нет.
Но то, что французы смогли быстро выкатить ответочку OpenAI с относительно низкой задержкой ответа, которую можно перебивать - было круто.
Сейчас еще круче - они выложили все это в опен сорс.
https://github.com/kyutai-labs/moshi
Можете развести локально!
И вот держите очень подробную статью про устройство Мойши изнутри.
https://habr.com/ru/articles/845744/
Напоминаю, что онлайн демо тут:
https://moshi.chat/
@cgevent
🔥25👍10❤1👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Тут народ в коментах, как бы жалуется "ох, видеогенераторы пока не дают достаточного качества для кино и больших экранов"
Мои кожаные друзья, а ничего, что у нас полгода назад (в досоровский период) не было вообще никаких видео-генераторов, кроме поедания спагетти на 0.01 уилласмита? Поделки в виде Stable Video Diffusion - не в счет - 2 секунды таскания пикселей в плоскости экрана с фейковым параллаксом. В сломо.
А ничего что год назад у нас даже мыслей об этом не было, только кипящий ад из Warp Diffusion?
Давайте чуть обождем, щас выборы в штатах пройдут в ноябре, глядишь с видосов совсем стопкран сорвут.
А пока поглядите, что УЖЕ СЕЙЧАС делает Клинг без постобработки.
Тут 3Д-шники вздрагивают и вспоминают про рейтрейс, рефракции, каустики, доф и прочих врагов рендера.
Одной кнопачкой!
Точнее одной фразой: ""Cinematic tracking close-up: A glass of white wine catching the golden sunlight on a beautifully set dining table. Soft, diffused lighting enhances the warm and inviting atmosphere."
@cgevent
Мои кожаные друзья, а ничего, что у нас полгода назад (в досоровский период) не было вообще никаких видео-генераторов, кроме поедания спагетти на 0.01 уилласмита? Поделки в виде Stable Video Diffusion - не в счет - 2 секунды таскания пикселей в плоскости экрана с фейковым параллаксом. В сломо.
А ничего что год назад у нас даже мыслей об этом не было, только кипящий ад из Warp Diffusion?
Давайте чуть обождем, щас выборы в штатах пройдут в ноябре, глядишь с видосов совсем стопкран сорвут.
А пока поглядите, что УЖЕ СЕЙЧАС делает Клинг без постобработки.
Тут 3Д-шники вздрагивают и вспоминают про рейтрейс, рефракции, каустики, доф и прочих врагов рендера.
Одной кнопачкой!
Точнее одной фразой: ""Cinematic tracking close-up: A glass of white wine catching the golden sunlight on a beautifully set dining table. Soft, diffused lighting enhances the warm and inviting atmosphere."
@cgevent
4👍87🔥48👎8❤2
Привлечение инвестиций в эпоху ИИ
Много пишу об ИИ-стартапах, но для развития проекта кроме технологии нужны деньги.
Конкретными рецептами привлечения инвестиций в своем канале делится Андрей Резинкин.
Андрей — действующей венчурный инвестор, в портфеле которого такие AI-стартапы как Aitomatic, XOR, Intone и др.
Секретный соус канала Андрея — показать процесс привлечения инвестиций в стартап именно с точки зрения инвестора.
Вот несколько характерных постов, предлагаю начать с них:
1️⃣ Какой питч-дек зацепит инвестора?
Инструкция по созданию 12 ключевых слайдов, которую вы точно законспектируете:
https://xn--r1a.website/startup_venture/520
2️⃣ Сколько денег просить у инвестора?
Рассчитываем, когда стартап выйдет в прибыль и сколько $ для этого нужно:
https://xn--r1a.website/startup_venture/274
3️⃣ Какая доля останется у фаундера после 5 раундов инвестиций?
Андрей делится google-таблицей со вшитыми формулами, чтобы вы могли сделать прогноз размытия фаундеров для своего стартапа:
https://xn--r1a.website/startup_venture/289
Вообще взгляд инвестора — это в некотором смысле «мета-анализ» ввиду огромного количества просмотренных стартапов. У Андрея есть эта насмотренность!
Если вам, как и мне, заходят авторские каналы с высокой плотностью полезностей — залетайте в канал Андрея.
#промо
Много пишу об ИИ-стартапах, но для развития проекта кроме технологии нужны деньги.
Конкретными рецептами привлечения инвестиций в своем канале делится Андрей Резинкин.
Андрей — действующей венчурный инвестор, в портфеле которого такие AI-стартапы как Aitomatic, XOR, Intone и др.
Секретный соус канала Андрея — показать процесс привлечения инвестиций в стартап именно с точки зрения инвестора.
Вот несколько характерных постов, предлагаю начать с них:
1️⃣ Какой питч-дек зацепит инвестора?
Инструкция по созданию 12 ключевых слайдов, которую вы точно законспектируете:
https://xn--r1a.website/startup_venture/520
2️⃣ Сколько денег просить у инвестора?
Рассчитываем, когда стартап выйдет в прибыль и сколько $ для этого нужно:
https://xn--r1a.website/startup_venture/274
3️⃣ Какая доля останется у фаундера после 5 раундов инвестиций?
Андрей делится google-таблицей со вшитыми формулами, чтобы вы могли сделать прогноз размытия фаундеров для своего стартапа:
https://xn--r1a.website/startup_venture/289
Вообще взгляд инвестора — это в некотором смысле «мета-анализ» ввиду огромного количества просмотренных стартапов. У Андрея есть эта насмотренность!
Если вам, как и мне, заходят авторские каналы с высокой плотностью полезностей — залетайте в канал Андрея.
#промо
Telegram
Money For Startup Андрей Резинкин
Венчурный инвестор Андрей Резинкин о привлечении инвестиций в стартапы.
Обо мне https://xn--r1a.website/startup_venture/218
Отправить питч-дек/ запросить инвестиции moneyforstartup@gmail.com
По вопросам рекламы и сотрудничества https://xn--r1a.website/rezinkin_bot
Обо мне https://xn--r1a.website/startup_venture/218
Отправить питч-дек/ запросить инвестиции moneyforstartup@gmail.com
По вопросам рекламы и сотрудничества https://xn--r1a.website/rezinkin_bot
👎20👍9
GGHead: Fast and Generalizable 3D Gaussian Heads
Помните StyleGAN и все эти https://thispersondoesnotexist.com/
Главный плюс Ганов - они быстрые.
А теперь глядите сюда. Их загнали в 3Д.
Генерация фотореалистичных 3D-голов только на основе обучения на 2D-изображениях. В отличие от существующих работ, таких как EG3D, используется эффективная растеризация 3D-гауссианов, тем самым уменьшая необходимость в каких-либо 2D-сетях сверхразрешения и обеспечечивая согласованности(!) представлений.
Генерация и рендеринг 3D-головы идут с разрешением 1К в реальном времени(!), Карл.
Также возможно добавление выражений лица или семантического контроля, подгонка отдельных изображений в реальном времени.
As 3D Gaussians are sensitive to adversarial training, we introduce tailored regularization strategies and a UV total variation loss to facilitate high geometric fidelity of the generated heads.
Ну и самое главное - есть код, ибо не китай.
https://github.com/tobias-kirschstein/gghead
Есть бумажищща:
https://tobias-kirschstein.github.io/gghead/
И отличное видео:
https://www.youtube.com/watch?v=M5vq3DoZ7RI
Гауссианы наступают...
@cgevent
Помните StyleGAN и все эти https://thispersondoesnotexist.com/
Главный плюс Ганов - они быстрые.
А теперь глядите сюда. Их загнали в 3Д.
Генерация фотореалистичных 3D-голов только на основе обучения на 2D-изображениях. В отличие от существующих работ, таких как EG3D, используется эффективная растеризация 3D-гауссианов, тем самым уменьшая необходимость в каких-либо 2D-сетях сверхразрешения и обеспечечивая согласованности(!) представлений.
Генерация и рендеринг 3D-головы идут с разрешением 1К в реальном времени(!)
Также возможно добавление выражений лица или семантического контроля, подгонка отдельных изображений в реальном времени.
As 3D Gaussians are sensitive to adversarial training, we introduce tailored regularization strategies and a UV total variation loss to facilitate high geometric fidelity of the generated heads.
Ну и самое главное - есть код, ибо не китай.
https://github.com/tobias-kirschstein/gghead
Есть бумажищща:
https://tobias-kirschstein.github.io/gghead/
И отличное видео:
https://www.youtube.com/watch?v=M5vq3DoZ7RI
Гауссианы наступают...
@cgevent
🔥36👍9❤1
Forwarded from Psy Eyes
Runway: режим Video-2-Video теперь есть и в Turbo версии Gen-3. До этого оно было только в базовой модели.
Также в Turbo завезли работу с вертикальными видео.
Твит
Сайт
Про Runway Turbo
Также в Turbo завезли работу с вертикальными видео.
Твит
Сайт
Про Runway Turbo
👍47🔥5😁2
Давайте сегодня отдохнем с ИИ-видео.
Для фана сделаем такое голосование (заодно поглядим на ботов)
Смотрите, вот вам 4 видоса. Выберите лучший на ваш кожаный вкус\глаз.
Ставьте под постом:
👍 - первый
❤️ - второй
🔥 - третий
😄 - четвертый
Если не распознали, что надо ставить - вы бот.
Если⭐️ - вы красавчик.
Потом подведем итоги, расскажу, кто есть кто и сверимся с интернетом.
@cgevent
Для фана сделаем такое голосование (заодно поглядим на ботов)
Смотрите, вот вам 4 видоса. Выберите лучший на ваш кожаный вкус\глаз.
Ставьте под постом:
👍 - первый
❤️ - второй
😄 - четвертый
Если не распознали, что надо ставить - вы бот.
Если
Потом подведем итоги, расскажу, кто есть кто и сверимся с интернетом.
@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
273🔥316👍108😁65❤11👎4😱2
А тем временем опен сорс и видеогенерация.
Вот, что генерит ореnсорсный CogVideoX-Fun (файнтюн от Алибабы) по тем же самым промптам(из предыдущего поста).
Я вчера убил пару часиков, но поставил его локально. По-взрослому, без Комфи, только хардкор, только градио-морда, только гитхаб (без особых инструкций, как положено у китайцев).
https://github.com/aigc-apps/CogVideoX-Fun
Морда оказалась на полукитайском и слегка отличается от спейсов на Hugging Face.
Режим Long Video еще не тестировал.
Модель 2B - совсем треш, поэтому сразу остался на 5B варианте.
Считает достаточно быстро, минуту на 6 сек видео с настройками по дефолту (H100). Жрет 24 гига видеопамяти.
Вчера в коменты сбрасывал NSFW, но тут не буду травмировать ничью психику.
На видео примеры с 50 и 100 steps на Euler. И последний это DDIM_Cog на 100 Steps. Остальное по дефолту. По ходу Steps не добавляют качества после 50.
Кстати, video2video тоже работает и как будто улучшает качество.
@cgevent
Вот, что генерит ореnсорсный CogVideoX-Fun (файнтюн от Алибабы) по тем же самым промптам(из предыдущего поста).
Я вчера убил пару часиков, но поставил его локально. По-взрослому, без Комфи, только хардкор, только градио-морда, только гитхаб (без особых инструкций, как положено у китайцев).
https://github.com/aigc-apps/CogVideoX-Fun
Морда оказалась на полукитайском и слегка отличается от спейсов на Hugging Face.
Режим Long Video еще не тестировал.
Модель 2B - совсем треш, поэтому сразу остался на 5B варианте.
Считает достаточно быстро, минуту на 6 сек видео с настройками по дефолту (H100). Жрет 24 гига видеопамяти.
Вчера в коменты сбрасывал NSFW, но тут не буду травмировать ничью психику.
На видео примеры с 50 и 100 steps на Euler. И последний это DDIM_Cog на 100 Steps. Остальное по дефолту. По ходу Steps не добавляют качества после 50.
Кстати, video2video тоже работает и как будто улучшает качество.
@cgevent
👍20😁13❤3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
А вы говорите, что chatGPT не умеет (отучен) петь в Adv. Voice Mode!
Ну как бы да, слуха воще нет, поет мимо нот, очень похоже на типичного кожаного из караоке.
Но поёт!
Забрал отсюда:
https://x.com/aj_dev_smith/status/1839472954289131947
Вот типа промпт:
I didn’t actually ask it to sing. just asked it to shout out songs over a chord progression and it started on its own. and yeah, seems like it’s trained to tune out anything other than a voice
@cgevent
Ну как бы да, слуха воще нет, поет мимо нот, очень похоже на типичного кожаного из караоке.
Но поёт!
Забрал отсюда:
https://x.com/aj_dev_smith/status/1839472954289131947
Вот типа промпт:
I didn’t actually ask it to sing. just asked it to shout out songs over a chord progression and it started on its own. and yeah, seems like it’s trained to tune out anything other than a voice
@cgevent
😁59👍15❤10🔥3👎1
Неплохое видео: FluxGym для тренировки LoRAs и последующего использования их в Forge
https://www.youtube.com/watch?v=cQLAtDvHZD8
https://www.youtube.com/watch?v=cQLAtDvHZD8
YouTube
Free FLUX LoRA Training | Easy Ai Influencer LoRA | FluxGym Tutorial
#ai #aitutorial #aiinfluencer #virtualmodels
Learn how to easily create LoRAs for FLUX for free on your own GPU with FluxGym before using the LoRAs in Forge. The tutorial shows what is important when training a LoRA in FluxGym and the many cool ways you…
Learn how to easily create LoRAs for FLUX for free on your own GPU with FluxGym before using the LoRAs in Forge. The tutorial shows what is important when training a LoRA in FluxGym and the many cool ways you…
❤16🔥8👍2😁2