Нейронавт | Нейросети в творчестве

GLM-4.7 Flash

Облегченная версия GLM-4.7 на 30B параметров, с контекстным окном в 128К на архитектуре MoE.

Баланс между производительностью и эффективностью

Подходит для кода, креативного письма, перевода, задач с длинным контекстом и ролевых моделей

GLM-4.7-Flash: бесплатно (1 одновременный запрос)
GLM-4.7-FlashX: высокоскоростной и доступный по цене вариант

HF
Кванты
Демо
Демо 2
API

#assistant #coding

👍14❤1🔥1

1.92K viewsedited 06:13

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Waypoint-1

Генератор интерактивных игровых миров в реальном времени от Overworld, ориентированный на локальный запуск

Да, он легкий и быcтрый, но но совершенно не помнит что за спиной. Зато легкий и быстрый. Бесполезная штука

Есть модели small (12.5 ГБ) и medium - не отображается в репо

Гитхаб
HF
Попробовать

#world #text2world

👍8😁1

2.38K views07:11

Нейронавт | Нейросети в творчестве

1:14

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

LTXStudio заколабились с Elevenlabs и сделали Audio-to-Video - оживление картинки по звуку

#audio2video

🔥12👍4🥴2😁1

2.29K views08:11

Нейронавт | Нейросети в творчестве

1:15

This media is not supported in your browser

VIEW IN TELEGRAM

Motive (MOTIon attribution for Video gEneration)

В NVIDIA придумали инструмент который помогает понять, какие обучающие клипы улучшают или ухудшают динамику движения в сгенерированных видео

Прикрутили к Wan 2.1

Код ждем

#optimization

❤6👍2

2.11K views09:12

Нейронавт | Нейросети в творчестве

CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

Оживлятор сразу нескольких персонажей на изображении по образцу движения

Ну это совершенно какая-то нишевая штука когда нужно чтоб все одинаково двигались

Код ждем

#characteranimation #image2video #pose2video

👍8🤔1

2.1K views10:13

Нейронавт | Нейросети в творчестве

Qwen-Image-Edit-2511-NVFP4

Реддит

NVFP4 квант #qie2511

👍15🌚2🔥1

2.45K views11:19

Нейронавт | Нейросети в творчестве

Совет на 2026 год — освойте вайб-маркетинг. ИИ уже создаёт стратегии, лендинги, креативы и тексты быстрее и качественнее любой команды

И те, кто освоит ИИ-маркетинг сейчас, будут зарабатывать в разы больше тех, кто всё ещё делает всё вручную

Разобраться в этом с нуля поможет канал SurgayGPT. Там простым языком объясняют, как работать с ИИ, какие связки реально дают результат, как запустить своё ИИ-агентство и где брать клиентов

Подписывайтесь и забирайте в закрепе бесплатный старт-пак в вайб-маркетинге: @Surgay_GPT

👎9🍌2❤1👍1😁1

1.87K views16:07

Нейронавт | Нейросети в творчестве

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

Успешно внедрился в группу человеков. Приняли за своего, кажется ничего не подозревают.

#robot

😁28❤2👍2

1.93K views18:22

Нейронавт | Нейросети в творчестве

VibeVoice-ASR

Распознавалка речи от Microsoft

— обрабатывает аудио длиной до 60 минут за один раз, не нарезая на кусочки, поэтому лучше понимает общий смысл и не теряет контекст

— распознаёт, кто что сказал и когда, ставит временные метки

— учитывает специальные слова, которые ей даёт пользователь, например имена или технические термины, чтобы точнее работать с узкоспециализированным контентом

Гитхаб
HF
Демо1
Демо2

Спасибо @m_franz

#asr #stt #speech2text

👍16🔥7❤5

2.34K views06:09

Нейронавт | Нейросети в творчестве

В Ollama v0.14.3 (среда для работы с LLM) добавили генерацию изображений

Доступны Z-Image Turbo и Flux.2 Klein

Команды:

ollama run x/z-image-turbo

ollama run x/flux2-klein

Заявлена поддержка macOS. Windows и Linux обещают позже.

Спасибо @Endorpheen

#Flux2 #ZImage #macos #tools

👍7🔥5❤1

8.85K views07:11

Нейронавт | Нейросети в творчестве

FLUX.2-klein-base-4b-fp8

Официальная 4B-fp8 версия Flux Klein

#flux2

👍14🤔2

2.3K views08:11

Нейронавт | Нейросети в творчестве

FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

Мультимодальная диалоговая модель для естественного голосового взаимодействия с пользователем - рилтаймовая говорилка с клонированием голоса

Ризонер на базе Qwen2.5-Omni-3B
Бэкбоун на Llama3
Частота дискретизации 24КГц
Задержка <150 мс

Только английский

Жаль что авторы не озаботились демонстрацией возможностей модели

Гитхаб
HF
MS
Офсайт

Спасибо @EvgenyiPerm

#dialog #alm #voicecloning

👍4

1.72K views09:12

Нейронавт | Нейросети в творчестве

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

Перенос чего угодно с видео на видео на базе Wan 2.1

- перенос камеры
- перенос движения
- перенос эффекта
- перенос персонажа/лица
- перенос стиля
- и всего этого в любых комбинациях

Гитхаб код ждем

#videoediting #cameracontrol #motiontransfer #referencing

🔥21👍2

2.14K views10:13

Нейронавт | Нейросети в творчестве

Segment anything ... Fast

команда PyTorch переписала модель SAM от Meta и ускорила её в 8 раз без потери точности, используя оптимизации PyTorch

Гитхаб

#optimization #segmentation #video2mask #image2mask

❤16🔥12👍1

2.05K views11:14

Нейронавт | Нейросети в творчестве

#ltx2

👍1

1.61K views12:17

Нейронавт | Нейросети в творчестве

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

Энциклопедия LTX.

Для тех, кто локально генерит видосы.

Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу

В общем ЛТХ Клондайк

https://github.com/wildminder/awesome-ltx2

@cgevent

GitHub

GitHub - wildminder/awesome-ltx2: All available LTX-2 models, encoders, workflows, LoRAs for ComfyUI

All available LTX-2 models, encoders, workflows, LoRAs for ComfyUI - wildminder/awesome-ltx2

👍11🔥3

1.04K views12:17

Нейронавт | Нейросети в творчестве

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Inworld TTS-1.5

Коммерческая рилтаймовая говорилка, лидер TTS на Artificial Analisys arena

— работает быстрее предшествующих версий и многих аналогов — задержка до первого звука меньше 250 мс для версии Max и меньше 130 мс для Mini

— поддерживает 15 языков, включая русский - на плейграунде есть 4 русских голоса

— примерно в 25 раз дешевле аналогов

— доступна для развёртывания в облаке и на собственной инфраструктуре клиента

Есть две версии модели:

— Max — для большинства приложений, обеспечивает баланс качества и задержки

— Mini — для приложений, где критически важна минимальная задержка

Плейграунд

#tts #text2speech #realtime #russian

❤8👍2

1.87K views13:17

About

Blog

Apps

Platform