Дайджест:
📹 ВИДЕО + АРТ 🎨
PostShot: появилась интеграция с UE 5.4 для редактирования в нём сплатов, исправили баги при тренировке сцен и импорте/экспорте файлов, и другие улучшения.
Runway: расширили генерацию видео до 20 сек. Плюс обновили API, добавив доступ к контролю камеры Turbo.
Neurogen: появилась оптимизированная версия дипфейкера DeepFaceLab, а также FaceFusion 3.1.
Recraft: обновили свой генератор картинок до V3 и вышли в топ text-2-image моделей, обогнав Flux, MJ, Ideogram, и всех остальных. Можно бесплатно опробовать у них на сайте. Также есть версия, которая затюнена выдавать SVG.
BFL: релизнули Flux 1.1 Pro Ulta для генерации изображений в 4MP и RAW версию с имитацией "обычных фото". Доступно только по API.
Bytedance: выпустили SeeEdit для стайлтрансфера картинки с высокой точностью.
Nvidia: дропнули Llama Mesh для генерации 3D мешей по текстовому описанию с помощью LLM, плюс чата и редактирования.
DimensionX: опенсорсное создание видео с контролем камеры на основе одного изображения. На данный момент движение есть влево и вверх. Работает в связке с CogVideoX.
MagicQuill: онлайн редактирование изображение рисованием и промтом. Напоминает Invoke.
PyramidFlow: ещё один открытый видеогенератор с поддержкой Img2Video. Теперь с кадрами на основе Flux. На выходе видео 768p длиной в 10 сек. Установка через Pinokio.
Bria: обновлённый удалятор фона RMBG-2. Хорошо работает со сложной композицией, есть пакетная обработка, и можно кормить картинки как с компа, так и по ссылкам. Установка через Pinokio.
InstantX: выкатили апскейлер изображений InstantIR. Есть восстановление с точным следованием рефу или по "своему видению" (creative restoration). Установка в Pinokio.
Также они опубликовали метод более точного следования промту в t2i без тренировки + ещё одна работа на эту тему (спс @JohnDoe171).
CogVideoX: выпустили версию v 1.5 своего генератора видео с 5B параметрами. Тесты.
Vidu: обновили видеогенератор до V 1.5. Подняли качество генераций, улучшили следование промту, добавили консистентную работу с персонажами.
Добавление текста на задний фон с его настройкой.
🎸 ЗВУК 🎸
DeepL: представили Voice режим для перевода голоса в текст для бизнес сегмента.
SI: выпустили Hertz-dev, генератор речи (TTS) работающий в audio-2-audio с маленькой задержкой. Может выдавать как слова за одно человека, так и за двоих.
Hallucinator: моделька на основе Hertz выше для продолжения слов в загруженном аудио семпле.
e2f5: появилась возможность делать генерацию речи на основе фантюнов e2f5 от других людей через выбор Custom модели для инференса. На русском не видно пока тюнов.
Веб-интерфейс для работы с разными опенсорсными TTS.
🤖 ЧАТЫ 🤖
Alibaba: рвёт и мечет и после своего опенсорсного кодера, выпустили Turbo — языковую модель (LLM) с контекстом 1 млн токенов. Можно скормить книг 10, или 150 часов транскрибации речи, или 30к строк кода. Демо. API дешевле GPT-4o-mini.
Llama 3.2-11B, умеющая из коробки чатиться по визуалу, вышла в тираж и доступна в Ollama через OpenWebUI. Нужно минимум 8ГБ VRAM.
Mistral: выпустили Pixtral Large, визуальную языковую модель (VLM) для чата по визуалу, которая на бенчах лучше других открытых и закрытых, но размером 124B и её не погонять дома в отличие от Ламы 3.2-11B. Онлайн демо.
MinerU: конвертер PDF файлов в текст с markdown форматированием или JSON.
Google: выкатили Gemini-Exp-1114 и он попал в топ лидерборда LLM. Можно погонять на арене.
OpenAI: дропнули приложение ChatGPT на Windows.
Anthropic: с помощью Computer Use можно дать Claude выполнять задания на компе через API. Плюс тулза от сообщества для этого на Win/Mac... Microsoft Recall ты ли это?
AnyChat: в онлайн чат, где есть последние модели Qwen, Claude итд, добавили DeepSeek v2.5. Некоторые можно потестить бесплатно.
Cinnamon: выпустили Kotaemon, фреймворк, который пользователи могут использовать для чата по докам, а разрабы как шаблон для RAG.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
PostShot: появилась интеграция с UE 5.4 для редактирования в нём сплатов, исправили баги при тренировке сцен и импорте/экспорте файлов, и другие улучшения.
Runway: расширили генерацию видео до 20 сек. Плюс обновили API, добавив доступ к контролю камеры Turbo.
Neurogen: появилась оптимизированная версия дипфейкера DeepFaceLab, а также FaceFusion 3.1.
Recraft: обновили свой генератор картинок до V3 и вышли в топ text-2-image моделей, обогнав Flux, MJ, Ideogram, и всех остальных. Можно бесплатно опробовать у них на сайте. Также есть версия, которая затюнена выдавать SVG.
BFL: релизнули Flux 1.1 Pro Ulta для генерации изображений в 4MP и RAW версию с имитацией "обычных фото". Доступно только по API.
Bytedance: выпустили SeeEdit для стайлтрансфера картинки с высокой точностью.
Nvidia: дропнули Llama Mesh для генерации 3D мешей по текстовому описанию с помощью LLM, плюс чата и редактирования.
DimensionX: опенсорсное создание видео с контролем камеры на основе одного изображения. На данный момент движение есть влево и вверх. Работает в связке с CogVideoX.
MagicQuill: онлайн редактирование изображение рисованием и промтом. Напоминает Invoke.
PyramidFlow: ещё один открытый видеогенератор с поддержкой Img2Video. Теперь с кадрами на основе Flux. На выходе видео 768p длиной в 10 сек. Установка через Pinokio.
Bria: обновлённый удалятор фона RMBG-2. Хорошо работает со сложной композицией, есть пакетная обработка, и можно кормить картинки как с компа, так и по ссылкам. Установка через Pinokio.
InstantX: выкатили апскейлер изображений InstantIR. Есть восстановление с точным следованием рефу или по "своему видению" (creative restoration). Установка в Pinokio.
Также они опубликовали метод более точного следования промту в t2i без тренировки + ещё одна работа на эту тему (спс @JohnDoe171).
CogVideoX: выпустили версию v 1.5 своего генератора видео с 5B параметрами. Тесты.
Vidu: обновили видеогенератор до V 1.5. Подняли качество генераций, улучшили следование промту, добавили консистентную работу с персонажами.
Добавление текста на задний фон с его настройкой.
🎸 ЗВУК 🎸
DeepL: представили Voice режим для перевода голоса в текст для бизнес сегмента.
SI: выпустили Hertz-dev, генератор речи (TTS) работающий в audio-2-audio с маленькой задержкой. Может выдавать как слова за одно человека, так и за двоих.
Hallucinator: моделька на основе Hertz выше для продолжения слов в загруженном аудио семпле.
e2f5: появилась возможность делать генерацию речи на основе фантюнов e2f5 от других людей через выбор Custom модели для инференса. На русском не видно пока тюнов.
Веб-интерфейс для работы с разными опенсорсными TTS.
🤖 ЧАТЫ 🤖
Alibaba: рвёт и мечет и после своего опенсорсного кодера, выпустили Turbo — языковую модель (LLM) с контекстом 1 млн токенов. Можно скормить книг 10, или 150 часов транскрибации речи, или 30к строк кода. Демо. API дешевле GPT-4o-mini.
Llama 3.2-11B, умеющая из коробки чатиться по визуалу, вышла в тираж и доступна в Ollama через OpenWebUI. Нужно минимум 8ГБ VRAM.
Mistral: выпустили Pixtral Large, визуальную языковую модель (VLM) для чата по визуалу, которая на бенчах лучше других открытых и закрытых, но размером 124B и её не погонять дома в отличие от Ламы 3.2-11B. Онлайн демо.
MinerU: конвертер PDF файлов в текст с markdown форматированием или JSON.
Google: выкатили Gemini-Exp-1114 и он попал в топ лидерборда LLM. Можно погонять на арене.
OpenAI: дропнули приложение ChatGPT на Windows.
Anthropic: с помощью Computer Use можно дать Claude выполнять задания на компе через API. Плюс тулза от сообщества для этого на Win/Mac... Microsoft Recall ты ли это?
AnyChat: в онлайн чат, где есть последние модели Qwen, Claude итд, добавили DeepSeek v2.5. Некоторые можно потестить бесплатно.
Cinnamon: выпустили Kotaemon, фреймворк, который пользователи могут использовать для чата по докам, а разрабы как шаблон для RAG.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
BlockadeLabs: добавили в BlendBox возможность загружать картинки как слои и генерить в режиме коллажа без промта.
До этого там была только генерация слоёв без фона из текста... Как в LayerDiffuse.
Сайт
До этого там была только генерация слоёв без фона из текста... Как в LayerDiffuse.
Сайт
Forwarded from Denis Sexy IT 🤖
Выкатили на всех нашу WorldModel Colorization V1, как она работает я напишу чуть позже, но вот пара советов:
— Если цвета вам кажутся неудачными, то можете просто заново поставить колоризацию фото, цвета будут каждый раз разные
—
— Специально тренировали модель, чтобы она работала с любимы видами повреждений фотографий — приложил пару примеров где она различает цвета, хотя я бы не смог заметить объекты
— Если есть на счету кредиты, можете указать сколько версий картинок должно приходить (до 3х)
— Платная фича: за раз можно покрасить 100 фотографий
— Бесплатно генерируется с вотермаркой и лимитами
Планы:
— Через какое-то время можно будет промптом указать какие цвета лучше использовать
— Эта наша первая версия диффузионного колоризатора, мы знаем как его сделать и в разы лучше и точнее, но прежде чем инвестировать в него дальше мы посмотрим насколько он понравится и сколько будет денег приносить, так как тренировки стоят нам денег и это все еще предстоит окупать
Хорошего time-traveling, путник!
Ссылка:
https://neural.love/photo-colorization
— Если цвета вам кажутся неудачными, то можете просто заново поставить колоризацию фото, цвета будут каждый раз разные
—
WorldModel Colorization V1
настолько мелкие детали иногда красит, что способна убрать эффект красных фото — который очень тяжело чинится— Специально тренировали модель, чтобы она работала с любимы видами повреждений фотографий — приложил пару примеров где она различает цвета, хотя я бы не смог заметить объекты
— Если есть на счету кредиты, можете указать сколько версий картинок должно приходить (до 3х)
— Платная фича: за раз можно покрасить 100 фотографий
— Бесплатно генерируется с вотермаркой и лимитами
Планы:
— Через какое-то время можно будет промптом указать какие цвета лучше использовать
— Эта наша первая версия диффузионного колоризатора, мы знаем как его сделать и в разы лучше и точнее, но прежде чем инвестировать в него дальше мы посмотрим насколько он понравится и сколько будет денег приносить, так как тренировки стоят нам денег и это все еще предстоит окупать
Хорошего time-traveling, путник!
Ссылка:
https://neural.love/photo-colorization
GSOPs: обновлённый до V2 плагин для работы со сплатами в Houdini.
С его помощью можно импортировать, рендерить, редактировать, и экспортировать сплаты, или генерить синтетические тренировочные данные.
GSOPs эффективен в изолировании объектов, их цветокоррекции и работе с освещением, удалении шумов и артефактов, изменении мешей и анимации, а также общей сборке сцен.
Гитхаб
С его помощью можно импортировать, рендерить, редактировать, и экспортировать сплаты, или генерить синтетические тренировочные данные.
GSOPs эффективен в изолировании объектов, их цветокоррекции и работе с освещением, удалении шумов и артефактов, изменении мешей и анимации, а также общей сборке сцен.
Гитхаб
не нерфничай
В PostShot, софте для работы со сплатами, начиная с V 0.4.181 больше не будет возможности тренировать NeRF сцены — профили для этого удалены.
Это сделано, потому что: сплаты выдают лучше качество, тренируются быстрее, потребляют меньше памяти, и вызывают меньше ошибок при работе.
Если таки хотите потестить тренировку нерфов через PostShot, можете скачать предыдущие версии отсюда. Или к вашим услугам NerfStudio и аналоги.
В PostShot, софте для работы со сплатами, начиная с V 0.4.181 больше не будет возможности тренировать NeRF сцены — профили для этого удалены.
Это сделано, потому что: сплаты выдают лучше качество, тренируются быстрее, потребляют меньше памяти, и вызывают меньше ошибок при работе.
Если таки хотите потестить тренировку нерфов через PostShot, можете скачать предыдущие версии отсюда. Или к вашим услугам NerfStudio и аналоги.
Полноэкранный режим в миниапах телеги таки заработал. Плюс возможность добавлять иконки миниапок на рабочий стол мобилы, и другие ништяки.
Я всё обновил с десктопа и мобилы, но с компа (Win) пока не нахожу прил, которые бы запускались в полноэкранном режиме. А на андройде иконки не добавляются на рабочий стол. Может чего надо в настройках разрешений надо поменять.
У вас как?
Апдейт: фуллскрин работает просто не во всех апах. Тут пашет @tverse. А там, где его нет можно вручную окно расширить.
Я всё обновил с десктопа и мобилы, но с компа (Win) пока не нахожу прил, которые бы запускались в полноэкранном режиме. А на андройде иконки не добавляются на рабочий стол. Может чего надо в настройках разрешений надо поменять.
У вас как?
Апдейт: фуллскрин работает просто не во всех апах. Тут пашет @tverse. А там, где его нет можно вручную окно расширить.
Kling: обновили тарифные планы и теперь в бесплатный триал включено 366 кредитов в месяц, плюс доступ к платным функциям: профессиональному режиму (5 генераций) и расширению видео (2 генерации).
Ещё они недавно добавили в API доступ к V 1.5 с профессиональным режимом и расширением видео за те же деньги, что и V 1.
谢谢 братьям китайцам!
Сайт
Ещё они недавно добавили в API доступ к V 1.5 с профессиональным режимом и расширением видео за те же деньги, что и V 1.
谢谢 братьям китайцам!
Сайт