Psy Eyes
4.91K subscribers
1.02K photos
941 videos
5 files
1.14K links
Креатив + AI + Web3... и мемы

Личная страница @andrey_bezryadin

Поддержи донатом https://boosty.to/testingstuff
Download Telegram
Suno: выкатили V4 своего генератора музыки. Голоса стали чище, структура треков композиционно насыщеннее, а тексты стали лучше ложиться на инструменты.

Вместе с этим добавились новые фичи: ремастер треков до варианта от V4 (вероятно работает только с генерациями внутри Suno), улучшенное создание текстов с помощью ReMi, работа с обложками. Старые фичи Covers и Personas тоже получили апгрейд.

Примеры звучания V4 от авторов Suno.

Раздел Explore также обновился, и можно покрутить барабан обновлённых жанров. Есть только ощущение, что там не весь контент обновлён, но его в любом случае весело крутить.

Пока V4 доступна только платным подписчикам.

Сайт
Анонс
Примеры V4
Hotshot: этот генератор видео выкатил управление видео по рефу. Работает и с синтетическими направляющими: второе видео я сгенерил в Mochi, а третье это результат из Hotshot.

Промт:
A robot standing at a night cyberpunk city street. It is smiling, nodding, saying something, and appears to be looking at something. The robot is made of metal and plastic and is standing in front of a crosswalk. There is traffic in the background, including cars and a traffic light.


Похоже на Movie Gen, видеолоры в Kling, отчасти Act One от Runway, ну и опенсорсный LivePortrait. Но команда HotShot состоит из всего нескольких человек вроде.

На сайте видео по рефу генерятся за секунды. По крайне мере пока, залетайте. Там 3 бесплатные генерации в день.

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Как-то пролетело мимо радаров. У HotShot ещё и можно персонализировать видео, закинув своё фото.

Это доступно, начиная со Standard за $29. Даётся 200 генераций в месяц, и безлимитное количество дневных круток (вероятно имеются ввиду ежедневные бесплатные генерации как в Kling).
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Так, а теперь завершаем 2D->3D марафон и складываем все в одну коробочку.

Вчера постил благую весть, о том, что CogVideo 1.5 завезли в Комфи, перебрав все косточки по дороге.
Приводил пример видео генерации с лорой на движение камеры от автора интеграции.
А сегодня смышленые парни уже берут такие генерации кормят их в postshot и получают метаверсик этого сгенеренного мира. Пример нечищеный, как есть.

И да, это 3dgs - гауссианы, полученные из postshot.

Кто не знает про postshot - глядите сюда https://www.jawset.com/ (надо немного знать 3Д).

А я проматываю на пару лет вперед и вижу то самое королевство кривых зеркал (может и прямых, кстати).

Вы силой мысли(или дрожащим голосом) генерите любую влажную картинку из ваших фантазий, а потом просто заныриваете в нее. Ибо мир уже готов, гауссианы ждут вас в свои объятия. Хотя через пару лет это уже будут наверное нано-латентные-пиксели, учитывающие вашу биохимию.

А если отставить нейродедовский юмор, то Midjourney как раз что-то лопотали про это на своих Open Hours. Писал об этом тут.

Ох, куда катится мир... в какие картинки.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Студентка по скетчам от руки сделала 3D модели персонажей и их анимацию.

Использовались:
* Edit mode и --Sref из Midjourney
* Krea
* Tripo3D
* Minimax

Понятно, что есть огрехи, неконсистентность, и мало контроля. Но для черновых анимаций, дабы понимать что работает, а что нет, вполне вариант.

Твит
This media is not supported in your browser
VIEW IN TELEGRAM
RealityCapture: софт для фотограмметрии обновился до v 1.5.

Что нового:
* Экспорт Radiance Fields Transform и COLMAP для работы со сплатами и нерфами;
* Ускорение текстуризации;
* Вывод в USD и USDZ форматах;
* Дефрагментация текстур, для улучшения их качества и ускорения обработки;
* и другие улучшения.

А ёще недавно в RC стал бесплатен, если ваш доход меньше $1 млн/год.

Если у вас стоит v 1.4.2, то её нужно будет удалить, перезапустить лаунчер, и тогда появится возможность установить v 1.5.

Анонс
Полное видео на YouTube
Black Forest Labs: выпустили Tools, набор моделей для тонкой работы с генерацией изображений.

В него входит:
* FLUX.1 Fill: модель для инпейтинга и аутпейтинга, позволяющая вписывать/менять объекты на картинках или расширять кадр.
* FLUX.1 Depth: изменение картинки на основе карты глубины.
* FLUX.1 Canny: изменение картинки на основе карты очертаний.
* FLUX.1 Redux: адаптер для получения вариаций изображения.

Canny и Depth идут в двух вариантах: полных моделях с максимальным качеством, и лоры (Canny Lora плюс Depth Lora) на основе Dev для упрощенной разработки.

Всё это уже можно крутить в Comfy (обновляемся до последней версии).

Данные решения от BFL показывают себя лучше, чем контролнеты собранные сообществом, вроде варианта от Alibaba (хотя в анонсе ссыль ведёт на альфа версию контролнета, а уже есть обновлённая бета). Также пишут, что картинки на выходе лучше других моделей, но на их бенчах нет Recraft V3.

В целом, BFL молодцы, что работают и на комьюнити, продвигая опенсорс, и себя не забывают с платными фишками по API.

Анонс
Хаггинг
Гитхаб
Запуск в Comfy
Krea: смешивание картинок на основе Flux с указанием веса стиля мышкой стало доступно всем бесплатно.

Сайт
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
JoyVASA: анимация картинок людей и животных по аудио с липсиком.

На первом этапе используется система раздельного представления лица, которая отделяет динамические выражения эмоций от статических лицевых 3D-представлений. Такое разделение позволяет системе генерировать более длинные видео, комбинируя любое статическое 3D-представление с динамическими последовательностями движений. Затем, на втором этапе, диффузионный трансформатор обучается генерировать последовательности движений непосредственно из аудиосигналов, независимо от идентичности персонажей. Наконец, генератор, обученный на первом этапе, использует 3D-представление лица и сгенерированные последовательности движений в качестве входных данных для создания высококачественной анимации.

Видео на выходе не шакалится, а рот не "жуётся" в пиксельную кашу. Но расти всё ещё есть куда, ибо пока результат кажется оторванным от реальности. Тем не менее, здесь есть код, а это не частая история для таких моделек.

Похожее из опенсорса: LivePortrait (который тут под капотом и испольуется), EchoMimic, V-express, DreamTalk, MuseTalk, и Hallo. Из закрытых HeyGen и Runway Act One, например.

Сайт
Гитхаб
Хаггинг
Дайджест:

📹 ВИДЕО + АРТ 🎨

Онлайн демки для Flux Tools на хаггинге: Fill, Redux, Canny, Depth. Альтернативно на Gliff.

Hailuo: добавили отмену генерации и её повтор (re-create). Плюс наваяли гайд по работе с видеогенератором.

Runway: релизнули outpainting для расширения кадра или смены его формата, а также генератор картинок Frames, по качеству, эстетичности, и кинематографичности бьющий в сторону Midjourney.

Luma: обновили Dream Machine. Появился генератор изображений/кадров Photon, редактирование изображения или видео через Modify, стабильные персонажи, и смешивание стилей.

Lightricks: выпустили новый видеогенератор LTXV. Выдаёт 24 FPS в 768x512 длиной в 5 сек, тратя на генерацию 4 сек. Есть text-2-video, image-2-video, video-2-video. 24 ГБ VRAM должно хватить, есть Comfy. По качеству отдалённо напоминает Mochi. Тесты Нейродеда.

Comfy: выпустили десктоп приложение.

Omegance: новый параметр ω (омега), отвечающий за детальность генерации. Добавляется в процесс денойзинга, работает с любой архитектурой без доп тренировки, и применимо как к картинкам, так и видео. Похоже на апскейлинг в "креативном" режиме.

Pinokio: в сайдпанели Comfy для некоторых AI-приложений теперь можно сразу скачать модель + воркфлоу через Download Mix. Пока поддерживаются LTX, Flux Tools, Mochi.

StabilityAI: выпустили контролнеты на SD 3.5 Large. Помимо стандартных Canny и Depth ещё есть нечто новое — Blur для апскейла до 8к или 16к. Кстати SD 3.5 Medium не снискала популярности тоже.

Inria: авторы сплатов обновили основной код в репо: ускорили тренировку примерно в 2 раза, добавили сглаживание (anti-aliasing), и не только.

Brush: новое приложение для тренировки сплатов. Есть как десктоп апа, так и веб-интерфейс, работающий через WebGPU.

Burn: новый фреймворк для DL на Rust, с фокусом на гибкости, эффективности и портативности. Есть поддежка WebGPU. Brush как раз использует Burn.

Snap: добавили в Lens Studio v 5.3 возможность тренировать сплаты. Сама тренировка происходит в облаке.

ClarityAI: их апскейлер появился на Pinokio.

RMBG-2: тоже пинокио апа для удалятора фона.

Qwen2.5 Coder подрубили к ffmpeg, чтобы можно было вкинуть картинки + музыку и собирать/редактировать видео промтом. Пока выглядит как переизобретение колеса лишь бы решать всё командой/промтом и не касаться GUI.

Моделька заточенная вписывать лого в заданный промтом контекст.

ConsisID: опенсорсная генерация персонализированных видео с сохранением стабильности лица.

EchoMimicV2: анимация картинок с липсинком и жестикуляцией. Пока шакально.

OminiControl: вписывание объекта с реф картинки в новое изображение по описанию.

InstantX: подогнали IP-адаптер для Flux.

Pika: запустили API и убрали Unlimited тариф ибо его эксплоитили и они жгли деньги. Вместо него будет Fancy c 6000 кредитов/месяц.

Samurai: новый сегментатор объектов на фото/видео, который показывает себя лучше SAM2.

Krea: добавили поддержку Kling 1.5. Ещё недавно они обновили тренировку Flux на сайте.

🎸 ЗВУК 🎸

Suno: записываемся в вейтлист прилы на Android.

ElevenLabs: выпустили для iOS генератор подкастов GenFM на основе доков пользователя.

PlayAI: запустил модель Dialog для эмоционального общения голосом с минимальной задержкой. Плюс сделали PlayNote для подкастинации pdf файлов. Лавры NotebookLM не дают покоя. Есть ещё на ламе NotebookLlama.

EzAudio: релизнули контролнет для генерации звуков и музыки по рефу (например, можно напеть нужную мелодию). Есть и text-2-audio версия, там же инпейтинг и редактирование.
🤖 ЧАТЫ 🤖

Alibaba: разработчики Qwen выпустили модель QwQ с пошаговым мышлением. Так как это превью версия, то много внезапных переключений между языками, и генерации простынок текста без итогового ответа. Посмотрим что будет на релизе. Ollama run qwq

Lmsys: запустили на арене языковых моделей (LLM) RepoChat, которому можно скормить ссылку на гитхаб репо и наблюдать какая ллм лучше исправит ошибку в issues.

Replit
: теперь AI-разработчику можно кормить скриншоты или ссылки с промтом, а дальше он сам.

Open-WebUI: в обновлениях v 0.4.4 — 0.4.6: расширенные возможности аутентификации пользователей, улучшения в RAG, и не только.

Gradio: в версии v 5.6 появилось локально хранение данных в браузере пользователя. Даже если страница перезагрузится, ничего не пропадёт. Плюс недавно появились другие ништяки вроде WebRTC для стриминга.

TransformersJS: в версии v 3.1 через WebGPU заработало больше моделей: Deepseek Janus, Qwen2-VL, и не только.

AI2: выпустили в опенсорс ллм Tulu-3 в размерах 8B и 70B, вместе с датасетом, кодом, и рецептами. Ollama

SmolVLM: маленькая визуальная языковая модель (VLM) для работы на телефоне. Говорят быстрее в 7-16 раз, чем QwenVL 2B.

LM Studio: начиная с версии V 0.3.5 можно запускать LM Studio как сервис. Пригодится при использовании приложения в режиме сервера для локальных языковых моделей (LLM).

Также разрабы представили venvstacks, для упаковки AI-приложений на Python и их зависимостей в портативный формат, без необходимости включать здоровенные копии фреймворков на питоне в каждое приложение.

Anthropic: добавили стили генерации ответов и возможность загрузить свои доки, чтобы AI понял твой стиль. Плюс опубликовали протокол MCP облегчающий коммуникацию AI-ассистенотв с другими приложениями, репами, и базами данных.

OpenAI: модель 4o теперь пишет креативнее и лучше работает с загруженными доками.

DeepSeek: выкатили превью версию R1-Lite, своей ллм с пошаговым рассуждением, конкурент GPT-о1.

Paper Reviewer
: выжиматор бумаг с Arxiv, который делает из них блогпосты с картинками и аудио в формате подкаста. Под капотом Gemini 1.5.

Nexa Omni Vision: маленькая, но способная VLM для чата по визуалу на мобильных устройствах.

Athene V2: это AI-агент для выполнения заданий пользователя с вызовом функций.

Runner H: AI-агент для автоматизации задач на компьютере пользователя, адаптирующийся к изменениям в UI.

Marco-o1: ещё одна ллм с пошаговым мышлением, но сфокусированная на темах, где нет чётких ответов.

ShowUI: AI-агент для локального выполнения задач с использованием GUI. Задействуется Qwen2VL.

Ламе 3.2 11B тоже пришили пошаговое мышление.

Phi-3.5 Vision: тоже VLM для чата по визуалу с фокусом на арте.

Agora: протокол для удешевления коммуникации между AI-агентами.

Apple: выпустили набор визуальных энкодеров AIMv2.

В 40-ой серии видюх от Nvidia не работает Nvlink, но Geohot поковырял драйвер и заставил две 4090 работать через P2P PCIe, минуя CPU-RAM.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM