Psy Eyes
4.92K subscribers
1.02K photos
941 videos
5 files
1.14K links
Креатив + AI + Web3... и мемы

Личная страница @andrey_bezryadin

Поддержи донатом https://boosty.to/testingstuff
Download Telegram
lllyasviel немного обновил IC light v2, инструмент для смены освещения на фотках с помощью Flux, — исправлена ошибка, выдающая артефакты на генерациях.

Онлайн демо уже обновлено, кода всё ещё нет.
Если они переименуются в Alien Institute of AI, я поступаю!

Сайт
520 000 000 руб ≈ $5 000 000 ≈ 50 битков ≈ 0,0003% данных интернета

Раз данные это новая нефть, на ваш взгляд какой процент тут должен стоять и как его считать?

ChatGPT говорит цифра в районе 0.000217–0.00036%. Claude считает 0,00000000009%.
KIRI Engine: обновили свой инструмент 3DGS to Mesh до V2.

Улучшения коснулись: реконструкции отражающих поверхностей и прозрачных материалов; обработки освещения и глубины; детальности выходного меша.

Сейчас функционал за платной подпиской, но команда говорит, что возможно его опенсорснут до конца года.

Сам Kiri Engine проапгрейдился до v 3.12 и появилась работа с масками, чтобы удалять фон от объекта.

Также обновился до V2 и плагин для Blender. Здесь улучшения в управлении цветом + балансом белого, а также оптимизации для работы в реальном времени.

Сайт
Плагин на Гитхабе
Обзор 3DGS to Mesh V2 (YouTube)
Обзор плагина для Blender (YouTube)
Kling дают 100 кредитов за прохождения их опроса. Давшим особенно полезный фидбэк грозятся даже дать 1000.

Дерзаем
Mail.ru конечно гандоны ещё те. Когда я был ранним тестером их облака мне выдали 100 ГБ навсегда. Теперь они просто взяли и урезали место на облаке со 100 ГБ до 8 ГБ, и говорят у тебя месяц чтобы освободить место или мы сами всё удалим. Я об этом вообще никак бы не узнал ибо почту не читаю, но выяснилось, что и у родственника на бесплатном тарифе также с 30 ГБ до 8 ГБ. И на какую реакцию они рассчитывают, когда месяц спустя у людей на ровном месте исчезнут файлы?

Я не знаю это такая программа анти-лояльности, или чёрная пятница их так покусала и они решили таким образом увеличить продажи, или чего. Но могу сказать точно — свою подписку они могут засунуть себе за щеку.
This media is not supported in your browser
VIEW IN TELEGRAM
Отличное применение дипфейков. Aphex Twin одобряет.

Не слежу за миром бокса. Давно туда начали такое промо завозить?

YouTube
Занятно, что клингу не нужно выделять все детали (очки, волосы, итд), он сам догоняет как примерно должно быть.
This media is not supported in your browser
VIEW IN TELEGRAM
Новый параметр для генерации видео, отвечающий за семплинг — Spatiotemporal Skip Guidance (STG). Может работать вместо или совместно с CFG.

* Улучшает пространственно-временные качества видео (стабильность)
* Сохраняет динамику
* Нет нужды в тренировке
* Подрубается plug-&-play к трансформерным видеогенераторам (Mochi, SVD, Open-Sora)

Сайт
Гитхаб
Генератор музыки JEN, натренированный на лицензированном аудио, вышел с публичной бетой v 1.5. Я писал о них раньше, когда они выпустили альфу v 1.0.

Появились доп. инструменты для контроля звука: подача ваших треков на вход; генерация интро/аутро/продление/фейд, обрезка, или перегенерация сегмента; задание длительности. Также повысилось качество аудио.

Проблема в том, что само звучание осталось во много дисгармоничным, а структура треков блёклой. И это режет всё желание экспериментировать, когда у тебя под рукой ушедшие сильно вперёд Suno и Udio.

В голову лезет мысль, что подход с использованием только лицушного контента ограничивает разрабов. Но Korus тоже натренированы на лицензированном контенте, а разница в качестве просто небо и земля.

Кстати, если у нас есть Minimax и Kling, должны быть где-то и китайские музыкальные генераторы, досыта накушанные любым аудио контентом и выдающие уровень не хуже, а то и лучше Udio и Suno. Понятно, что с музыкой не всё так просто, как с картинками и видео. Но всё же.

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
PocketPal: мобильный интерфейс для чата с разными маленькими языковыми моделями, интегрировал поддержку HuggingFace.

Теперь можно в мобильном приложении искать, качать и запускать модели прямо с хаггинга из списка или по ссылке.

Фичи:
* Работают оффлайн
* Смена моделей внутри одного чата, чтобы сравнить ответы
* Автозагрузка/выгрузка из памяти
* Управление размером контекста и другие параметры
* Метрики производительности видны после ответа

Я заметил, что когда ты возвращаешься после сворачивания приложения или выходишь с блокировки экрана, модель грузится по новой. Если что, это можно выключить в настройках, и загружать модели вручную.

Пока все, что щупал своим тестом на Mi Note 10 Pro генерят медленно. Но важнее не скорость, а качество. И пока ответы ни от одной из стартового списка (лама, SmolLM, Gemma, Danube, Phi, Qwen) меня не удовлетворили.

Некоторое время назад Qualcomm выпустили ворох моделей оптимизированных под мобилки. Я сейчас залез на хаггинг а они оказывается 5 дней назад их обновили и похоже новых залили. Надо будет заценить.

Android
iOS
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Yamaha: выпустили плагин VX-β для синтеза вокала на японском и английском.

В чём отличия от Vocaloid6:
* Работает во внешних DAW, конкретно Cubase
* Управление параметрами голоса в реальном времени
* Усиление экспрессии и громкости кнобом Power Parameter

Плагин бесплатен для владельцев лицензии на Vocaloid6 Editor. Можно скачать с сайта триальную версию и на неё накатить плагин, чтобы потестить. Отдельный голосовой банк качать не нужно — от Vocaloid6 подойдёт. Если что, банк с голосами можно бесплатно скачать на сайте.

Я погонял немного. На английском мало вариков и отдаёт роботизированностю. Тем не мене вещь интересная. Тут гайд как этим пользоваться.

Сайт
Гайд
Runway: показали экспериментальный прототип интерфейса в виде графа для генерации кадров и видео.

Цель состоит в том, чтобы убрать ограничения традиционного пайплайна/софта для создания видео, дать возможность открыто экспериментировать в латентном пространстве, при этом сохранить контроль за визуалом.

Генерация кадров, их редактирование через img-2-img, а также использование начального и конечного кадра как ноды, выглядят знакомо пользователям Comfy.

А вот дальше начинается интересное. Между нодами генерятся промежуточные кейфреймы, каждый из которых можно форкнуть в отдельную ветку, и соединить, например, с альтернативным кадром сцены. Дальше хочешь развивай эту ветку (и может вырастет дерево), хочешь закольцуй с уже имеющимися кадрами. Ещё это напоминает гитхаб с версированием, форками, коммитами, главной веткой, итд.

Можно собрать нелинейный таймлайн из разных сюжетных линий, выбрать понравившиеся элементы, и экспортировать ту версию сценария, которую хотел бы посмотреть. Заодно выбрать кто будет в главных ролях или себя с друзьями впилить. Была бы ещё возможность детально управлять содержимом кадра, движениями, репликами, аудио, итд.

Вполне возможно монетизация тут будет за использование твоего лица/голоса/музыки из каталога, или при совпадении с загруженным контентом от пользователя. Если что, народ запилит это в опенсорсе с прозрачными автоматизированными выплатами по смарт-контрактам за использование чекпоинта или датасета человека/произведения.

Пока это ранний прототип и пощупать нельзя, но уже выглядит интересно.

Сайт