Psy Eyes
4.91K subscribers
1.04K photos
959 videos
5 files
1.16K links
Креатив + AI + Web3... и мемы

Личная страница @andrey_bezryadin
Download Telegram
После твиттера уже в каждом видео высматриваешь AI. Тем приятнее встретить сделанный по-старинке, трушный арт.

https://www.youtube.com/watch?v=E7FU_mqhFGk

PS: думаю большинство уже в курсе, но всё же — если не работает YouTube ставьте GoodbyeDPI на комп и ByeDPI на телефон. Не заведется из коробки — читайте форум программы, следите за обновлениями, и играйтесь с настройками.
This media is not supported in your browser
VIEW IN TELEGRAM
Я делал видео в прошлом году про MIDIjourney от Korus. Это генератор MIDI с помощью языковых моделей для Ableton.

Сейчас они обновили инструмент до V 2, прислушались, и генерить отныне можно без API ключа OpenAI. На бэкенде Pollinations (сайт / гитхаб).

Написано, что генерация MIDI улучшена благодаря Anthropic, но как именно они здесь задействованы не ясно.

У Korus есть и другая крутота для тех, кто хочет почувствовать себя диджеем.

Гитхаб
Media is too big
VIEW IN TELEGRAM
Небольшой тест MIDIJourney.

Suno и Udio вам при упоминании конкретных артистов и треков откажутся что-либо генерить. А вот языковым моделям (LLM) всё-равно.

Попросил Perplexity (будет работать и с другими, имхо) расписать промты на кик, бас, синты, итд. Дальше просто закидывал их в MIDIjourney внутри Ableton и генерил миди.

Не все инструменты звучат сразу годно, да и это не Prodigy как в промте, но так как мы в DAW, то тут можно детально отредактировать звук в отличие от музыкальных генераторов.

Для голоса можно дорожки экспортировать в Suno и сгенерить его поверх. Скачать вокальный стэм, и, если нужно, вправить слова через Udio.

Дальше, чтобы всё собрать гармонично всё также нужны ручки и скиллы.

Гитхаб
Adobe: выпустили Elements 2025.

Что нового:
* Придание динамики выделенным объектам на фото, а-ля Motion Brush.
* Можно добавить движения камеры.
* Управление мимикой и позицией головы, а-ля LivePortrait.
* Комбинирование нескольких фото в одно.

Какие-то AI-инструменты для работы с фото уже знакомы: стёрка, колоризация, изменение фокуса, итд.

Конечный результат на многих примерах так себе, правда. Особенно с приданием динамики и сменой стиля.

Изменения коснулись и лицензии. Раньше купленным софтом можно было пользоваться сколько угодно. Теперь только 3 года. Дальше заноси купюру в купюроприёмник.

Adobe в последнее время под огнём из-за тренировки на контенте пользователей и комиссию за отмену подписки. В твиттере народ обсуждает Affinity и Krita как альтернативу Photoshop. Если пробовали что-то из этого, делитесь впечатлениями.

Сайт
Кстати на тему опенсорсных альтернатив фотошопу. Invoke выпустили V5 своего интерфейса для генеративной работы с картинками.

Холст переделан и теперь вся работа может делаться в одном окне.

Отдельные слои для инпейтинга, ControlNet, и IPadapter. Их можно редактировать, например меняя очертания Canny.

На растеризованных слоях (Raster Layers) можно манипулировать размерами оригинала, рисовать, итд.

Также появилась поддержка Flux.

Гитхаб
Установка (Pinokio)
Видео с обзором нового
Видео со спидпейнтом
Тем временем Black Forest Labs: выкатили версию Flux 1.1 Pro, а также свой API сервис BLA API.

Новая версия будет в 6 раз быстрее V 1 Pro (хотя там же в анонсе написано в 3 раза) и при этом качественнее и лучше следовать промту. Хотя чуваки с насмотренностью подмечают огрехи и у неё.

А сама предшественница (V1 Pro) станет в 2 раза быстрее.

Цены на BFL API:
* FLUX.1 [dev]: $0.025 /img
* FLUX.1 [pro]: $0.05 /img
* FLUX1.1 [pro]: $0.04 /img

В любом случае, потестить её можно будет только в облаке через BFL API, или партнёров Together.ai, Replicate, fal.ai, и Freepik.

Для локального запуска ничего не анонсировано.

Продолжаем ждать Flux Video.

Анонс
Документация BFL API
Movie Gen: новый генератор видео от запрещёнки в размерах 30B и 13B.

По качеству 30B метит в сторону Runway, Sora, Kling, и MiniMax. Выдаёт FullHD видео длиной до 16 секунд в 16 к/с. А модель 13B может генерить сразу со звуком, и вписывать вас в видео на основе вашего фото. Причём персонализация выглядит даже очень неплохо.

Можно вкинуть и видео для редактирования в режиме video-2-video. Описываете текстом, что нужно изменить и фрагмент меняется, с органично вплетёнными новыми деталями. Контекст охватывает 256 кадров.

Поздравляем Артёма, принимавшего участие в релизе!

Сайт
Статья
Nvidia: выпустили NVLM 1.0, серию мультимодальных моделей для чата по тексту и визуалу (картинки, pdf доки, графики, рукописный текст, итд).

Первой вышла в релиз версия NVLM-D размером 72B, анонсированная в середине сентября. На бенчах бьёт GPT-4o и Llama 3-V 405B, но с тех пор уже вышла лама 3.2 и возможно детище Nvidia ей проигрывает. Ещё и потому что она есть только в одном большом размере, который дома запустить проблема, а лама есть всех мастей от мала до велика.

Но пишут, что можно запустить в multi-GPU режиме. Будем наблюдать, что ещё выпустят.

Хаггинг
Сайт
Статья