Psy Eyes
6.79K subscribers
1.43K photos
1.56K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Опробовал массовую рассылку TON с кошелька на новом стандарте W5 внутри Tonkeeper Pro.

Удобно. Делаешь список адресов, указываешь сколько должно прилететь каждому в TON или USD (максимум 255 получателей), цепляешь комментарий по желанию, и оно всё улетает одной транзакцией. В моём случае я одной подписью отправил TON всем, кто получил NFC мерч от меня на PHD, вместо того, чтобы подписывать каждую транзакцию отдельно, и тем самым сэкономил на комиссиях. Плюс сами транзакции требуют на 25% меньше газа по сравнению с предыдущей версией.

Ещё бы порешали с массовым выпуском и отправкой DC, а также группировкой кошельков и отправкой группе, и было бы вообще отлично.

Приложение есть только на десктоп, зато под любую ось (windows, mac, linux). Если авторизоваться телегой, то получаешь месяц бесплатного использования. Когда триал кончится можно использовать промокод pro-50, чтобы скостить 50% на подписке.
This media is not supported in your browser
VIEW IN TELEGRAM
Многомиллиардная корпорация Sony показывает как надо делать демки проектов.

Внемлите и трепещите.
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Кодестраль.

Тут Мистраль выпустил новую как бы опенсорсную модель Codestral, она предназначена именно для работы с кодом. По всяким-разным метрикам она побивает CodeLlama и даже Llama 3 70B, имея значительно меньший размер. Немного пожатая она влезет на локальную видеокарту, обучена на более чем 80 языках (пока неясно, как она против GPT-4).
Codestral может писать код, делать тестирование и дописывать неполный код, а также отвечать на вопросы о кодовой базе на английском языке.
В общем выглядит крайне прельстиво.
Однако.
Если почитать лицензию, там не так все сладко, как хочется сторонникам опенсорса.
Лицензия стартапа запрещает использовать Codestral и его результаты для любой коммерческой деятельности (оппа!). Есть исключение для "разработки", но даже оно имеет оговорки. Далее в лицензии содержится прямой запрет ДАЖЕ на "любое внутреннее использование сотрудниками в контексте деловой активности компании".

Таким образом они защищаются от исков по поводу того, что данные для обучения (то бишь код) были взяты из полностью открытых источников.

Так что это скорее для частных лиц, которые котят погенерить картиночки код у себя под столом для некоммерческой деятельности(?).

Интересно, что там с вотермарками.
https://techcrunch.com/2024/05/29/mistral-releases-its-first-generative-ai-model-for-code/
This media is not supported in your browser
VIEW IN TELEGRAM
Udio: выкатили модель udio-130, способную сразу генерить 2 минутные куски вместо 30 секундных отрывков ранее, что упростит создание связных и структурированных треков. Она доступна владельцам Pro подписки в экспериментальном режиме по сниженной цене в кредитах. Обычная модель для генерации по 30 сек всё также доступна и на бесплатном тарифе.

Также в ручном режиме теперь можно зафиксировать сид, чтобы играться с промтами и лирикой, сохраняя стиль генерации.

Появился и способ установить влияние промта/лирики на конечный результат. Усиленное следование промту приблизит звучание к описываемому стилю, но могут быть проблемы с гармонией. В то же время слабое следование тексту песни позволит получить более естественный вокал, но слова изменятся.

Можно и задать откуда новый генерируемый кусок должен начинаться относительно общей длительности трека: 0% это начало, 90% почти с конца, итд. Хотя зачем высчитывать проценты, когда обычный тайминг намного ловчей?

Ещё появился слайдер скорость/качество, чтобы можно было экспериментировать в более интерактивном ключе.

И, теперь в боковой панели собраны те, на кого вы подписались.

PS: на днях Suno 3.5 должна выйти в публичный доступ. Прошки уже играются.

Сайт
Анонс
Подробнее про Udio
This media is not supported in your browser
VIEW IN TELEGRAM
MusePose: анимируем персонажей на фото, передавая данные о движении.

Инструмент входит в серию Muse того же разработчика: MuseV — генерация видео с персонажами/анимация картинок, MuseTalk — липсинк в реальном времени.

На примерах выглядит значительно лучше других альтернатив. Тут и тени есть, и хоть какая-то физика волос, да и сами движения довольно плавные.

Демка в колабе
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Suno V 3.5 вышла в публичный доступ.

Что нового:
* Можно генерить композиции длиной до 4 минут
* Расширять звучание на 2 минуты из любой точки
* Улучшения в структуре и вокале

Собрал музыку из видео в плейлист. Плюс добавил один трек, который не вошёл в подборку.

Также интерес представляет инструмент для создания музыки по референсному звучанию, но он ещё не запилен. Что занятно в Stable Audio 2 это уже было реализовано пару месяцев назад, но они это никак не промили.

Ещё Suno запустили розыгрыш с пулом наград в $1 млн для топ авторов июня (список участвующих стран). Зовите в жюри юристов мейджор лейблов, у них уже ладошки потеют.

По качеству и контролю конечного результата Udio всё ещё впереди, но приятно видеть, что Suno активно развиваются. И даже маячат выпустить V4 в скором времени.
Дайджест:

📹 ВИДЕО + АРТ 🎨

EasyAnimate: генерация фото и видео 6 сек 24 fps на архитектуре трансформеров.

T2V-Turbo: быстрая генерация коротких видео с максимальным разрешением 320х512.

ToonCrafter: ускоряем создание анимации, за счёт генерации промежуточных кадров. Нода для Comfy. Вот ещё PasicPBC заодно для колоризации.

Phygital+: добавили IP-Adapter XL и генерацию видео через SVD.

Consistent Character: создаём консистентные фото с целевым персонажем в разных позах. Работает с анимацией, есть воркфлоу для Comfy и гитхаб. Можно даже скормить в ToonCrafter.

Omost: новый проект автора контролнета, использующий LLM для композиции генерируемого изображения. Сначала вкидываем промт и кликаем Submit. Получив код нажимаем Render и ловим картинку.

Xinsir: касательно самого контролнета. Появилась новая модель Xinsir под SDXL, показывающая хорошие результаты. До этого ещё вышла Mistoline тоже на SDXL.

MusePose: подъехал Comfy для этого аниматора персонажей.

V-Express: генерация говорящих голов с липсинком. Демо.

RelightableAvatar: тоже создание аватаров, но уже с анимацией в нужных позах, сеттинге, и освещении.

Deemos: Rodin Gen-1 стал доступен всем на сайте разработчика. До этого выкатили демку на хаггинге.

IC-Light: моделька для смены освещения теперь в A1111 и Forge.

Krea
: добавили апскейлер для видео.

3DitScene: генерим новые виды вокруг объекта.

🎸 ЗВУК 🎸

ElevenLabs: выкатили генератор звуковых эффектов.

Gazelle: опенсорсная модель для общения голосом с нейронкой в реальном времени, а-ля Чо. В демке отвечает только текстом на аудио + текст.

ChatTTS: ещё один генератор речи. VoiceCraft и иже с ним лучше.

🤖 ЧАТЫ 🤖

Colossal: представили опенсорсный инструмент Colossal Inference для ускорения работы больших языковых моделей (LLM).

Hugging Face: произошел инцидент с неавторизованным доступом к спейсам на платформе. Рекомендуют сменить API ключи/токены и перейти на гранулированный уровень контроля.

OpenAI: на бесплатном тарифе ChatGPT теперь доступны: браузер, загрузка файлов, видение, анализ данных, и GPTs.

Anthropic: Claude научился использовать внешние инструменты и API.

Google: в след за Microsoft анонсировали новые Chrome-буки с AI-фичами.

Perplexity: результатами переписки с LLM теперь можно делиться как отдельными веб-страницами.

Nvidia: выпустили NeMo Curator — библиотеку работы с датасетами перед треней. И модель для эмбеддингов NV-Embed-v1.

Falcon Vsion: к этой LLM из Эмиратов прикрутили зрение и сделали визуальную языковую модель (VLM).

Yuan 2.0-M32: новая LLM размером 40В на архитектуре MoE c 32 экспертами и Attention Router для эффективного выбора 2 активных.

Исследования в тренировке/файнтюне LLM:
* DORA — стабилизируем треню и улучшаем умение LLM запоминать
* VeLoRAэффективное обучение с использованием проекций суб-токенов 1 ранга
* AQLM — сжатие и экономное использование памяти
Новое в сплатах:

PlayCanvas: в версии v 0.19.2 теперь можно редактировать много вещей внутри одной сцены. Также поменялся порядок загрузки сплатов, и объекты вне поля зрения камеры больше не рендерятся, что значительно увеличило производительность. Появилась установка SuperSplat как PWA для запуска с панели задач на винде и ассоциирования .ply фалов с софтом. Плюс обновления и исправления в рендере через WebGPU и другие мелочи.

В релиз входит пак эффектов, схожий с плагином Irrealix для After Effects, но тут не требуется знаний.

Покрутить сцену со статуей из видео можно тут, а отредактировать её самому здесь.

NerfStudio
: выпустили свой движок для рендера сплатов gsplat 1.0. Требования к памяти значительно снизились, а скорость трени где-то ускорилась в разы. При этом можно рендерить огромные сцены. Лицензия Apache 2.0, в то время как у родной 3DGS от Inria разрешено только некоммерческое использование.

Сам софт NerfStudio обновился до v 1.1.2. Интегрировали AbsGS, улучшающий детализацию сцен, при этом экономя память. Появилась поддержка интерфейса Gradio. Добавили новые методы SIGNeRF, OpenNeRF, и NeRFtoGSandBack для реконструкции 3D, а также RealityCapture под бесплатной лицензией, но не для России. Плюс много мелких улучшений.

3DGS-Deblur: проект, устраняющий в сцене блюр и эффект плавающего затвора, делая картинку более чёткой и стабильной.

StopThePop: тоже улучшатель, только с фокусом на избавлении от фликера.

AtomGS: обработка визуала в два захода на одной 4090, для получения сплатов с неплохой детализацией.
Собираю новый комп. Остальные железные потроха подъедут в скором времени.

Будет теперь на чём локально тестить жирные модельки.

Кстати ещё раз спасибо всем за донаты на ДР. Все пошли в дело.

Для тех, кто закинул как соберу комп попробую раскатать инференс и скинуть ссылку в личку, чтобы вы на ней погенерили.

Всех обнял!
Неделька выдалась жаркая. Основное пойдёт отдельными постами, а пока дайджест:

📹 ВИДЕО + АРТ 🎨

Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.

Nijijourney
: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов.

Kling: новый мощный китайский генератор видео. Хорошее качество картинки и понимание окружающего пространства.

Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео.

Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.

Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее.

Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим.

Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше.

DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов.

Lumina: нейронка для генерации в разных модальностях (изображения, музыка).

Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.

🎸 ЗВУК 🎸

Udio: выпустили Audio Promting, инструмент для генерации на основе аудио от пользователя. Конкурент Audio Input от Suno.

Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.

See-2-Sound: скармливаем видео и получаем звуковые эффекты.

🤖 ЧАТЫ 🤖

HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.

LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете.

Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.

Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков.

Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.

Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.

Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU.

FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов.

Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.

Как сделать свой чат по PDF на основе Mistral.

Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.

VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео.

MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре.

Конвертор PDF в датасет.

3D-Grand: VLM для чата по 3D локациям.

Magpie: генерация высококачественных данных для алаймента LLM.

Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
С релиза Stable Diffusion 3 прошло пару дней. Время осмотреться.

В опенсорс ушла 2B версия Medium, а крупные Large и Ultra остались в облаке и их можно пощупать через чат-бота Stable Assistant.

Улучшилось понимание промта, проработка деталей/цвета/освещения, рендер надписей.

При этом требования к железу умеренные: может влезть на 8 Гб VRAM. Stability заколлабили с Nvidia, чтобы ускорить на RTX видюхах с TensorRT генерацию на 50%. Про AMD тоже не забыли, но не указали для каких пользовательских девайсов сделали оптимизацию.

Есть некоммерческая исследовательская лицензия, коммерческая в виде подписки за $20, и отдельная для компаний.

Первые отзывы говорят, что не все так радужно с качеством генерации. Особенно людей. А с файнтюном есть проблемы. В том числе из-за лицензии. В ряде случаев SDXL или лоры SD 1.5 все еще привлекательнее.

Посмотрим как будут развиваться события.

Анонс

Демо раз и два
Хаггинг
Оптимизированая TensorRT-версия
Comfy

Инструкция по установке
Luma выпустили свой генератор видео Dream Machine и это просто отвал башки!

На вход может идти текст отдельно, либо в связке с картинкой. Чисто на основе промта вполне может получиться годный результат, но второй вариант предпочтительнее, ибо так у модели есть опорные кадры. Можно даже делать длинные видосы, если использовать скриншот из конца предыдущей генерации.

При включённой галочке Enhanced Promt модель сама понимает что на картинке и от вас требуется только описать действие. Если кажется, что генерация уводится не туда, попробуйте описать экшн детальнее. Либо снять галочку, но тогда надо будет описать и то, что на картинке и то, что должно произойти: чем больше подробностей о движении камеры, действии в сцене, и том как выглядят объекты + фон, тем лучше. Luma предоставили гайд как подойти к промту и генерации в целом.

На выходе получаются видео в относительно высоком разрешении, длиной 5 секунд и фреймрейтом 24 к/с. За пару дней до этого вышел китайский Kling, в котором тоже годное качество, но у Luma нет вейтлиста и результаты значительно лучше. Кипение минимальное, а текст/надписи держатся под любым углом и не превращаются в кашу. Чувствуется, что есть понимание пространства, физики объектов и освещения а-ля Sora. Картинка кинематографичная, с плавными движениями камеры и моушн блюром.

Для анимированных обложек, или коротких зацикленных рекламных видосов в соцсетях уже можно использовать с двух ног.

Потом подъедут крутилки для контроля кадра, а там глядишь и доживём до генерации в стиле NUWA с получением длинных видео, просто описывая ключевые моменты.

Надо ещё будет поиграться со значениями фокуса, диафрагмы, итд, а может и даже с характеристиками из мира 3D, коль ноги у модели именно оттуда растут.

Я ещё в прошлом году заметил, что среди text-2-video моделей начался движ в сторону трёхмерного пространства для генерации объектов с учётом окружения и разнесения их на слои. Вполне возможно сегодняшние 3D стартапы (Polycam, Meshy, итд), особенно работающие со сплатами или нерфами, завтра будут генерить видео. Даже Midjourney тяготеют к генерации видосов и 3D.

На бесплатном акке 30 генераций в месяц, подписка от $30 за 180 генераций.

Го генерить котаны!

Dream Machine
Гайд от Luma