Psy Eyes

Тот, кто первым вживую меня найдет получит этого бэдбоя бренда HH Wear, со вшитым DC под номером #1.

1.77K viewsAndrey Bezryadin, edited 13:05

Psy Eyes

Начинаем через пару минут

https://phdays.com/festival/

1.86K viewsAndrey Bezryadin, 14:21

Psy Eyes

1.39K viewsAndrey Bezryadin, 17:27

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Появилось демо контролнет модели MistoLine.

Fooocus: обновился до v 2.4.1. Много мелких улучшений. Вместе с тем моё внимание привлекло, то что владение кодом перешло от lllyasviel к mashb1t и появилась nswf цензура, которая отключена по умолчанию.

Генерация фото с рульками привычными в сфере фото/видео съёмки: ISO, экспозиция, итд.

Krea: открыли генератор видео в публичной бете.

Leonardo: в версии V2 появились пресеты для стилей и img-2-img генерация для переложения стиля на разные объекты/персонажей.

CraftsMan: новый 3D генератор на основе картинок c выбором модели для обработки запроса и большим количеством рулек.

StreamV2V: замена человека на видео/смена стиля в реалтайме.

Adobe: внедрил генеративную стёрку в Lightroom (только сейчас?).

Open-Sora Plan: модель обновилась до v 1.1. Улучшилось качество генерации видео и его длительность.

Face Adapter: генерация картинки с лицом человека на рефе.

🎸 ЗВУК 🎸

LookOnceToHear: фильтруем звук в наушниках, чтобы слышать только собеседника перед нами.

🤖 ЧАТЫ 🤖

LM Studio: софт для локального чата с языковыми моделями (LLM) выкатил версию с поддержкой ROCm для запуска на видюхах от AMD. А хаггинг недавно как раз позволил запускать модели в LM Studio в 1 клик через диплинк.

Cohere: выпустили мультиязычную Aya-23 размером 8B и 35B, работающую на 23 языках, включая русский. Также есть Aya-101 размером 13B, глаголющая на 101 языке. (спс @JohnDoe171)

Qdrant: библиотека на питоне для генерации подписей обзавелась инференсом на GPU.

Meteor: визуальная языковая модель (VLM) на основе архитектуры Mamba, которая хорошо себя показывает на бенчах.

Microsoft: добавили в буфер обмена винды 11 возможность копировать-вставлять информацию с конвертацией, например в другой язык.... за кредиты OpenAI.... а до этого они ещё и рекламу в пуск впилили.... it evolves, just backwards.

Также они представили ноуты на чипах Snapdragon X Elite от Qualcomm, которые должны выйти в июне. Не делаем никаких предзаказов, ждём тестов не от лабы под надзором майков, а от блогеров и юзеров. Ещё есть много вопросов касательно фичи Recall, которая, будет удивительно если не прогремит в новостях о слежке и утечках.

Ещё их GitHub Copilot обзавёлся расширениями, а Copilot официальным ботом в телеге, правда просит номер телефона и не ясно в каких странах он работает. Также появилась влмка Phi3 Vision 128K.

DeepSeek: выкатили 7B чат по картинкам.

Mistral: 7B модель в v 0.3 получила Function calling, и пару других изменений.

Alibaba: сделали VLM для чата по картинкам в высоком разрешении ConvLLaVA.

Gradio портировали на C#.

Исследования:
* Персонализируем LLM под себя, просто общаясь с ней. Код на гитхабе.
* Ускоряем инференс LLM через распределёнку.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K viewsAndrey Bezryadin, edited 17:27

Psy Eyes

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Подъехало демо 3D генератора Rodin Gen-1.

1) Вкидываем картинку (лучше без фона, вот удалятор)

2) Автоматом генерится промт. Галочками можно указать, что в него добавить: например, high-poly или game-ready

3) Следом также автоматом создаётся 3D меш, который можно посмотреть в разных видах: карта нормалей, металлизированный, контрастный.

Скачать не даст, поведёт на сайт, где модель хоть и написано, что в публичной бете, но вход до сих пор по списку.

Попробовал генерить как используя свои картинки, так и те, что пришиты в примерах, но годного результата не получил. А вы?

В то же время Meshy или CRM с лёту генерят нормально.

Демо
Сайт

1.57K viewsAndrey Bezryadin, 18:20

Psy Eyes

1:45

This media is not supported in your browser

VIEW IN TELEGRAM

Hugging Face подрубили в Hugging.chat фичу Tools, которая расширяет функционал опенсорсных языковых моделей, позволяя им парсить документы, генерировать картинки, итд.

На старте пока работает только с Command + R, но список будет расширяться.

Из доступных сейчас инструментов:
* Web Search — поиск по интернету
* URL Fetcher — получение текста из страницы
* Document Parser — чат по PDF
* Image Generation — генерация картинки
* Image Editing — редактирование картинки
* Calculator — калькулятор

Если хотите, чтобы ваш инструмент был опубликован среди других, чирканите тут.

Дальше для Tools планируется: их использование AI-агентами; подтягивание ранее сгенерированных/загруженных файлов; люди смогут подрубать собственные модели на ZeroGPU как инструменты для себя или AI-агентов; и т.д.

Интересно они смогут это как-то подружить с Use this мodel, чтобы гонять расширенный функционал локально?

Попробовать
Анонс

7.09K viewsAndrey Bezryadin, 09:33

Psy Eyes

Спасибо всем, кто пришёл на мой доклад как можно монетизировать дипфейки и заодно организовать плюшки для аудитории. Был рад вас видеть!

Все NFC фишки с прицепленными DC и футболка нашли своих владельцев.

1.5K viewsAndrey Bezryadin, edited 12:29

Psy Eyes

Опробовал массовую рассылку TON с кошелька на новом стандарте W5 внутри Tonkeeper Pro.

Удобно. Делаешь список адресов, указываешь сколько должно прилететь каждому в TON или USD (максимум 255 получателей), цепляешь комментарий по желанию, и оно всё улетает одной транзакцией. В моём случае я одной подписью отправил TON всем, кто получил NFC мерч от меня на PHD, вместо того, чтобы подписывать каждую транзакцию отдельно, и тем самым сэкономил на комиссиях. Плюс сами транзакции требуют на 25% меньше газа по сравнению с предыдущей версией.

Ещё бы порешали с массовым выпуском и отправкой DC, а также группировкой кошельков и отправкой группе, и было бы вообще отлично.

Приложение есть только на десктоп, зато под любую ось (windows, mac, linux). Если авторизоваться телегой, то получаешь месяц бесплатного использования. Когда триал кончится можно использовать промокод pro-50, чтобы скостить 50% на подписке.

2.15K viewsAndrey Bezryadin, 13:38

Psy Eyes

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

Многомиллиардная корпорация Sony показывает как надо делать демки проектов.

Внемлите и трепещите.

1.61K viewsAndrey Bezryadin, edited 14:33

Psy Eyes

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

Кодестраль.

Тут Мистраль выпустил новую как бы опенсорсную модель Codestral, она предназначена именно для работы с кодом. По всяким-разным метрикам она побивает CodeLlama и даже Llama 3 70B, имея значительно меньший размер. Немного пожатая она влезет на локальную видеокарту, обучена на более чем 80 языках (пока неясно, как она против GPT-4).
Codestral может писать код, делать тестирование и дописывать неполный код, а также отвечать на вопросы о кодовой базе на английском языке.
В общем выглядит крайне прельстиво.
Однако.
Если почитать лицензию, там не так все сладко, как хочется сторонникам опенсорса.
Лицензия стартапа запрещает использовать Codestral и его результаты для любой коммерческой деятельности (оппа!). Есть исключение для "разработки", но даже оно имеет оговорки. Далее в лицензии содержится прямой запрет ДАЖЕ на "любое внутреннее использование сотрудниками в контексте деловой активности компании".

Таким образом они защищаются от исков по поводу того, что данные для обучения (то бишь код) были взяты из полностью открытых источников.

Так что это скорее для частных лиц, которые котят погенерить картиночки код у себя под столом для некоммерческой деятельности(?).

Интересно, что там с вотермарками.
https://techcrunch.com/2024/05/29/mistral-releases-its-first-generative-ai-model-for-code/

TechCrunch

Mistral releases Codestral, its first generative AI model for code

French AI startup Mistral, which has backing from Microsoft, has released its first generative AI model for code, called Codestral.

1.24K viewsAndrey Bezryadin, 11:21

Psy Eyes

2:10

This media is not supported in your browser

VIEW IN TELEGRAM

Udio: выкатили модель udio-130, способную сразу генерить 2 минутные куски вместо 30 секундных отрывков ранее, что упростит создание связных и структурированных треков. Она доступна владельцам Pro подписки в экспериментальном режиме по сниженной цене в кредитах. Обычная модель для генерации по 30 сек всё также доступна и на бесплатном тарифе.

Также в ручном режиме теперь можно зафиксировать сид, чтобы играться с промтами и лирикой, сохраняя стиль генерации.

Появился и способ установить влияние промта/лирики на конечный результат. Усиленное следование промту приблизит звучание к описываемому стилю, но могут быть проблемы с гармонией. В то же время слабое следование тексту песни позволит получить более естественный вокал, но слова изменятся.

Можно и задать откуда новый генерируемый кусок должен начинаться относительно общей длительности трека: 0% это начало, 90% почти с конца, итд. Хотя зачем высчитывать проценты, когда обычный тайминг намного ловчей?

Ещё появился слайдер скорость/качество, чтобы можно было экспериментировать в более интерактивном ключе.

И, теперь в боковой панели собраны те, на кого вы подписались.

PS: на днях Suno 3.5 должна выйти в публичный доступ. Прошки уже играются.

Сайт
Анонс
Подробнее про Udio

2.87K viewsAndrey Bezryadin, 12:28

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

MusePose: анимируем персонажей на фото, передавая данные о движении.

Инструмент входит в серию Muse того же разработчика: MuseV — генерация видео с персонажами/анимация картинок, MuseTalk — липсинк в реальном времени.

На примерах выглядит значительно лучше других альтернатив. Тут и тени есть, и хоть какая-то физика волос, да и сами движения довольно плавные.

Демка в колабе
Гитхаб

2.49K viewsAndrey Bezryadin, 13:17

Psy Eyes

2:00

This media is not supported in your browser

VIEW IN TELEGRAM

Suno V 3.5 вышла в публичный доступ.

Что нового:
* Можно генерить композиции длиной до 4 минут
* Расширять звучание на 2 минуты из любой точки
* Улучшения в структуре и вокале

Собрал музыку из видео в плейлист. Плюс добавил один трек, который не вошёл в подборку.

Также интерес представляет инструмент для создания музыки по референсному звучанию, но он ещё не запилен. Что занятно в Stable Audio 2 это уже было реализовано пару месяцев назад, но они это никак не промили.

Ещё Suno запустили розыгрыш с пулом наград в $1 млн для топ авторов июня (список участвующих стран). Зовите в жюри юристов мейджор лейблов, у них уже ладошки потеют.

По качеству и контролю конечного результата Udio всё ещё впереди, но приятно видеть, что Suno активно развиваются. И даже маячат выпустить V4 в скором времени.

2.21K viewsAndrey Bezryadin, 18:32

Psy Eyes

1.7K viewsAndrey Bezryadin, 08:21

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

EasyAnimate: генерация фото и видео 6 сек 24 fps на архитектуре трансформеров.

T2V-Turbo: быстрая генерация коротких видео с максимальным разрешением 320х512.

ToonCrafter: ускоряем создание анимации, за счёт генерации промежуточных кадров. Нода для Comfy. Вот ещё PasicPBC заодно для колоризации.

Phygital+: добавили IP-Adapter XL и генерацию видео через SVD.

Consistent Character: создаём консистентные фото с целевым персонажем в разных позах. Работает с анимацией, есть воркфлоу для Comfy и гитхаб. Можно даже скормить в ToonCrafter.

Omost: новый проект автора контролнета, использующий LLM для композиции генерируемого изображения. Сначала вкидываем промт и кликаем Submit. Получив код нажимаем Render и ловим картинку.

Xinsir: касательно самого контролнета. Появилась новая модель Xinsir под SDXL, показывающая хорошие результаты. До этого ещё вышла Mistoline тоже на SDXL.

MusePose: подъехал Comfy для этого аниматора персонажей.

V-Express: генерация говорящих голов с липсинком. Демо.

RelightableAvatar: тоже создание аватаров, но уже с анимацией в нужных позах, сеттинге, и освещении.

Deemos: Rodin Gen-1 стал доступен всем на сайте разработчика. До этого выкатили демку на хаггинге.

IC-Light: моделька для смены освещения теперь в A1111 и Forge.

Krea: добавили апскейлер для видео.

3DitScene: генерим новые виды вокруг объекта.

🎸 ЗВУК 🎸

ElevenLabs: выкатили генератор звуковых эффектов.

Gazelle: опенсорсная модель для общения голосом с нейронкой в реальном времени, а-ля Чо. В демке отвечает только текстом на аудио + текст.

ChatTTS: ещё один генератор речи. VoiceCraft и иже с ним лучше.

🤖 ЧАТЫ 🤖

Colossal: представили опенсорсный инструмент Colossal Inference для ускорения работы больших языковых моделей (LLM).

Hugging Face: произошел инцидент с неавторизованным доступом к спейсам на платформе. Рекомендуют сменить API ключи/токены и перейти на гранулированный уровень контроля.

OpenAI: на бесплатном тарифе ChatGPT теперь доступны: браузер, загрузка файлов, видение, анализ данных, и GPTs.

Anthropic: Claude научился использовать внешние инструменты и API.

Google: в след за Microsoft анонсировали новые Chrome-буки с AI-фичами.

Perplexity: результатами переписки с LLM теперь можно делиться как отдельными веб-страницами.

Nvidia: выпустили NeMo Curator — библиотеку работы с датасетами перед треней. И модель для эмбеддингов NV-Embed-v1.

Falcon Vsion: к этой LLM из Эмиратов прикрутили зрение и сделали визуальную языковую модель (VLM).

Yuan 2.0-M32: новая LLM размером 40В на архитектуре MoE c 32 экспертами и Attention Router для эффективного выбора 2 активных.

Исследования в тренировке/файнтюне LLM:
* DORA — стабилизируем треню и улучшаем умение LLM запоминать
* VeLoRA — эффективное обучение с использованием проекций суб-токенов 1 ранга
* AQLM — сжатие и экономное использование памяти

2.44K viewsAndrey Bezryadin, edited 08:21

Psy Eyes

1:26

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

Новое в сплатах:

PlayCanvas: в версии v 0.19.2 теперь можно редактировать много вещей внутри одной сцены. Также поменялся порядок загрузки сплатов, и объекты вне поля зрения камеры больше не рендерятся, что значительно увеличило производительность. Появилась установка SuperSplat как PWA для запуска с панели задач на винде и ассоциирования .ply фалов с софтом. Плюс обновления и исправления в рендере через WebGPU и другие мелочи.

В релиз входит пак эффектов, схожий с плагином Irrealix для After Effects, но тут не требуется знаний.

Покрутить сцену со статуей из видео можно тут, а отредактировать её самому здесь.

NerfStudio: выпустили свой движок для рендера сплатов gsplat 1.0. Требования к памяти значительно снизились, а скорость трени где-то ускорилась в разы. При этом можно рендерить огромные сцены. Лицензия Apache 2.0, в то время как у родной 3DGS от Inria разрешено только некоммерческое использование.

Сам софт NerfStudio обновился до v 1.1.2. Интегрировали AbsGS, улучшающий детализацию сцен, при этом экономя память. Появилась поддержка интерфейса Gradio. Добавили новые методы SIGNeRF, OpenNeRF, и NeRFtoGSandBack для реконструкции 3D, а также RealityCapture под бесплатной лицензией, но не для России. Плюс много мелких улучшений.

3DGS-Deblur: проект, устраняющий в сцене блюр и эффект плавающего затвора, делая картинку более чёткой и стабильной.

StopThePop: тоже улучшатель, только с фокусом на избавлении от фликера.

AtomGS: обработка визуала в два захода на одной 4090, для получения сплатов с неплохой детализацией.

2.71K viewsAndrey Bezryadin, 16:33

About

Blog

Apps

Platform