Так как далеко не все смогут прийти, те кто посмотрят моё выступление на сайте и напишут мне в личку свой TON адрес получат онлайн версию (белую). К ней не идёт NFC, тон на балансе, и одежда, но вы также будете в списке для будущих дропов/ништяков.
Спойлер: я люблю функциональность, а не просто владение.
Буду печатать их в очереди поступления заявок.
Я на Лужниках буду тусоваться где-то до 21:00. Будем считать приём заявок заканчивается тоже в это время.
Трансляция:
https://phdays.com/festival/
Спойлер: я люблю функциональность, а не просто владение.
Буду печатать их в очереди поступления заявок.
Я на Лужниках буду тусоваться где-то до 21:00. Будем считать приём заявок заканчивается тоже в это время.
Трансляция:
https://phdays.com/festival/
Дайджест:
📹 ВИДЕО + АРТ 🎨
Появилось демо контролнет модели MistoLine.
Fooocus: обновился до v 2.4.1. Много мелких улучшений. Вместе с тем моё внимание привлекло, то что владение кодом перешло от lllyasviel к mashb1t и появилась nswf цензура, которая отключена по умолчанию.
Генерация фото с рульками привычными в сфере фото/видео съёмки: ISO, экспозиция, итд.
Krea: открыли генератор видео в публичной бете.
Leonardo: в версии V2 появились пресеты для стилей и img-2-img генерация для переложения стиля на разные объекты/персонажей.
CraftsMan: новый 3D генератор на основе картинок c выбором модели для обработки запроса и большим количеством рулек.
StreamV2V: замена человека на видео/смена стиля в реалтайме.
Adobe: внедрил генеративную стёрку в Lightroom (только сейчас?).
Open-Sora Plan: модель обновилась до v 1.1. Улучшилось качество генерации видео и его длительность.
Face Adapter: генерация картинки с лицом человека на рефе.
🎸 ЗВУК 🎸
LookOnceToHear: фильтруем звук в наушниках, чтобы слышать только собеседника перед нами.
🤖 ЧАТЫ 🤖
LM Studio: софт для локального чата с языковыми моделями (LLM) выкатил версию с поддержкой ROCm для запуска на видюхах от AMD. А хаггинг недавно как раз позволил запускать модели в LM Studio в 1 клик через диплинк.
Cohere: выпустили мультиязычную Aya-23 размером 8B и 35B, работающую на 23 языках, включая русский. Также есть Aya-101 размером 13B, глаголющая на 101 языке. (спс @JohnDoe171)
Qdrant: библиотека на питоне для генерации подписей обзавелась инференсом на GPU.
Meteor: визуальная языковая модель (VLM) на основе архитектуры Mamba, которая хорошо себя показывает на бенчах.
Microsoft: добавили в буфер обмена винды 11 возможность копировать-вставлять информацию с конвертацией, например в другой язык.... за кредиты OpenAI.... а до этого они ещё и рекламу в пуск впилили.... it evolves, just backwards.
Также они представили ноуты на чипах Snapdragon X Elite от Qualcomm, которые должны выйти в июне. Не делаем никаких предзаказов, ждём тестов не от лабы под надзором майков, а от блогеров и юзеров. Ещё есть много вопросов касательно фичи Recall, которая, будет удивительно если не прогремит в новостях о слежке и утечках.
Ещё их GitHub Copilot обзавёлся расширениями, а Copilot официальным ботом в телеге, правда просит номер телефона и не ясно в каких странах он работает. Также появилась влмка Phi3 Vision 128K.
DeepSeek: выкатили 7B чат по картинкам.
Mistral: 7B модель в v 0.3 получила Function calling, и пару других изменений.
Alibaba: сделали VLM для чата по картинкам в высоком разрешении ConvLLaVA.
Gradio портировали на C#.
Исследования:
* Персонализируем LLM под себя, просто общаясь с ней. Код на гитхабе.
* Ускоряем инференс LLM через распределёнку.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Появилось демо контролнет модели MistoLine.
Fooocus: обновился до v 2.4.1. Много мелких улучшений. Вместе с тем моё внимание привлекло, то что владение кодом перешло от lllyasviel к mashb1t и появилась nswf цензура, которая отключена по умолчанию.
Генерация фото с рульками привычными в сфере фото/видео съёмки: ISO, экспозиция, итд.
Krea: открыли генератор видео в публичной бете.
Leonardo: в версии V2 появились пресеты для стилей и img-2-img генерация для переложения стиля на разные объекты/персонажей.
CraftsMan: новый 3D генератор на основе картинок c выбором модели для обработки запроса и большим количеством рулек.
StreamV2V: замена человека на видео/смена стиля в реалтайме.
Adobe: внедрил генеративную стёрку в Lightroom (только сейчас?).
Open-Sora Plan: модель обновилась до v 1.1. Улучшилось качество генерации видео и его длительность.
Face Adapter: генерация картинки с лицом человека на рефе.
🎸 ЗВУК 🎸
LookOnceToHear: фильтруем звук в наушниках, чтобы слышать только собеседника перед нами.
🤖 ЧАТЫ 🤖
LM Studio: софт для локального чата с языковыми моделями (LLM) выкатил версию с поддержкой ROCm для запуска на видюхах от AMD. А хаггинг недавно как раз позволил запускать модели в LM Studio в 1 клик через диплинк.
Cohere: выпустили мультиязычную Aya-23 размером 8B и 35B, работающую на 23 языках, включая русский. Также есть Aya-101 размером 13B, глаголющая на 101 языке. (спс @JohnDoe171)
Qdrant: библиотека на питоне для генерации подписей обзавелась инференсом на GPU.
Meteor: визуальная языковая модель (VLM) на основе архитектуры Mamba, которая хорошо себя показывает на бенчах.
Microsoft: добавили в буфер обмена винды 11 возможность копировать-вставлять информацию с конвертацией, например в другой язык.... за кредиты OpenAI.... а до этого они ещё и рекламу в пуск впилили.... it evolves, just backwards.
Также они представили ноуты на чипах Snapdragon X Elite от Qualcomm, которые должны выйти в июне. Не делаем никаких предзаказов, ждём тестов не от лабы под надзором майков, а от блогеров и юзеров. Ещё есть много вопросов касательно фичи Recall, которая, будет удивительно если не прогремит в новостях о слежке и утечках.
Ещё их GitHub Copilot обзавёлся расширениями, а Copilot официальным ботом в телеге, правда просит номер телефона и не ясно в каких странах он работает. Также появилась влмка Phi3 Vision 128K.
DeepSeek: выкатили 7B чат по картинкам.
Mistral: 7B модель в v 0.3 получила Function calling, и пару других изменений.
Alibaba: сделали VLM для чата по картинкам в высоком разрешении ConvLLaVA.
Gradio портировали на C#.
Исследования:
* Персонализируем LLM под себя, просто общаясь с ней. Код на гитхабе.
* Ускоряем инференс LLM через распределёнку.
Please open Telegram to view this post
VIEW IN TELEGRAM
Подъехало демо 3D генератора Rodin Gen-1.
1) Вкидываем картинку (лучше без фона, вот удалятор)
2) Автоматом генерится промт. Галочками можно указать, что в него добавить: например, high-poly или game-ready
3) Следом также автоматом создаётся 3D меш, который можно посмотреть в разных видах: карта нормалей, металлизированный, контрастный.
Скачать не даст, поведёт на сайт, где модель хоть и написано, что в публичной бете, но вход до сих пор по списку.
Попробовал генерить как используя свои картинки, так и те, что пришиты в примерах, но годного результата не получил. А вы?
В то же время Meshy или CRM с лёту генерят нормально.
Демо
Сайт
1) Вкидываем картинку (лучше без фона, вот удалятор)
2) Автоматом генерится промт. Галочками можно указать, что в него добавить: например, high-poly или game-ready
3) Следом также автоматом создаётся 3D меш, который можно посмотреть в разных видах: карта нормалей, металлизированный, контрастный.
Скачать не даст, поведёт на сайт, где модель хоть и написано, что в публичной бете, но вход до сих пор по списку.
Попробовал генерить как используя свои картинки, так и те, что пришиты в примерах, но годного результата не получил. А вы?
В то же время Meshy или CRM с лёту генерят нормально.
Демо
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Hugging Face подрубили в Hugging.chat фичу Tools, которая расширяет функционал опенсорсных языковых моделей, позволяя им парсить документы, генерировать картинки, итд.
На старте пока работает только с Command + R, но список будет расширяться.
Из доступных сейчас инструментов:
* Web Search — поиск по интернету
* URL Fetcher — получение текста из страницы
* Document Parser — чат по PDF
* Image Generation — генерация картинки
* Image Editing — редактирование картинки
* Calculator — калькулятор
Если хотите, чтобы ваш инструмент был опубликован среди других, чирканите тут.
Дальше для Tools планируется: их использование AI-агентами; подтягивание ранее сгенерированных/загруженных файлов; люди смогут подрубать собственные модели на ZeroGPU как инструменты для себя или AI-агентов; и т.д.
Интересно они смогут это как-то подружить с Use this мodel, чтобы гонять расширенный функционал локально?
Попробовать
Анонс
На старте пока работает только с Command + R, но список будет расширяться.
Из доступных сейчас инструментов:
* Web Search — поиск по интернету
* URL Fetcher — получение текста из страницы
* Document Parser — чат по PDF
* Image Generation — генерация картинки
* Image Editing — редактирование картинки
* Calculator — калькулятор
Если хотите, чтобы ваш инструмент был опубликован среди других, чирканите тут.
Дальше для Tools планируется: их использование AI-агентами; подтягивание ранее сгенерированных/загруженных файлов; люди смогут подрубать собственные модели на ZeroGPU как инструменты для себя или AI-агентов; и т.д.
Интересно они смогут это как-то подружить с Use this мodel, чтобы гонять расширенный функционал локально?
Попробовать
Анонс
Опробовал массовую рассылку TON с кошелька на новом стандарте W5 внутри Tonkeeper Pro.
Удобно. Делаешь список адресов, указываешь сколько должно прилететь каждому в TON или USD (максимум 255 получателей), цепляешь комментарий по желанию, и оно всё улетает одной транзакцией. В моём случае я одной подписью отправил TON всем, кто получил NFC мерч от меня на PHD, вместо того, чтобы подписывать каждую транзакцию отдельно, и тем самым сэкономил на комиссиях. Плюс сами транзакции требуют на 25% меньше газа по сравнению с предыдущей версией.
Ещё бы порешали с массовым выпуском и отправкой DC, а также группировкой кошельков и отправкой группе, и было бы вообще отлично.
Приложение есть только на десктоп, зато под любую ось (windows, mac, linux). Если авторизоваться телегой, то получаешь месяц бесплатного использования. Когда триал кончится можно использовать промокод
Удобно. Делаешь список адресов, указываешь сколько должно прилететь каждому в TON или USD (максимум 255 получателей), цепляешь комментарий по желанию, и оно всё улетает одной транзакцией. В моём случае я одной подписью отправил TON всем, кто получил NFC мерч от меня на PHD, вместо того, чтобы подписывать каждую транзакцию отдельно, и тем самым сэкономил на комиссиях. Плюс сами транзакции требуют на 25% меньше газа по сравнению с предыдущей версией.
Ещё бы порешали с массовым выпуском и отправкой DC, а также группировкой кошельков и отправкой группе, и было бы вообще отлично.
Приложение есть только на десктоп, зато под любую ось (windows, mac, linux). Если авторизоваться телегой, то получаешь месяц бесплатного использования. Когда триал кончится можно использовать промокод
pro-50, чтобы скостить 50% на подписке.Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Кодестраль.
Тут Мистраль выпустил новую как бы опенсорсную модель Codestral, она предназначена именно для работы с кодом. По всяким-разным метрикам она побивает CodeLlama и даже Llama 3 70B, имея значительно меньший размер. Немного пожатая она влезет на локальную видеокарту, обучена на более чем 80 языках (пока неясно, как она против GPT-4).
Codestral может писать код, делать тестирование и дописывать неполный код, а также отвечать на вопросы о кодовой базе на английском языке.
В общем выглядит крайне прельстиво.
Однако.
Если почитать лицензию, там не так все сладко, как хочется сторонникам опенсорса.
Лицензия стартапа запрещает использовать Codestral и его результаты для любой коммерческой деятельности (оппа!). Есть исключение для "разработки", но даже оно имеет оговорки. Далее в лицензии содержится прямой запрет ДАЖЕ на "любое внутреннее использование сотрудниками в контексте деловой активности компании".
Таким образом они защищаются от исков по поводу того, что данные для обучения (то бишь код) были взяты из полностью открытых источников.
Так что это скорее для частных лиц, которые котят погенеритькартиночки код у себя под столом для некоммерческой деятельности(?).
Интересно, что там с вотермарками.
https://techcrunch.com/2024/05/29/mistral-releases-its-first-generative-ai-model-for-code/
Тут Мистраль выпустил новую как бы опенсорсную модель Codestral, она предназначена именно для работы с кодом. По всяким-разным метрикам она побивает CodeLlama и даже Llama 3 70B, имея значительно меньший размер. Немного пожатая она влезет на локальную видеокарту, обучена на более чем 80 языках (пока неясно, как она против GPT-4).
Codestral может писать код, делать тестирование и дописывать неполный код, а также отвечать на вопросы о кодовой базе на английском языке.
В общем выглядит крайне прельстиво.
Однако.
Если почитать лицензию, там не так все сладко, как хочется сторонникам опенсорса.
Лицензия стартапа запрещает использовать Codestral и его результаты для любой коммерческой деятельности (оппа!). Есть исключение для "разработки", но даже оно имеет оговорки. Далее в лицензии содержится прямой запрет ДАЖЕ на "любое внутреннее использование сотрудниками в контексте деловой активности компании".
Таким образом они защищаются от исков по поводу того, что данные для обучения (то бишь код) были взяты из полностью открытых источников.
Так что это скорее для частных лиц, которые котят погенерить
Интересно, что там с вотермарками.
https://techcrunch.com/2024/05/29/mistral-releases-its-first-generative-ai-model-for-code/
TechCrunch
Mistral releases Codestral, its first generative AI model for code
French AI startup Mistral, which has backing from Microsoft, has released its first generative AI model for code, called Codestral.
This media is not supported in your browser
VIEW IN TELEGRAM
Udio: выкатили модель udio-130, способную сразу генерить 2 минутные куски вместо 30 секундных отрывков ранее, что упростит создание связных и структурированных треков. Она доступна владельцам Pro подписки в экспериментальном режиме по сниженной цене в кредитах. Обычная модель для генерации по 30 сек всё также доступна и на бесплатном тарифе.
Также в ручном режиме теперь можно зафиксировать сид, чтобы играться с промтами и лирикой, сохраняя стиль генерации.
Появился и способ установить влияние промта/лирики на конечный результат. Усиленное следование промту приблизит звучание к описываемому стилю, но могут быть проблемы с гармонией. В то же время слабое следование тексту песни позволит получить более естественный вокал, но слова изменятся.
Можно и задать откуда новый генерируемый кусок должен начинаться относительно общей длительности трека: 0% это начало, 90% почти с конца, итд. Хотя зачем высчитывать проценты, когда обычный тайминг намного ловчей?
Ещё появился слайдер скорость/качество, чтобы можно было экспериментировать в более интерактивном ключе.
И, теперь в боковой панели собраны те, на кого вы подписались.
PS: на днях Suno 3.5 должна выйти в публичный доступ. Прошки уже играются.
Сайт
Анонс
Подробнее про Udio
Также в ручном режиме теперь можно зафиксировать сид, чтобы играться с промтами и лирикой, сохраняя стиль генерации.
Появился и способ установить влияние промта/лирики на конечный результат. Усиленное следование промту приблизит звучание к описываемому стилю, но могут быть проблемы с гармонией. В то же время слабое следование тексту песни позволит получить более естественный вокал, но слова изменятся.
Можно и задать откуда новый генерируемый кусок должен начинаться относительно общей длительности трека: 0% это начало, 90% почти с конца, итд. Хотя зачем высчитывать проценты, когда обычный тайминг намного ловчей?
Ещё появился слайдер скорость/качество, чтобы можно было экспериментировать в более интерактивном ключе.
И, теперь в боковой панели собраны те, на кого вы подписались.
PS: на днях Suno 3.5 должна выйти в публичный доступ. Прошки уже играются.
Сайт
Анонс
Подробнее про Udio
This media is not supported in your browser
VIEW IN TELEGRAM
MusePose: анимируем персонажей на фото, передавая данные о движении.
Инструмент входит в серию Muse того же разработчика: MuseV — генерация видео с персонажами/анимация картинок, MuseTalk — липсинк в реальном времени.
На примерах выглядит значительно лучше других альтернатив. Тут и тени есть, и хоть какая-то физика волос, да и сами движения довольно плавные.
Демка в колабе
Гитхаб
Инструмент входит в серию Muse того же разработчика: MuseV — генерация видео с персонажами/анимация картинок, MuseTalk — липсинк в реальном времени.
На примерах выглядит значительно лучше других альтернатив. Тут и тени есть, и хоть какая-то физика волос, да и сами движения довольно плавные.
Демка в колабе
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Suno V 3.5 вышла в публичный доступ.
Что нового:
* Можно генерить композиции длиной до 4 минут
* Расширять звучание на 2 минуты из любой точки
* Улучшения в структуре и вокале
Собрал музыку из видео в плейлист. Плюс добавил один трек, который не вошёл в подборку.
Также интерес представляет инструмент для создания музыки по референсному звучанию, но он ещё не запилен. Что занятно в Stable Audio 2 это уже было реализовано пару месяцев назад, но они это никак не промили.
Ещё Suno запустили розыгрыш с пулом наград в $1 млн для топ авторов июня (список участвующих стран). Зовите в жюри юристов мейджор лейблов, у них уже ладошки потеют.
По качеству и контролю конечного результата Udio всё ещё впереди, но приятно видеть, что Suno активно развиваются. И даже маячат выпустить V4 в скором времени.
Что нового:
* Можно генерить композиции длиной до 4 минут
* Расширять звучание на 2 минуты из любой точки
* Улучшения в структуре и вокале
Собрал музыку из видео в плейлист. Плюс добавил один трек, который не вошёл в подборку.
Также интерес представляет инструмент для создания музыки по референсному звучанию, но он ещё не запилен. Что занятно в Stable Audio 2 это уже было реализовано пару месяцев назад, но они это никак не промили.
Ещё Suno запустили розыгрыш с пулом наград в $1 млн для топ авторов июня (список участвующих стран). Зовите в жюри юристов мейджор лейблов, у них уже ладошки потеют.
По качеству и контролю конечного результата Udio всё ещё впереди, но приятно видеть, что Suno активно развиваются. И даже маячат выпустить V4 в скором времени.