3Д-Хакинг.
Вам не нужен Mythos, чтобы искать дыры. Грока достаточно.
История немного для гиков, хотя если посмотреть шире, то вовсе нет.
Подписчик Леша Борзых, фанат Tripo 3D и ни разу не программист или хакер, рассказал вот такую историю.
Tripo - пока лучший генератор 3D. Всё еще немного мылит но не критично.
Так вот, генерации на новой версии не дают скачивать без подписки. Облом-с.
Смекалка ON:
Если я вижу 3Д модель в браузере - значит она уже у меня на локале. Остаётся пересохранить её в Downloads.
Но, прямой ссылки на модель нет - надо ловить через запрос. Лезем в консоль > Network > фильтр по glb и вот он наш файл. Копируем запрос и скачиваем модель через терминал - бинго!
Но руками неудобно.
Пошёл Грок - "хочу что-бы само скачивалось". Грок выдал: ставь Tampermonkey и вот скрипт, который всё скачает.
Сделано. Теперь, открывая страницу с морделью она сама сливается.
НО, это ещё не конец истории.
Оказалось, что модель пожата методом, который не поддерживается импортёром блендора (при том, что запрос на доработку этого висит на Git аж с 21 года!). Грок тыкнул меня в сайт https://gltf.report/ через который модель можно пере-выгнать без компресии. И накидал ещё 4 варианта, как это можно провернуть.
Золотой ключик в кармане.
ПРОДОЛЖЕНИЕ:
Но Трипо не дураки, как могут борются с бесплатным скачиванием моделей. Они меняют тип файла и то, как генерится ссылка на него. Он то glb, то fbx. Может и другие форматы делает. Мой скрипт для скачки переставал работать три раза, пока я не понял что они играют в "угадай мелодию". Ну окей, я просто заложил все форматы, убрал авто-скачивание, чтоб скрипт не спотыкался и добавил кнопку. Дожидаюсь прогрузки модели и сам жмакаю "скачать".
Посмотрим, на сколько хватит и что придумают в следующий раз.
p.s. Забавное: скрипт пишет Грок, но в процессе отладки я показываю его gpt и прошу проверить и поправить. Так вот, он проверяет. Находит все ошибки, но сам отказывается их исправлять так как "не может помогать не-санкционированно обходить запреты на платный контент". Тогда я беру ответы gpt, тыкаю в них грока и тот всё исправляет.
Вывод: не надо быть программистом или хакером, надо просто понимать устройство браузера.
Скрипт в первом коменте
@cgevent
Вам не нужен Mythos, чтобы искать дыры. Грока достаточно.
История немного для гиков, хотя если посмотреть шире, то вовсе нет.
Подписчик Леша Борзых, фанат Tripo 3D и ни разу не программист или хакер, рассказал вот такую историю.
Tripo - пока лучший генератор 3D. Всё еще немного мылит но не критично.
Так вот, генерации на новой версии не дают скачивать без подписки. Облом-с.
Смекалка ON:
Если я вижу 3Д модель в браузере - значит она уже у меня на локале. Остаётся пересохранить её в Downloads.
Но, прямой ссылки на модель нет - надо ловить через запрос. Лезем в консоль > Network > фильтр по glb и вот он наш файл. Копируем запрос и скачиваем модель через терминал - бинго!
Но руками неудобно.
Пошёл Грок - "хочу что-бы само скачивалось". Грок выдал: ставь Tampermonkey и вот скрипт, который всё скачает.
Сделано. Теперь, открывая страницу с морделью она сама сливается.
НО, это ещё не конец истории.
Оказалось, что модель пожата методом, который не поддерживается импортёром блендора (при том, что запрос на доработку этого висит на Git аж с 21 года!). Грок тыкнул меня в сайт https://gltf.report/ через который модель можно пере-выгнать без компресии. И накидал ещё 4 варианта, как это можно провернуть.
Золотой ключик в кармане.
ПРОДОЛЖЕНИЕ:
Но Трипо не дураки, как могут борются с бесплатным скачиванием моделей. Они меняют тип файла и то, как генерится ссылка на него. Он то glb, то fbx. Может и другие форматы делает. Мой скрипт для скачки переставал работать три раза, пока я не понял что они играют в "угадай мелодию". Ну окей, я просто заложил все форматы, убрал авто-скачивание, чтоб скрипт не спотыкался и добавил кнопку. Дожидаюсь прогрузки модели и сам жмакаю "скачать".
Посмотрим, на сколько хватит и что придумают в следующий раз.
p.s. Забавное: скрипт пишет Грок, но в процессе отладки я показываю его gpt и прошу проверить и поправить. Так вот, он проверяет. Находит все ошибки, но сам отказывается их исправлять так как "не может помогать не-санкционированно обходить запреты на платный контент". Тогда я беру ответы gpt, тыкаю в них грока и тот всё исправляет.
Вывод: не надо быть программистом или хакером, надо просто понимать устройство браузера.
Скрипт в первом коменте
@cgevent
1🔥80😁21❤9👎6👍4
Снова за 3Д и Fable
Кадовские файлы - это тоже текст. Также существует язык OpenSCAD, где исходник - чистый код. Поэтому для LLM - это "родной" формат.
Кроме того, моя гипотеза в том, что хороших кадовских моделей в сети больше, что просто 3Д-моделей (хороших).
Поэтому и Клод и Фабле чрезвычайно осмысленно генерят CAD-овские модели.
Вчера постил про Боинг в браузере, но люди идут дальше и генерят с помощью Фабле кад-модели в Autodesk Fusion.
Особенно впечатляет пример с 8-цилиндровым двигателем. Сделанным с помощью промпта.
Обязательно посмотрите твиттор вот этого чувака:
https://x.com/adamdotnew
Там очень интересные примеры.
Он уже написал Копилота для Autodesk Fusion:
https://fusion.adam.new/install
Боинг, по ходу, становится новым бенчмарком))
@cgevent
Кадовские файлы - это тоже текст. Также существует язык OpenSCAD, где исходник - чистый код. Поэтому для LLM - это "родной" формат.
Кроме того, моя гипотеза в том, что хороших кадовских моделей в сети больше, что просто 3Д-моделей (хороших).
Поэтому и Клод и Фабле чрезвычайно осмысленно генерят CAD-овские модели.
Вчера постил про Боинг в браузере, но люди идут дальше и генерят с помощью Фабле кад-модели в Autodesk Fusion.
Особенно впечатляет пример с 8-цилиндровым двигателем. Сделанным с помощью промпта.
Обязательно посмотрите твиттор вот этого чувака:
https://x.com/adamdotnew
Там очень интересные примеры.
Он уже написал Копилота для Autodesk Fusion:
https://fusion.adam.new/install
Боинг, по ходу, становится новым бенчмарком))
@cgevent
😱24❤15👍10👎2🔥2
Мимокодер
"Xiaomi, компания, которую все знают по смартфонам и роботам-пылесосам, тихо запустила ИИ-агента для программирования. Не облачный сервис, не плагин для IDE — а полноценный инструмент в командной строке, который читает твой код, пишет новый, запускает команды, разбирается с Git и даже помнит контекст проекта между сессиями. Называется MiMo Code, и на момент написания этого текста он бесплатен."
Главная фишка: не теряет контекст при выполнении длительных задач.
Он основан на OpenCode, а код опенсорснут под лицензией MIT.
Подробнее тут:
https://vc.ru/ai/2975153-xiaomi-besplatnyj-ii-programmist-mimo-code
https://mimo.xiaomi.com/mimocode
@cgevent
"Xiaomi, компания, которую все знают по смартфонам и роботам-пылесосам, тихо запустила ИИ-агента для программирования. Не облачный сервис, не плагин для IDE — а полноценный инструмент в командной строке, который читает твой код, пишет новый, запускает команды, разбирается с Git и даже помнит контекст проекта между сессиями. Называется MiMo Code, и на момент написания этого текста он бесплатен."
Главная фишка: не теряет контекст при выполнении длительных задач.
Он основан на OpenCode, а код опенсорснут под лицензией MIT.
Подробнее тут:
https://vc.ru/ai/2975153-xiaomi-besplatnyj-ii-programmist-mimo-code
https://mimo.xiaomi.com/mimocode
@cgevent
❤27👍8😁7
Для Гиков и Нюков
В феврале писал про то, что The Foundry купила Griptape.
Пару дней назад пошли новости от Фаундри, во что они превратили эту покупку.
Честно сказать, я думал они нативно воткнут Groptape в свой нодовый движок\интерфейс.
Но нет.
Griptape это теперь красивый Комфи, с нодами, которые могут вызывать\загружать абсолютно любые модели (по API прежде всего). Там и видео, 3Д и тексты.
То есть там собирается воркфлоу, который потом экспортируется в Нюк. В Нюке появляется гизмо-нода, которая видит этот вокфлоу и его параметры. Хотите изменить воркфлоу, шуруйте обратно в Griptape и экспортируйте заново.
Ну то есть сущности малость плодятся, есть два нодовых интерфейса.
Посмотрите первое видео, чтобы полюбовацца на красивый Комфи.
https://www.youtube.com/watch?v=D32A7f4BgCo
А во втором видео рассказывают, как тащит Griptape в Нюк и там встраивать в пайплайн. На примере Флюкс Инпайнт.
https://www.youtube.com/watch?v=BmgEZaJpFcw
Немного разочарован, на примере масочку делают ручками (могли бы для демо подобрать пример с ИИ-маской), ну и все выглядит достаточно громоздко.
Хотя может композеры оценят.
Мне просто кажется, что это же можно наворотить с помощью Комфи (API) и плагинов к Нюку (мне даже кажется кто-то уже делал такое).
Также напомню, что Гриптайп купили из-за Griptape Cloud - инфраструктуры инференса моделей. Возможно Фаундри будет зарабатывать дополнительные деньги за вызовы генераторов всего и вся.
Композеры, поглядите, как вам?
@cgevent
В феврале писал про то, что The Foundry купила Griptape.
Пару дней назад пошли новости от Фаундри, во что они превратили эту покупку.
Честно сказать, я думал они нативно воткнут Groptape в свой нодовый движок\интерфейс.
Но нет.
Griptape это теперь красивый Комфи, с нодами, которые могут вызывать\загружать абсолютно любые модели (по API прежде всего). Там и видео, 3Д и тексты.
То есть там собирается воркфлоу, который потом экспортируется в Нюк. В Нюке появляется гизмо-нода, которая видит этот вокфлоу и его параметры. Хотите изменить воркфлоу, шуруйте обратно в Griptape и экспортируйте заново.
Ну то есть сущности малость плодятся, есть два нодовых интерфейса.
Посмотрите первое видео, чтобы полюбовацца на красивый Комфи.
https://www.youtube.com/watch?v=D32A7f4BgCo
А во втором видео рассказывают, как тащит Griptape в Нюк и там встраивать в пайплайн. На примере Флюкс Инпайнт.
https://www.youtube.com/watch?v=BmgEZaJpFcw
Немного разочарован, на примере масочку делают ручками (могли бы для демо подобрать пример с ИИ-маской), ну и все выглядит достаточно громоздко.
Хотя может композеры оценят.
Мне просто кажется, что это же можно наворотить с помощью Комфи (API) и плагинов к Нюку (мне даже кажется кто-то уже делал такое).
Также напомню, что Гриптайп купили из-за Griptape Cloud - инфраструктуры инференса моделей. Возможно Фаундри будет зарабатывать дополнительные деньги за вызовы генераторов всего и вся.
Композеры, поглядите, как вам?
@cgevent
Telegram
Метаверсище и ИИще
Мажоры поднимают веки 2
The Foundry купили стартап Griptape AI
Griptape - это что-то типа ComfyUI, но попроще. Набор нод и движок для их выполнения. Ноды самые разные - от доступа к LLM, до видеогенерации (последняя либа на гитхабе - доступ к Клингу).
Кроме…
The Foundry купили стартап Griptape AI
Griptape - это что-то типа ComfyUI, но попроще. Набор нод и движок для их выполнения. Ноды самые разные - от доступа к LLM, до видеогенерации (последняя либа на гитхабе - доступ к Клингу).
Кроме…
❤11🔥4👍3
Forwarded from Три сигмы
Media is too big
VIEW IN TELEGRAM
Meta Reality Labs x Gracia
Честно, не думал, что нам можно будет про это рассказывать. Год назад мы познакомились с ресерчером из MRL и он предложил реконструировать «музыкальное представление» для них.
Мы такие: да без проблем, у нас большой опыт. Пожали руки, начали ждать футаж. Когда получили, не могли поверить своим глазам: кромешная тьма, шум, дым машины, строббинг освещение, толпа рейвящих людей. Я не думаю, что еще кто-либо в истории пытался реконструировать что угодно такого же уровня безумия.
Наш глава R&D Илья пожал плечами, сказал hold mybeer triple espresso, пошёл и затащил. Мета настолько впечатлилась, что разрешила нам этим похвастаться. Зацените тизер клипа группы Memba - Patience, сделанный нами в настоящем вольюметрике.
Мы направляемся в LA, чтобы на крупнейшей XR конфе AWE рассказать об этом проекте и сделать еще один, не менее важный анонс. 🫡
Честно, не думал, что нам можно будет про это рассказывать. Год назад мы познакомились с ресерчером из MRL и он предложил реконструировать «музыкальное представление» для них.
Мы такие: да без проблем, у нас большой опыт. Пожали руки, начали ждать футаж. Когда получили, не могли поверить своим глазам: кромешная тьма, шум, дым машины, строббинг освещение, толпа рейвящих людей. Я не думаю, что еще кто-либо в истории пытался реконструировать что угодно такого же уровня безумия.
Наш глава R&D Илья пожал плечами, сказал hold my
Мы направляемся в LA, чтобы на крупнейшей XR конфе AWE рассказать об этом проекте и сделать еще один, не менее важный анонс. 🫡
23🔥34❤9👎8👍4
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка
"Мухомор монастырский". Несуществующая реклама существующих товаров.
Креатив&продакшн Ai Механика @mechanicsfilms_ai
Креативная идея: Алексей Карпов, Марина Краснопольская
Ai артист: Марина Краснопольская
Крем для век «Мухомор монастырский» (реальный продукт, есть на маркетплейсах)
Состав не изучали. Эффективность не проверяли. Но упаковка заинтриговала, потому что крем залит натурально в банку из-под майонеза.
Решили сделать креативный эксперимент. Можно ли вообще что-то придумать для такого продукта.
Результат - мамадорогая, тяжелый люкс. Где-то занервничали Dior.
Как это сделано:
Выстраивание и итерации основного промта через Claude.
Генерация стилистики и кадров:
Midjourney - заложена основа стилистической концепции ролика.
NanoBanana 2 - разработка и развитие кадров
Photoshop - доработка кадров вручную
Генерация видео:
Sidance 2.0. - основной объем кадров
Kling O3 - часть кадров в нем
Постпродакшн
DaVinci Resolve - монтаж, цветокоррекция, работа со звуком и музыкой.
Тайминг - 15 дней, между основными проектами.
@cgevent
"Мухомор монастырский". Несуществующая реклама существующих товаров.
Креатив&продакшн Ai Механика @mechanicsfilms_ai
Креативная идея: Алексей Карпов, Марина Краснопольская
Ai артист: Марина Краснопольская
Крем для век «Мухомор монастырский» (реальный продукт, есть на маркетплейсах)
Состав не изучали. Эффективность не проверяли. Но упаковка заинтриговала, потому что крем залит натурально в банку из-под майонеза.
Решили сделать креативный эксперимент. Можно ли вообще что-то придумать для такого продукта.
Результат - мамадорогая, тяжелый люкс. Где-то занервничали Dior.
Как это сделано:
Выстраивание и итерации основного промта через Claude.
Генерация стилистики и кадров:
Midjourney - заложена основа стилистической концепции ролика.
NanoBanana 2 - разработка и развитие кадров
Photoshop - доработка кадров вручную
Генерация видео:
Sidance 2.0. - основной объем кадров
Kling O3 - часть кадров в нем
Постпродакшн
DaVinci Resolve - монтаж, цветокоррекция, работа со звуком и музыкой.
Тайминг - 15 дней, между основными проектами.
@cgevent
2👎46🔥42👍27❤14😁4
Forwarded from эйай ньюз
Anthropic закрыли доступ к Fable всем пользователям
Это результат требования правительства США закрыть доступ к Fable для всех не-граждан, включая сотрудников Anthropic. Так как у Anthropic нет системы для проверки гражданства, доступ закрыли вообще всем.
Причиной послужил частичный джейлбрейк, который позволил использование Fable для поиска уязвимостей. Найденные уязвимости довольно простые и могут быть найдены другими публично доступными моделями.
От того удастся ли Anthropic отбиться и насколько серьёзны намерения правительства зависит судьба рынка.
https://www.anthropic.com/news/fable-mythos-access
@ai_newz
Это результат требования правительства США закрыть доступ к Fable для всех не-граждан, включая сотрудников Anthropic. Так как у Anthropic нет системы для проверки гражданства, доступ закрыли вообще всем.
Причиной послужил частичный джейлбрейк, который позволил использование Fable для поиска уязвимостей. Найденные уязвимости довольно простые и могут быть найдены другими публично доступными моделями.
От того удастся ли Anthropic отбиться и насколько серьёзны намерения правительства зависит судьба рынка.
https://www.anthropic.com/news/fable-mythos-access
@ai_newz
Anthropic
Statement on the US government directive to suspend access to Fable 5 and Mythos 5
The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national, whether inside or outside the United States.
😁36👎19🔥8👍5😱4❤2
Много думал, читал телеграм.
Натолкнулся на такой пост из 2023(!) года:
https://xn--r1a.website/cgevent/6885
"Дальше придут аудиторы, чтобы проверять кошерность ваших LLM и скрепность генераторов картинок - соответствуют ли ваши опенсорсные модели и файнтюны очередного Фалькона линии партии.
Внедряете ИИ? Покажите ваши сертификаты, разрешения, лицензии, справки из ИИ-диспансера."
Аудиторы пришли. На уровне государства.
И требуют теперь справку о гражданстве.
Шутки про "в интернет по паспорту" превратились (очень в духе черного зеркала) в ниразунешутки про "в ИИ по паспорту".
А те, кто топят за опенсорс или китайцев, просто почитайте пост.
У китайцев с выходом интернет по паспорту все уже давно обкатано.
Да и в целом все обкатано: взять хотя бы разные цены на авиабилеты или подписки для разных стран.
Ну или вот это вот "в Евросоюзе/Вашемрегионе наша модель пока недоступна".
2026: В ИИ по паспорту - вы находитесь тут.
@cgevent
Натолкнулся на такой пост из 2023(!) года:
https://xn--r1a.website/cgevent/6885
"Дальше придут аудиторы, чтобы проверять кошерность ваших LLM и скрепность генераторов картинок - соответствуют ли ваши опенсорсные модели и файнтюны очередного Фалькона линии партии.
Внедряете ИИ? Покажите ваши сертификаты, разрешения, лицензии, справки из ИИ-диспансера."
Аудиторы пришли. На уровне государства.
И требуют теперь справку о гражданстве.
Шутки про "в интернет по паспорту" превратились (очень в духе черного зеркала) в ниразунешутки про "в ИИ по паспорту".
А те, кто топят за опенсорс или китайцев, просто почитайте пост.
У китайцев с выходом интернет по паспорту все уже давно обкатано.
Да и в целом все обкатано: взять хотя бы разные цены на авиабилеты или подписки для разных стран.
Ну или вот это вот "в Евросоюзе/Вашемрегионе наша модель пока недоступна".
2026: В ИИ по паспорту - вы находитесь тут.
@cgevent
Telegram
Метаверсище и ИИще
Ну и после прочтения материала про указ Байдена по регулированию ИИ у меня нехорошее чувство.
Вынесу из коментов вот такую логичную реакцию от @Autour:
"хотите использовать llm в бизнесе? а где ваша лицензия на использование больших языковых моделей? а…
Вынесу из коментов вот такую логичную реакцию от @Autour:
"хотите использовать llm в бизнесе? а где ваша лицензия на использование больших языковых моделей? а…
😱31👍12❤3🙏3👎1😁1
Мысли CEO: что дальше в LTX
Зив, CEO LTX, на связи. Хотел немного приоткрыть завесу над техническими ставками, которые мы делаем, и тем, куда они ведут. Готов подробно обсудить детали в комментариях.
Последнее время мы глубоко работали над следующим поколением LTX, и я хочу поделиться тем, что нас ждёт. Это не пост о долгосрочном видении — он выйдет отдельно, — а конкретный взгляд на то, что мы строим прямо сейчас и что вы скоро увидите.
Следующий релиз LTX-2 сфокусирован на качестве генерации во всех направлениях. Как обычно: больше данных, больше вычислительных мощностей, а в этот раз ещё и две архитектурные версии: dense-модель и mixture-of-experts, чтобы предложить разные компромиссы между скоростью и качеством.
Mixture-of-experts, или MoE, — это фундаментальный архитектурный сдвиг, при котором модель активирует только те свои части, которые нужны для конкретной генерации. Это позволяет масштабировать возможности и качество без линейного роста затрат на вычисления. Такой тип изменений не всегда заметен в одном демо, но он фундаментально меняет то, что модель способна делать при заданной стоимости.
И в dense-версии, и в MoE-версии мы собираемся выпустить значительно более мощный text encoder. В результате модель будет лучше понимать то, что вы написали, включая сложные промпты с несколькими сценами, которые более старые архитектуры часто упрощали или игнорировали. Мы также серьёзно инвестируем в производительность и память: новые attention kernels и улучшенная поддержка low-precision вычислений означают, что последняя модель будет хорошо работать на более широком спектре железа.
Теперь та часть, которая, как мне кажется, тоже особенно важна для этого сообщества. Мы открываем больше нашей тренировочной инфраструктуры: новые trainer-рецепты и инструменты для обучения LoRA, чтобы вы могли создавать доменно-специфичные варианты моделей поверх LTX, а не просто использовать базовые веса как есть. Представьте специализированные версии для задач вроде человеческого движения, визуализации продуктов и архитектурных пространств — каждая дообучена на одной и той же основе, но оптимизирована под конкретную область. На enterprise-стороне это расширяется до слоя кастомизации после обучения, который позволяет командам дообучать модель на собственных закрытых данных без необходимости переобучать её с нуля. Полная картина состоит из трёх уровней: базовая foundation-модель, доменно-специфичные trainer-конфигурации и слой кастомизации для клиентов сверху.
Чтобы было ясно: мы намерены сохранять веса открытыми. Базовую модель, производные модели, инструменты. Это не bait-and-switch, где мы сначала открываем исходники, а потом закрываем всё, как только модель становится достаточно хорошей для монетизации. Открытость — это то, как мы строим, и сообщество, которое создаёт что-то поверх наших моделей, всегда сможет зайти дальше, чем любая отдельная команда в одиночку.
Ещё одна вещь, которую мы исследуем и которая, как мы считаем, может стать настоящим скачком в качестве результата: diffusion-based decoder, который заменяет традиционный VAE при преобразовании латентов обратно в пиксели. Потенциал здесь — более чёткий вывод в более высоком разрешении, объединяющий декодирование и апскейлинг в один шаг. Мы активно экспериментируем с этим в нашем latent space. Это как раз та архитектурная ставка, которая может изменить стандарт генерации видео, и мы надеемся, что открытые модели будут в этом лидировать.
Мы также понимаем, что модель — это только половина истории. Всё ещё существует реальный разрыв между “модель работает” и “я могу выпустить на её основе готовый продукт”, и закрыть этот разрыв для нас так же важно, как и улучшать саму модель. Мы полностью перерабатываем документацию и запускаем reference implementations, чтобы показать, как на практике выглядит хорошее внедрение.
Скоро будет больше новостей.
Сорс
@cgevent
Зив, CEO LTX, на связи. Хотел немного приоткрыть завесу над техническими ставками, которые мы делаем, и тем, куда они ведут. Готов подробно обсудить детали в комментариях.
Последнее время мы глубоко работали над следующим поколением LTX, и я хочу поделиться тем, что нас ждёт. Это не пост о долгосрочном видении — он выйдет отдельно, — а конкретный взгляд на то, что мы строим прямо сейчас и что вы скоро увидите.
Следующий релиз LTX-2 сфокусирован на качестве генерации во всех направлениях. Как обычно: больше данных, больше вычислительных мощностей, а в этот раз ещё и две архитектурные версии: dense-модель и mixture-of-experts, чтобы предложить разные компромиссы между скоростью и качеством.
Mixture-of-experts, или MoE, — это фундаментальный архитектурный сдвиг, при котором модель активирует только те свои части, которые нужны для конкретной генерации. Это позволяет масштабировать возможности и качество без линейного роста затрат на вычисления. Такой тип изменений не всегда заметен в одном демо, но он фундаментально меняет то, что модель способна делать при заданной стоимости.
И в dense-версии, и в MoE-версии мы собираемся выпустить значительно более мощный text encoder. В результате модель будет лучше понимать то, что вы написали, включая сложные промпты с несколькими сценами, которые более старые архитектуры часто упрощали или игнорировали. Мы также серьёзно инвестируем в производительность и память: новые attention kernels и улучшенная поддержка low-precision вычислений означают, что последняя модель будет хорошо работать на более широком спектре железа.
Теперь та часть, которая, как мне кажется, тоже особенно важна для этого сообщества. Мы открываем больше нашей тренировочной инфраструктуры: новые trainer-рецепты и инструменты для обучения LoRA, чтобы вы могли создавать доменно-специфичные варианты моделей поверх LTX, а не просто использовать базовые веса как есть. Представьте специализированные версии для задач вроде человеческого движения, визуализации продуктов и архитектурных пространств — каждая дообучена на одной и той же основе, но оптимизирована под конкретную область. На enterprise-стороне это расширяется до слоя кастомизации после обучения, который позволяет командам дообучать модель на собственных закрытых данных без необходимости переобучать её с нуля. Полная картина состоит из трёх уровней: базовая foundation-модель, доменно-специфичные trainer-конфигурации и слой кастомизации для клиентов сверху.
Чтобы было ясно: мы намерены сохранять веса открытыми. Базовую модель, производные модели, инструменты. Это не bait-and-switch, где мы сначала открываем исходники, а потом закрываем всё, как только модель становится достаточно хорошей для монетизации. Открытость — это то, как мы строим, и сообщество, которое создаёт что-то поверх наших моделей, всегда сможет зайти дальше, чем любая отдельная команда в одиночку.
Ещё одна вещь, которую мы исследуем и которая, как мы считаем, может стать настоящим скачком в качестве результата: diffusion-based decoder, который заменяет традиционный VAE при преобразовании латентов обратно в пиксели. Потенциал здесь — более чёткий вывод в более высоком разрешении, объединяющий декодирование и апскейлинг в один шаг. Мы активно экспериментируем с этим в нашем latent space. Это как раз та архитектурная ставка, которая может изменить стандарт генерации видео, и мы надеемся, что открытые модели будут в этом лидировать.
Мы также понимаем, что модель — это только половина истории. Всё ещё существует реальный разрыв между “модель работает” и “я могу выпустить на её основе готовый продукт”, и закрыть этот разрыв для нас так же важно, как и улучшать саму модель. Мы полностью перерабатываем документацию и запускаем reference implementations, чтобы показать, как на практике выглядит хорошее внедрение.
Скоро будет больше новостей.
Сорс
@cgevent
1❤52🔥14😁4👎2👍1