Решил немного подвести итоги года. 🧐
Пост разделил на две части.
Я считаю,что это был переломный год, в котором даже самые закостенелые скептики убедились:ИИ- не пустышка, а реально работающий инструмент, который может очень сильно ускорять процессы и помогать в работе.Кто-то полюбил его сразу, у кого-то до сих пор отторжение, но и тем, и другим теперь придется идти с ним бок о бок,так как это новые реалии.
Человеческий мозг быстро привыкает ко всему, особенно если это что-то хорошее.Поэтому вкратце пробежимся по тому,что именно поменялось за год.
🟥 ГЕНЕРАТОРЫ ИЗОБРАЖЕНИЙ
Еще год назад для создания изображения приходилось сильно заморачиваться с промтом: писать кучу технических терминов, выстраивать сложную структуру, обучать LoRA. Работа с текстом была просто никакой - надеюсь, многие еще помнят те «эльфийские кракозябры».Руки плыли, детали скакали, нормальных редакторов внутри моделей не было (только inpaint и outpaint).В общем, чтобы получить достойную картинку, нужно было очень и очень постараться.
К концу года практически всё перечисленное перестало быть проблемой.Теперь мы можем редактировать изображения любой сложности по одной строчке текста, генерировать конкретного человека или объект, имея всего один референс.Стало возможным создавать дизайн с текстом, карточками, обложками, копировать любой стиль и делать бесконечные вариации.Перечислять можно долго.Это действительно огромный и крутой скачок.💪
🟥 ГЕНЕРАТОРЫ 3D
Это направление по-настоящему стартовало именно в этом году.Еще в начале у нас были лишь пара-тройку сервисов, которые при генерации слишком упрощали детали и заметно искажали формы.Вообще, 3D - сфера во многом техническая: помимо генерации самой модели здесь куча нюансов вроде сетки, развертки, запекания текстур и т.д.В начале года всего этого просто не было, мы могли получить разве что несложную модель, годную максимум как «болванка» для доработки.
Но за год произошел серьезный сдвиг, и некоторые сервисы уже выдают модели очень приемлемого для работы качества.Также появились ИИ-инструменты,которые делают и развертку,и ретопологию.Единственный минус сейчас - это всё пока отдельные и разрозненные решения, но они реально работают.Я уже писал, что в следующем году мы 100% получим работающие сервисы с полным пайплайном.
Даже в текущих условиях мы в студии практически полностью собрали прототип игры, сократив время разработки в разы.Это уже огромный прорыв и показатель.🔥
🟥 ГЕНЕРАТОРЫ ВИДЕО
Если в картинках мы еще год назад чувствовали хоть какую-то твердую почву, то видео в начале года напоминало лотерею.Мы получали короткие ролики по 3-4 секунды, где всё плыло, объекты превращались друг в друга (тот самый бесконечный морфинг),а сохранить лицо персонажа было вообще чем-то из области фантастики.Это годилось максимум для мемов, использовать это в реальном продакшене было практически невозможно.
Сейчас же мы видим, пожалуй, самый стремительный рост именно здесь.Появилась та самая стабильность: персонаж теперь узнаваем в разных кадрах, физика стала адекватной, а длительность генерации выросла в разы без потери качества.Теперь мы не просто пишем промт и надеемся на чудо,а реально управляем камерой, движением и сценой.Из забавной игрушки генераторы видео превратились в мощный инструмент для моушн-дизайна, рекламы и создания полноценных видео роликов.😎
🟥 ГЕНЕРАТОРЫ МУЗЫКИ И ЗВУКОВ
Еще год назад это направление воспринималось скорее как забавный аттракцион.Сгенерированные треки звучали плоско, с характерным «металлическим» скрежетом, а вокал отдавал явной синтетикой.Структура песен разваливалась на ходу.О том, чтобы использовать такой материал в реальном проекте или игре, даже речи не шло.
Теперь отличить генерацию от реального студийного трека стало сложно даже на слух.Мы получили полноценную музыку с внятной структурой, чистым вокалом и любым настроением.Нужен уникальный эмбиент, звуки интерфейса или фоновый трек? Не нужно часами рыться на стоках - пара кликов, и у тебя есть готовый ассет,который идеально ложится в атмосферу.🙌
P.S.Аудио версия в комментариях.🎧
@VAI_ART
#VAI_Notes
Пост разделил на две части.
Я считаю,что это был переломный год, в котором даже самые закостенелые скептики убедились:ИИ- не пустышка, а реально работающий инструмент, который может очень сильно ускорять процессы и помогать в работе.Кто-то полюбил его сразу, у кого-то до сих пор отторжение, но и тем, и другим теперь придется идти с ним бок о бок,так как это новые реалии.
Человеческий мозг быстро привыкает ко всему, особенно если это что-то хорошее.Поэтому вкратце пробежимся по тому,что именно поменялось за год.
Еще год назад для создания изображения приходилось сильно заморачиваться с промтом: писать кучу технических терминов, выстраивать сложную структуру, обучать LoRA. Работа с текстом была просто никакой - надеюсь, многие еще помнят те «эльфийские кракозябры».Руки плыли, детали скакали, нормальных редакторов внутри моделей не было (только inpaint и outpaint).В общем, чтобы получить достойную картинку, нужно было очень и очень постараться.
К концу года практически всё перечисленное перестало быть проблемой.Теперь мы можем редактировать изображения любой сложности по одной строчке текста, генерировать конкретного человека или объект, имея всего один референс.Стало возможным создавать дизайн с текстом, карточками, обложками, копировать любой стиль и делать бесконечные вариации.Перечислять можно долго.Это действительно огромный и крутой скачок.
Это направление по-настоящему стартовало именно в этом году.Еще в начале у нас были лишь пара-тройку сервисов, которые при генерации слишком упрощали детали и заметно искажали формы.Вообще, 3D - сфера во многом техническая: помимо генерации самой модели здесь куча нюансов вроде сетки, развертки, запекания текстур и т.д.В начале года всего этого просто не было, мы могли получить разве что несложную модель, годную максимум как «болванка» для доработки.
Но за год произошел серьезный сдвиг, и некоторые сервисы уже выдают модели очень приемлемого для работы качества.Также появились ИИ-инструменты,которые делают и развертку,и ретопологию.Единственный минус сейчас - это всё пока отдельные и разрозненные решения, но они реально работают.Я уже писал, что в следующем году мы 100% получим работающие сервисы с полным пайплайном.
Даже в текущих условиях мы в студии практически полностью собрали прототип игры, сократив время разработки в разы.Это уже огромный прорыв и показатель.
Если в картинках мы еще год назад чувствовали хоть какую-то твердую почву, то видео в начале года напоминало лотерею.Мы получали короткие ролики по 3-4 секунды, где всё плыло, объекты превращались друг в друга (тот самый бесконечный морфинг),а сохранить лицо персонажа было вообще чем-то из области фантастики.Это годилось максимум для мемов, использовать это в реальном продакшене было практически невозможно.
Сейчас же мы видим, пожалуй, самый стремительный рост именно здесь.Появилась та самая стабильность: персонаж теперь узнаваем в разных кадрах, физика стала адекватной, а длительность генерации выросла в разы без потери качества.Теперь мы не просто пишем промт и надеемся на чудо,а реально управляем камерой, движением и сценой.Из забавной игрушки генераторы видео превратились в мощный инструмент для моушн-дизайна, рекламы и создания полноценных видео роликов.
Еще год назад это направление воспринималось скорее как забавный аттракцион.Сгенерированные треки звучали плоско, с характерным «металлическим» скрежетом, а вокал отдавал явной синтетикой.Структура песен разваливалась на ходу.О том, чтобы использовать такой материал в реальном проекте или игре, даже речи не шло.
Теперь отличить генерацию от реального студийного трека стало сложно даже на слух.Мы получили полноценную музыку с внятной структурой, чистым вокалом и любым настроением.Нужен уникальный эмбиент, звуки интерфейса или фоновый трек? Не нужно часами рыться на стоках - пара кликов, и у тебя есть готовый ассет,который идеально ложится в атмосферу.
P.S.Аудио версия в комментариях.
@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤2👏2👌1
Вторая часть.
🟥 LLM МОДЕЛИ
В начале года модели вроде и отвечали складно,но шаг влево,шаг вправо - и начинались галлюцинации.Они были похожи на очень начитанных,но забывчивых собеседников.Постоянно приходилось «скармливать» контекст заново,напоминать вводные данные,а сложные логические задачи часто ставили их в тупик.Мы привыкли использовать их для простых саммари или переписывания текста,но доверять им что-то серьезное без проверки было страшно.
Главный прорыв в этом году - это «память» и логика.Теперь мы можем загружать в них целые книги, огромные документы или длинные переписки, и они прекрасно в этом ориентируются, не теряя нить разговора.Появились модели,которые умеют «думать» перед ответом (reasoning),выстраивая цепочки рассуждений,что кардинально повысило качество решения сложных задач.Из простого генератора текста LLM превратились в настоящий аналитический инструмент, который понимает нюансы,сарказм и подтекст.🔥
🟥 КОДИНГ
Год назад программирование с ИИ выглядело как бесконечный копипаст.Мы копировали кусок кода в чат,просили найти ошибку,получали ответ, несли его обратно и часто оказывалось,что нейросеть выдумала несуществующую библиотеку или забыла,что мы писали два сообщения назад.Это работало на уровне простых скриптов,но как только речь заходила о чем-то масштабном, проще было написать самому.
Сейчас ИИ переехал из браузера прямо в редакторы кода и научился видеть весь проект целиком.Теперь он понимает структуру папок, связи между файлами и ваш стиль написания.Вы можете попросить «добавить новую механику стрельбы»,и он сам найдет нужные файлы,внесет правки в нескольких местах и даже напишет комментарии.Это уже не просто подсказчик синтаксиса,а полноценный напарник(AI-pair programmer),который берет на себя 80% рутины,оставляя нам самое интересное - архитектуру и логику.👍
🟥 АГЕНТЫ
Еще год назад слово «агент» звучало скорее как очередной хайп из Твиттера.На практике все выглядело жалко:нейросеть зацикливалась, сжигала кучу денег на API и в итоге не могла выполнить простейшую задачу до конца. Мы привыкли, что ИИ - это пассивный чат-бот: пока не спросишь, он молчит, и каждое действие нужно контролировать вручную.
К концу года мы увидели переход. Агенты наконец-то научились нормально планировать и удерживать цель. Теперь это не просто генерация текста, а выполнение цепочки действий: агент может сам пойти в интернет,найти информацию,проанализировать её,написать код, протестировать его и сохранить результат в файл.Это уже зачатки настоящей автономности,когда ИИ выступает не как справочник,а как полноценный стажер,которому можно делегировать задачу целиком,а не разжевывать каждый шаг.😎
🟥 ГЕНЕРАТОРЫ РЕЧИ
В начале года «синтез речи» у многих все еще ассоциировался с бездушными робо-голосами.Интонации были деревянными,эмоции - утрированными.Да,технология уже существовала, но «эффект зловещей долины» чувствовался в каждой второй фразе,выдавая искусственное происхождение звука.
За год мы пришли к тому,что на слух понять,говорит человек или машина,стало практически нереально.Современные модели научились клонировать голос по паре секунд записи,идеально передавая не только тембр,но и дыхание,паузы,микроинтонации и даже смешки.Стало возможным переводить видео на другие языки,сохраняя голос оригинального спикера(и даже синхронизируя губы!).Для озвучки контента это сняло огромную головную боль - студийное качество теперь доступно без студии и актеров.🙌
🟥 ОСТАЛЬНОЕ
За год ИИ перестал быть просто хайпом и глубоко интегрировался в серьезную науку. Биология и медицина получили мощнейший буст благодаря моделированию белков, а робототехника наконец-то обрела «мозг» на основе ИИ. Было очень много интересного!💪
Да,проблем еще много,но нужно просто запастись терпением.Мы находимся только в самом начале пути.Дальше больше!Нам всем очень повезло жить в этот период времени.Это похоже на новогоднюю сказку,которая вызывает очень много эмоции, как в детстве.Ты опять маленький ребенок, а перед тобой новый не исследованный мир и все еще впереди.🥺
P.S. Аудио версия в комментариях.🎧
@VAI_ART
#VAI_Notes
В начале года модели вроде и отвечали складно,но шаг влево,шаг вправо - и начинались галлюцинации.Они были похожи на очень начитанных,но забывчивых собеседников.Постоянно приходилось «скармливать» контекст заново,напоминать вводные данные,а сложные логические задачи часто ставили их в тупик.Мы привыкли использовать их для простых саммари или переписывания текста,но доверять им что-то серьезное без проверки было страшно.
Главный прорыв в этом году - это «память» и логика.Теперь мы можем загружать в них целые книги, огромные документы или длинные переписки, и они прекрасно в этом ориентируются, не теряя нить разговора.Появились модели,которые умеют «думать» перед ответом (reasoning),выстраивая цепочки рассуждений,что кардинально повысило качество решения сложных задач.Из простого генератора текста LLM превратились в настоящий аналитический инструмент, который понимает нюансы,сарказм и подтекст.
Год назад программирование с ИИ выглядело как бесконечный копипаст.Мы копировали кусок кода в чат,просили найти ошибку,получали ответ, несли его обратно и часто оказывалось,что нейросеть выдумала несуществующую библиотеку или забыла,что мы писали два сообщения назад.Это работало на уровне простых скриптов,но как только речь заходила о чем-то масштабном, проще было написать самому.
Сейчас ИИ переехал из браузера прямо в редакторы кода и научился видеть весь проект целиком.Теперь он понимает структуру папок, связи между файлами и ваш стиль написания.Вы можете попросить «добавить новую механику стрельбы»,и он сам найдет нужные файлы,внесет правки в нескольких местах и даже напишет комментарии.Это уже не просто подсказчик синтаксиса,а полноценный напарник(AI-pair programmer),который берет на себя 80% рутины,оставляя нам самое интересное - архитектуру и логику.
Еще год назад слово «агент» звучало скорее как очередной хайп из Твиттера.На практике все выглядело жалко:нейросеть зацикливалась, сжигала кучу денег на API и в итоге не могла выполнить простейшую задачу до конца. Мы привыкли, что ИИ - это пассивный чат-бот: пока не спросишь, он молчит, и каждое действие нужно контролировать вручную.
К концу года мы увидели переход. Агенты наконец-то научились нормально планировать и удерживать цель. Теперь это не просто генерация текста, а выполнение цепочки действий: агент может сам пойти в интернет,найти информацию,проанализировать её,написать код, протестировать его и сохранить результат в файл.Это уже зачатки настоящей автономности,когда ИИ выступает не как справочник,а как полноценный стажер,которому можно делегировать задачу целиком,а не разжевывать каждый шаг.
В начале года «синтез речи» у многих все еще ассоциировался с бездушными робо-голосами.Интонации были деревянными,эмоции - утрированными.Да,технология уже существовала, но «эффект зловещей долины» чувствовался в каждой второй фразе,выдавая искусственное происхождение звука.
За год мы пришли к тому,что на слух понять,говорит человек или машина,стало практически нереально.Современные модели научились клонировать голос по паре секунд записи,идеально передавая не только тембр,но и дыхание,паузы,микроинтонации и даже смешки.Стало возможным переводить видео на другие языки,сохраняя голос оригинального спикера(и даже синхронизируя губы!).Для озвучки контента это сняло огромную головную боль - студийное качество теперь доступно без студии и актеров.
За год ИИ перестал быть просто хайпом и глубоко интегрировался в серьезную науку. Биология и медицина получили мощнейший буст благодаря моделированию белков, а робототехника наконец-то обрела «мозг» на основе ИИ. Было очень много интересного!
Да,проблем еще много,но нужно просто запастись терпением.Мы находимся только в самом начале пути.Дальше больше!Нам всем очень повезло жить в этот период времени.Это похоже на новогоднюю сказку,которая вызывает очень много эмоции, как в детстве.Ты опять маленький ребенок, а перед тобой новый не исследованный мир и все еще впереди.
P.S. Аудио версия в комментариях.
@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥2
Неделя была достаточно жаркой по релизам.Погнали.
🔹 Наконец-то вышел GPT Images 1.5 .Многие очень ждали.Писал тут.Это абсолютно новая модель - не как предыдущая, которая была основана на базе Sora.Как обычно,она еще лучше держит промпт,увереннее работает с текстом и деталями,а также наконец-то избавилась от фирменной «желтизны»,с которой все боролись.Но, по факту,модель не лучше новой Banana.
🔹 Wan 2.6.Новая видеомодель Alibaba,заточенная под reference‑to‑video:она берет картинку или видео‑референс и генерирует клипы с тем же персонажем и стилем,держит стабильный дизайн,плавное движение и адекватную сцену,а также поддерживает multi‑shot и липсинк для серийных роликов.Как все знаем Wan открыт и можно это делать у себя на железе или в облаке.Попробовать можно тут.Презентация в комментариях.
🔹 Trellis.2.Новая модель от Microsoft.Модель заметно уступает некоторым закрытым аналогам,но у нее есть большой плюс:она открытая, можно запускать на своем железе или в облаке.По сравнению с первой версией она стала значительно лучше.Попробовать можно тут,а код тут.Презентация - в комментариях.Также,чтобы далеко не ходить,Hunyuan 3D v3 вышел в полноценный релиз - раньше, как оказалось,была только бета.По сути, поправили баги,ускорили обработку, качество почти не изменилось.И да,добавили тарифные планы,что,скорее всего,означает плавный уход от полностью бесплатной модели.
🔹 Вышел Flux.2 [max].Флагманская версия Flux 2 для продакшена.Она дает максимальное качество картинки в линейке,лучше других держит промпт,текст и сложные сцены, аккуратно редактирует уже готовые изображения и поддерживает до 10 референсов в одном запросе.Модель умеет подтягивать актуальную инфу или референсы из веба/документов и строить картинку на их основе,а не фантазировать в вакууме,поэтому результат получается более предсказуемым и привязанным к задаче.
🔹 SAM audio - это новая открытая модель от Meta,которая позволяет «выдернуть» любой нужный звук из сложной аудиозаписи по простому запросу:можно текстом описать звук (например,«голос ведущего»,«шум ветра»),указать нужный кусок по времени или даже ткнуть в объект на видео,а модель вернет отдельно чистый целевой звук и остальной фон,что делает очистку аудио,вырезание шумов,вытаскивание вокала или реплик из микса сильно проще обычных плагинов.Потестить тут.Скачать тут.Презентация в комментариях.
🔹 Qwen-Image-Layered.Разбивает сгенерированное изображение на слои.Насколько понял до 10 и более слоев может вытягивать.Хороший инструмент, мне как раз такое было нужно.Потестить тут.Скачать модель тут.Презентация в комментариях.
🔹 Kling Video 2.6.Не новый на рынке,но новый для Kling инструмент.Управления движение на основе видео.Пока с виду все еще как игрушка,но виден большой прогресс от первых моделей,которые были в начале.Презентация в комментариях.
🔹 Reve V1.1- это обновлённая модель для генерации и редактирования изображений,которая лучше понимает текст,аккуратнее работает с референсами и правками и позволяет в одном потоке делать три вещи:с нуля генерировать картинки по промпту,менять уже готовые изображения по текстовому описанию и сочетать несколько референсов в одном результате
🔹 Seedance 1.5.Новая видеомодель от ByteDance,которая по тексту или одной картинке делает короткие кинематографичные ролики с уже синхронизированным звуком:она хорошо понимает сложные промпты,держит стиль и персонажей от начала до конца,умеет подстраивать движение под музыку и речь и сразу выдает готовый контент формата TikTok,который можно почти без правок отправлять в соцсети или использовать в рекламе.Попробовать тут.Пример в комментариях.
🔹 Gemini 3 Flash - это новая быстрая модель от Google,которая по уровню «ума» приблизилась к Pro‑версии,но отвечает заметно быстрее и дешевле,при этом умеет сразу работать с текстом,изображениями,видео,аудио и PDF,разбирать их «на лету» и превращать в понятные планы,объяснения или код,поэтому её сделали моделью по умолчанию в приложении Gemini и для большинства повседневных задач теперь достаточно именно её.Графики в комментариях.
P.S.Аудио версия в комментария.
@VAI_ART
#VAI_News
🔹 Наконец-то вышел GPT Images 1.5 .Многие очень ждали.Писал тут.Это абсолютно новая модель - не как предыдущая, которая была основана на базе Sora.Как обычно,она еще лучше держит промпт,увереннее работает с текстом и деталями,а также наконец-то избавилась от фирменной «желтизны»,с которой все боролись.Но, по факту,модель не лучше новой Banana.
🔹 Wan 2.6.Новая видеомодель Alibaba,заточенная под reference‑to‑video:она берет картинку или видео‑референс и генерирует клипы с тем же персонажем и стилем,держит стабильный дизайн,плавное движение и адекватную сцену,а также поддерживает multi‑shot и липсинк для серийных роликов.Как все знаем Wan открыт и можно это делать у себя на железе или в облаке.Попробовать можно тут.Презентация в комментариях.
🔹 Trellis.2.Новая модель от Microsoft.Модель заметно уступает некоторым закрытым аналогам,но у нее есть большой плюс:она открытая, можно запускать на своем железе или в облаке.По сравнению с первой версией она стала значительно лучше.Попробовать можно тут,а код тут.Презентация - в комментариях.Также,чтобы далеко не ходить,Hunyuan 3D v3 вышел в полноценный релиз - раньше, как оказалось,была только бета.По сути, поправили баги,ускорили обработку, качество почти не изменилось.И да,добавили тарифные планы,что,скорее всего,означает плавный уход от полностью бесплатной модели.
🔹 Вышел Flux.2 [max].Флагманская версия Flux 2 для продакшена.Она дает максимальное качество картинки в линейке,лучше других держит промпт,текст и сложные сцены, аккуратно редактирует уже готовые изображения и поддерживает до 10 референсов в одном запросе.Модель умеет подтягивать актуальную инфу или референсы из веба/документов и строить картинку на их основе,а не фантазировать в вакууме,поэтому результат получается более предсказуемым и привязанным к задаче.
🔹 SAM audio - это новая открытая модель от Meta,которая позволяет «выдернуть» любой нужный звук из сложной аудиозаписи по простому запросу:можно текстом описать звук (например,«голос ведущего»,«шум ветра»),указать нужный кусок по времени или даже ткнуть в объект на видео,а модель вернет отдельно чистый целевой звук и остальной фон,что делает очистку аудио,вырезание шумов,вытаскивание вокала или реплик из микса сильно проще обычных плагинов.Потестить тут.Скачать тут.Презентация в комментариях.
🔹 Qwen-Image-Layered.Разбивает сгенерированное изображение на слои.Насколько понял до 10 и более слоев может вытягивать.Хороший инструмент, мне как раз такое было нужно.Потестить тут.Скачать модель тут.Презентация в комментариях.
🔹 Kling Video 2.6.Не новый на рынке,но новый для Kling инструмент.Управления движение на основе видео.Пока с виду все еще как игрушка,но виден большой прогресс от первых моделей,которые были в начале.Презентация в комментариях.
🔹 Reve V1.1- это обновлённая модель для генерации и редактирования изображений,которая лучше понимает текст,аккуратнее работает с референсами и правками и позволяет в одном потоке делать три вещи:с нуля генерировать картинки по промпту,менять уже готовые изображения по текстовому описанию и сочетать несколько референсов в одном результате
🔹 Seedance 1.5.Новая видеомодель от ByteDance,которая по тексту или одной картинке делает короткие кинематографичные ролики с уже синхронизированным звуком:она хорошо понимает сложные промпты,держит стиль и персонажей от начала до конца,умеет подстраивать движение под музыку и речь и сразу выдает готовый контент формата TikTok,который можно почти без правок отправлять в соцсети или использовать в рекламе.Попробовать тут.Пример в комментариях.
🔹 Gemini 3 Flash - это новая быстрая модель от Google,которая по уровню «ума» приблизилась к Pro‑версии,но отвечает заметно быстрее и дешевле,при этом умеет сразу работать с текстом,изображениями,видео,аудио и PDF,разбирать их «на лету» и превращать в понятные планы,объяснения или код,поэтому её сделали моделью по умолчанию в приложении Gemini и для большинства повседневных задач теперь достаточно именно её.Графики в комментариях.
P.S.Аудио версия в комментария.
@VAI_ART
#VAI_News
👍7❤3👌1
Media is too big
VIEW IN TELEGRAM
С одной стороны, это лучше 70–80% нашего кинематографа (по моим личным ощущениям). С другой - именно из‑за этого цены на видеокарты и оперативку улетели в космос.
Чем‑то напоминает «Ночной дозор».
При всей карикатурности - хорошее исполнение. Ну и отсылки к нашим любимым мемам получились очень жирные.😀 Я бы такую полнометражку посмотрел, аля KUNG FURY, с нашим лором.
Делал Шестак Николай. Там много крутых роликов.
@VAI_ART
#VAI_Gallery
Чем‑то напоминает «Ночной дозор».
При всей карикатурности - хорошее исполнение. Ну и отсылки к нашим любимым мемам получились очень жирные.
Делал Шестак Николай. Там много крутых роликов.
@VAI_ART
#VAI_Gallery
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8💩8❤2👍2🦄1
Один из лучших 3д генераторов Hitem обновился до версии 2.0. Обещают, что делает геометрию более детальной, чище и стабильнее по сравнению с первой версией, а также лучше передаёт мелкие детали вроде лица, волос и аксессуаров, что важно для портретов и персонажей.
Конечно же надо тестировать на разных типах объектов, но даже тут видно, что и без того неплохое качество, стало еще лучше.
Изменили интерфейс, сделали его ближе к подобным 3д генераторам, которые есть на рынке.
Генерирует очень долго.
Как всегда дают разок попробовать тут. Дальше, либо каждый раз подключать новую почту (что по сути реально) или купить подписку.
@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
Ну что, последняя в этом году рубрика с новостями мира ИИ.
Инфоповодов не так много, так как многие уже начали праздновать, но кое-что всё же набралось. Давайте пробежимся по главному.
🔹Обновился один из хороших генераторов 3d моделей Hitem 3d. Писал тут. Немного потестировал. Не сказал бы, что модель стала лучше во всём. Те же портреты в версии 1.5, как по мне, выходили удачнее. По ощущениям, сейчас генератор уходит в лишнюю детализацию, упуская базу - общие формы. В итоге получаем не очень хорошо сформированные крупные и средние массы, поверх которых «навешана» куча деталей - как любят делать джуны🙂 . Мотоцикл вышел неплохо, хотя часть форм тоже переврал. В общем, никакого прорыва пока нет: где-то стало лучше, где-то хуже.
🔹 Понемногу начинаются прогревы перед выходом новой модели Google - Veo 4. Напомню, что Veo 3 вышла в мае, а обновлённая версия 3.1 - в октябре. По слухам, релиз четвёрки стоит ждать уже в начале следующего года. Из предполагаемых характеристик:
🔹 Уже начинаю сбиваться со счета сколько опенсорсных моделей LLM Китай нам подарил. Но вышла новая модель GLM-4.7. Модель уже давно на рынке, но сейчас ее показатели приблизились к топовым. Конечно модели типа GPT 5.2 и Gemini 3 Pro лучше, но среди опенсорсных выглядит очень достойно. Попробовать можно тут. Графики в комментариях.
🔹 Qwen-Image-Edit. Обновился до новой версии. Кто не помнит это опенсорсный редактор изображений от Alibaba. Обещают:
Потестить можно тут и тут. Скачать тут.
Презентация в комментариях.
Я уже мыслями в следующем году, думаю над изменением подачи и развитием канала. Так что увидимся обновленными в новом году! ☃️
Аудио версию не стал делать так как пост получился небольшим.
@VAI_ART
#VAI_News
Инфоповодов не так много, так как многие уже начали праздновать, но кое-что всё же набралось. Давайте пробежимся по главному.
🔹Обновился один из хороших генераторов 3d моделей Hitem 3d. Писал тут. Немного потестировал. Не сказал бы, что модель стала лучше во всём. Те же портреты в версии 1.5, как по мне, выходили удачнее. По ощущениям, сейчас генератор уходит в лишнюю детализацию, упуская базу - общие формы. В итоге получаем не очень хорошо сформированные крупные и средние массы, поверх которых «навешана» куча деталей - как любят делать джуны
🔹 Понемногу начинаются прогревы перед выходом новой модели Google - Veo 4. Напомню, что Veo 3 вышла в мае, а обновлённая версия 3.1 - в октябре. По слухам, релиз четвёрки стоит ждать уже в начале следующего года. Из предполагаемых характеристик:
● Нативные 4K: Инсайдеры пророчат, что модель наконец-то сможет отдавать честные 4K сразу при генерации, без «костылей» в виде апскейлеров.
● Фишки для YouTube: Топовым криэйторам могут выкатить кнопку генерации фонов или сцен прямо внутри редактора Shorts.
● Длинные сцены (2–5 минут): Кажется, нас ждёт серьёзный скачок в длительности роликов. Обещают не просто длинные видео, а удержание физики и логики повествования на протяжении нескольких минут, плюс управление через семантику.
● Революция в монтаже (Мультиракурс): Самая горячая фишка - 3D-консистентность. Говорят, можно будет генерировать одну и ту же сцену с разных камер, что фактически превращает Veo 4 в виртуальную съёмочную площадку.
🔹 Уже начинаю сбиваться со счета сколько опенсорсных моделей LLM Китай нам подарил. Но вышла новая модель GLM-4.7. Модель уже давно на рынке, но сейчас ее показатели приблизились к топовым. Конечно модели типа GPT 5.2 и Gemini 3 Pro лучше, но среди опенсорсных выглядит очень достойно. Попробовать можно тут. Графики в комментариях.
🔹 Qwen-Image-Edit. Обновился до новой версии. Кто не помнит это опенсорсный редактор изображений от Alibaba. Обещают:
● Лучшая консистенция: Главный апгрейд. Модель гораздо лучше сохраняет лицо персонажа (identity) и стиль при перерисовке. «Дрифт» (случайные изменения) стал меньше.
● Мульти-субъектность: Улучшена работа с групповыми фото. Теперь она не путает лица людей, когда нужно изменить только одного человека в кадре.
● Встроенные LoRA: В модель уже «вшиты» популярные стили и эффекты (освещение, глубина), так что их не нужно подключать отдельно.
● Геометрия и промдизайн: Лучше понимает структурные линии, что полезно для архитекторов и промышленных дизайнеров (чертежи, мокапы).
● Редактирование текста: Может менять надписи на картинках, сохраняя шрифт и стиль.
Потестить можно тут и тут. Скачать тут.
Презентация в комментариях.
Я уже мыслями в следующем году, думаю над изменением подачи и развитием канала. Так что увидимся обновленными в новом году! ☃️
Аудио версию не стал делать так как пост получился небольшим.
@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤5
Ну что, ещё один год позади. В нём было много хорошего и, как в любом году, хватало и плохого. Следующий год будет примерно таким же: в нём тоже будет много хорошего и не обойдётся без плохих дней. Желаю вам меньше пропускать через себя плохое и больше акцентироваться на хорошем.
В области ИИ, судя по тенденциям, всё будет ещё жёстче, чем в этом году: скорость появления новых релизов, похоже, продолжит расти в гонке за вниманием со стороны крупных компаний. Поэтому сил и терпения нам всем, чтобы не утонуть в потоке информации и остаться на плаву.
А я буду тут и дальше стараться делиться с вами новой информацией, фишками и способами применения ИИ в работе и в жизни.
В следующем году постараюсь переделать структуру и подачу в группе. Планов много. Спасибо за доверие!
Всех обнял!🤗
С наступающим Новым годом!🦄
@VAI_ART
#VAI_Notes
В области ИИ, судя по тенденциям, всё будет ещё жёстче, чем в этом году: скорость появления новых релизов, похоже, продолжит расти в гонке за вниманием со стороны крупных компаний. Поэтому сил и терпения нам всем, чтобы не утонуть в потоке информации и остаться на плаву.
А я буду тут и дальше стараться делиться с вами новой информацией, фишками и способами применения ИИ в работе и в жизни.
В следующем году постараюсь переделать структуру и подачу в группе. Планов много. Спасибо за доверие!
Всех обнял!
С наступающим Новым годом!
@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤3🔥3🎉1🤗1
Пока полмира доедает салаты и отдыхает, новостей немного, но всё‑таки пробежимся по тому, что произошло в мире ИИ.
🔹 Еще недавно вышла Qwen-Image-2511.Писал в новостях ранее. Как, практически через неделю выходит 2512. Пишут, что еще лучше работает с деталями, материалами и текстом. Протестировать можно тут и тут. Модель тут. Презентация в комментариях.
🔹 В линейке FLUX.2 [dev] появился Turbo. Но это не официальный релиз, а дистилят от FAL.ai, который выдает такое же качество при меньших шагах. По сути открытые модели этим и хороши, что их потом можно дорабатывать, настраивать уже под себя и свои ресурсы. В этом, конечно, они выигрывают перед закрытыми. Модель выложили тут.
🔹 Meta покупает Manus за $2 млрд. Громкая сделка конца года. Meta (Facebook) приобрела стартап Manus, который прославился созданием «универсального ИИ-агента», способного выполнять задачи в браузере так же, как человек.
Видим как крупные компании начинают поглощать конкурентов или выкупать команды, которые делают решения, отсутствующие в их собственной линейке продуктов.
Движемся дальше!💪
@VAI_ART
#VAI_News
🔹 Еще недавно вышла Qwen-Image-2511.Писал в новостях ранее. Как, практически через неделю выходит 2512. Пишут, что еще лучше работает с деталями, материалами и текстом. Протестировать можно тут и тут. Модель тут. Презентация в комментариях.
🔹 В линейке FLUX.2 [dev] появился Turbo. Но это не официальный релиз, а дистилят от FAL.ai, который выдает такое же качество при меньших шагах. По сути открытые модели этим и хороши, что их потом можно дорабатывать, настраивать уже под себя и свои ресурсы. В этом, конечно, они выигрывают перед закрытыми. Модель выложили тут.
🔹 Meta покупает Manus за $2 млрд. Громкая сделка конца года. Meta (Facebook) приобрела стартап Manus, который прославился созданием «универсального ИИ-агента», способного выполнять задачи в браузере так же, как человек.
Видим как крупные компании начинают поглощать конкурентов или выкупать команды, которые делают решения, отсутствующие в их собственной линейке продуктов.
Движемся дальше!
@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
Продолжаю тему применения ИИ при создании концептов. Ранее я писал про персонажей, а теперь затрону тему концептирования локаций.
Сейчас мы вовсю делаем детские режимы для наших игр, поэтому и стиль, и тематика концептов ориентированы на детскую аудиторию.
Инструменты ИИ развиваются каждый день, и пайплайны можно менять так же часто. Раньше я уже пробовал создавать локации через ИИ, но тогда модели просто «не вывозили» объем контекста. Все ломалось, особенно когда нужно было сделать что-то логичное: концепт превращался в «кашу». Но сейчас ситуация изменилась: новые инструменты позволяют заметно ускорить разработку. Положительные сдвиги начались еще с Nano Banana - даже она показывала неплохой результат, но с Pro-версией всё стало намного лучше.🔥
Я использую первую версию в AI Studio, так как там дают много бесплатных попыток в день: генерируя целый день с двумя Google-аккаунтами, я даже не успеваю израсходовать лимиты. А для Nano Banana Pro я купил подписку Gemini Pro. Там, помимо самой Gemini 3, можно прямо в чате генерировать изображения (Banana Pro) и видео в VEO 3.1. Минус в том, что в режиме чата Banana портит изображения: уже после 2-3 итераций картинка начинает сильно «шуметь». Поэтому в таком режиме приходится работать очень аккуратно.
И там и там нужен VPN.
Перейдем к самому процессу.
На старте как я вижу можно использовать разные подходы:
1️⃣ Набросок от руки: лайн или простенький скетч сразу в цвете.
2️⃣ Работа от референсов: собрать исходники, подходящие по стилю/качеству, и на их основе сделать первый вариант.
3️⃣ Комбинированный вариант: для более жесткого контроля (но и более трудозатратный) - сделать лайн и цвет, а затем отрендерить в нужной стилистике.
Все, как обычно, зависит от требуемого финального результата.
Для этой задачи я выбрал самый простой (на мой взгляд) способ: собрал референсы и работал с ними.
Конечно, не обошлось без косяков - кое-где пришлось «пробежаться» руками и доделать детали. Но это минимальная работа.🤓
Сама локация тоже не финальная. Она скорее служит для понимания атмосферы, а итоговая версия будет выглядеть немного иначе. Покажу её уже после того, как соберём всё в Unity.
Технически пайплайн можно миксовать как угодно: тут всё, как и в промптинге, основано на фантазии и опыте.
Сейчас техническая реализация уже не является проблемой. Основная сложность - это идея. Если она есть, реализовать ее теперь не сложно.
Интересно послушать, как вы справляетесь с подобными задачами в новых реалиях?🧐
P.S. Дальше по плану обсудим, как генерировать локации и персонажей в 3D и собирать их. Покажу на примере движка Unity.
P.P.S. Также закинул в комментарии еще один промежуточный вариант концепта, который не утвердили и другое освещение по рабочей локации.
@VAI_ART
#VAI_Practice
Сейчас мы вовсю делаем детские режимы для наших игр, поэтому и стиль, и тематика концептов ориентированы на детскую аудиторию.
Инструменты ИИ развиваются каждый день, и пайплайны можно менять так же часто. Раньше я уже пробовал создавать локации через ИИ, но тогда модели просто «не вывозили» объем контекста. Все ломалось, особенно когда нужно было сделать что-то логичное: концепт превращался в «кашу». Но сейчас ситуация изменилась: новые инструменты позволяют заметно ускорить разработку. Положительные сдвиги начались еще с Nano Banana - даже она показывала неплохой результат, но с Pro-версией всё стало намного лучше.
Я использую первую версию в AI Studio, так как там дают много бесплатных попыток в день: генерируя целый день с двумя Google-аккаунтами, я даже не успеваю израсходовать лимиты. А для Nano Banana Pro я купил подписку Gemini Pro. Там, помимо самой Gemini 3, можно прямо в чате генерировать изображения (Banana Pro) и видео в VEO 3.1. Минус в том, что в режиме чата Banana портит изображения: уже после 2-3 итераций картинка начинает сильно «шуметь». Поэтому в таком режиме приходится работать очень аккуратно.
И там и там нужен VPN.
Перейдем к самому процессу.
На старте как я вижу можно использовать разные подходы:
1️⃣ Набросок от руки: лайн или простенький скетч сразу в цвете.
2️⃣ Работа от референсов: собрать исходники, подходящие по стилю/качеству, и на их основе сделать первый вариант.
3️⃣ Комбинированный вариант: для более жесткого контроля (но и более трудозатратный) - сделать лайн и цвет, а затем отрендерить в нужной стилистике.
Все, как обычно, зависит от требуемого финального результата.
Для этой задачи я выбрал самый простой (на мой взгляд) способ: собрал референсы и работал с ними.
🔹 Закинул референсы в Banana и попросил на их основе создать изометрическую локацию.
🔹 Получив первый результат, начал его дорабатывать. Для этого использовал новый инструмент Qwen-Image-Layered (писал о нем ранее). Модель открытая, ее можно запустить локально или найти демки на Hugging Face. Суть в том, что она разбивает изображение на слои. Пусть слои не идеальные, но это уже слои!
🔹 Я подвигал элементы, поправил композицию, что-то удалил или быстро подрисовал (не особо стараясь, так как это набросок).
🔹 Снова закинул результат в Banana и попросил исправить рендер, вписав элементы в окружение.
🔹 Когда концепт начал меня устраивать, я обсудил его с командой. Убедившись, что это то, что нужно, перешел к детализации: добавил трубы, телевизор, телефон и прочее. Добавлял через маски: рисовал силуэт в нужной зоне и просил сгенерировать объект, соблюдая форму и стилистику.
🔹Получившийся результат прогнал через апскейлер. В моем случае это был Topaz (я пользуюсь им через Krea, но есть и другие варианты).
Конечно, не обошлось без косяков - кое-где пришлось «пробежаться» руками и доделать детали. Но это минимальная работа.
Сама локация тоже не финальная. Она скорее служит для понимания атмосферы, а итоговая версия будет выглядеть немного иначе. Покажу её уже после того, как соберём всё в Unity.
Технически пайплайн можно миксовать как угодно: тут всё, как и в промптинге, основано на фантазии и опыте.
Сейчас техническая реализация уже не является проблемой. Основная сложность - это идея. Если она есть, реализовать ее теперь не сложно.
Интересно послушать, как вы справляетесь с подобными задачами в новых реалиях?
P.S. Дальше по плану обсудим, как генерировать локации и персонажей в 3D и собирать их. Покажу на примере движка Unity.
P.P.S. Также закинул в комментарии еще один промежуточный вариант концепта, который не утвердили и другое освещение по рабочей локации.
@VAI_ART
#VAI_Practice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍12🔥4❤2🦄2⚡1
Все еще видимо отдыхают, но всё‑таки стоит пробежаться по интересным новостям за неделю:
🔹 Недели 2 назад вышел Qwen-Image-Edit-2511. Уже несколько раз писал про него. Qwen-Image-Edit-2511-Multiple-Angles-LoRA - это дополнительная «надстройка» (LoRA) к модели Qwen Image Edit 2511, которая позволяет из одной картинки получать тот же объект с разных ракурсов: спереди, сбоку, сзади, сверху или снизу, с контролем расстояния и угла «виртуальной камеры» для более точных и предсказуемых ракурсов. Не со всеми входными данными работает нормально, но все же интересный инструмент. Попробовать тут. Скачать тут. Пример в комментариях.
🔹 OpenAI запустила ChatGPT Health - отдельный раздел ChatGPT для общения про здоровье, который делали вместе с врачами и протестировали на ~600 000 оценок от 260+ докторов за два года. Он не ставит диагнозы и не заменяет врача, а помогает разобрать анализы, данные трекеров и даёт базовые рекомендации. Раздел работает в изолированной памяти с усиленным шифрованием, чаты из него не используют для обучения моделей, а при желании можно подключить Apple Health, MyFitnessPal, Peloton и другие сервисы, но доступен он пока только пользователям с аккаунтом США. Дальше раскатают на всех. Работает с американским VPN.
🔹 Higgsfield хоть последнее время и не радует, но иногда может и удивлять. Relight - это инструмент, который позволяет вам управлять светом в уже снятом видео так, будто вы находитесь в настоящей киностудии. Вы можете добавить виртуальную лампу с любой стороны, изменить её яркость или цвет, а нейросеть сама «дорисует» реалистичные тени и блики на лицах и предметах. В отличие от обычных фильтров, она понимает объем сцены, поэтому свет ложится естественно, позволяя превратить даже обычное видео с телефона в качественный ролик с профессиональным «киношным» освещением. С виду все еще как игрушка, как инструменты типа Runway Aleph, но выглядит интересно. Презентация в комментариях.
🔹 Hunyuan обновил свою линейку 3d до версии 3.1. Обещают:
@VAI_ART
#VAI_News
🔹 Недели 2 назад вышел Qwen-Image-Edit-2511. Уже несколько раз писал про него. Qwen-Image-Edit-2511-Multiple-Angles-LoRA - это дополнительная «надстройка» (LoRA) к модели Qwen Image Edit 2511, которая позволяет из одной картинки получать тот же объект с разных ракурсов: спереди, сбоку, сзади, сверху или снизу, с контролем расстояния и угла «виртуальной камеры» для более точных и предсказуемых ракурсов. Не со всеми входными данными работает нормально, но все же интересный инструмент. Попробовать тут. Скачать тут. Пример в комментариях.
🔹 OpenAI запустила ChatGPT Health - отдельный раздел ChatGPT для общения про здоровье, который делали вместе с врачами и протестировали на ~600 000 оценок от 260+ докторов за два года. Он не ставит диагнозы и не заменяет врача, а помогает разобрать анализы, данные трекеров и даёт базовые рекомендации. Раздел работает в изолированной памяти с усиленным шифрованием, чаты из него не используют для обучения моделей, а при желании можно подключить Apple Health, MyFitnessPal, Peloton и другие сервисы, но доступен он пока только пользователям с аккаунтом США. Дальше раскатают на всех. Работает с американским VPN.
🔹 Higgsfield хоть последнее время и не радует, но иногда может и удивлять. Relight - это инструмент, который позволяет вам управлять светом в уже снятом видео так, будто вы находитесь в настоящей киностудии. Вы можете добавить виртуальную лампу с любой стороны, изменить её яркость или цвет, а нейросеть сама «дорисует» реалистичные тени и блики на лицах и предметах. В отличие от обычных фильтров, она понимает объем сцены, поэтому свет ложится естественно, позволяя превратить даже обычное видео с телефона в качественный ролик с профессиональным «киношным» освещением. С виду все еще как игрушка, как инструменты типа Runway Aleph, но выглядит интересно. Презентация в комментариях.
🔹 Hunyuan обновил свою линейку 3d до версии 3.1. Обещают:
● Поддержка 8 ракурсов (Multi-view). В отличие от версии 3.0, которая работала с 4 изображениями, версия 3.1 поддерживает ввод до 8 фотографий одного объекта. Это позволяет создавать 3D-модели с почти идеальной геометрией без «слепых зон».
● Текстовая анимация (HY-Motion 1.0). В модель встроили движок анимации. Теперь можно не просто создать 3D-персонажа, но и задать ему движение через текст (например, «персонаж делает сальто»). Модель генерирует скелетную анимацию, готовую для экспорта в FBX.
● Smart Topology. Улучшена работа с сеткой. Нейросеть теперь генерирует более чистую топологию (включая поддержку квадов), что упрощает ретопологию для использования в Unreal Engine или Unity.
@VAI_ART
#VAI_News
❤9👍4
Сегодня каналу исполняется ровно год!🔥 Интересный опыт. Пожалел ли я о том, что начал это? Честно скажу, не раз. 😁 Но во всём есть и плюсы: я стал намного лучше разбираться в сфере ИИ, что логично. А постоянный мониторинг новых ИИ‑инструментов позволяет оставаться на волне и понимать, что происходит на рынке.
Надеюсь и вам чем то помог.
Сделал анализ канала за год. Больше всего удивило 110 т. просмотров. Это лично для меня очень круто.
В этом году планов много (о них позже). Рвём дальше! 🚀🚀🚀
@VAI_ART
#VAI_Notes
Надеюсь и вам чем то помог.
Сделал анализ канала за год. Больше всего удивило 110 т. просмотров. Это лично для меня очень круто.
В этом году планов много (о них позже). Рвём дальше! 🚀🚀🚀
@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍7❤5🎉3
Ниже - пока еще редкая, но уже полноценная рубрика!
Спасибо всем, кто пишет и делится своими наработками и решениями.🙌
Отчасти этот канал и создавался для того, чтобы обсуждать новые технологии и делиться опытом их применения.
Спасибо всем, кто пишет и делится своими наработками и решениями.
Отчасти этот канал и создавался для того, чтобы обсуждать новые технологии и делиться опытом их применения.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Fast 2D Render
Всем привет! Прежде всего, огромное спасибо Алексею, автору канала VAI за возможность поделиться своими наработками здесь.
Я собрал воркфлоу способный сократить время на технический рендер, не теряя при этом авторского контроля над формой. Воркфлоу работает на базе Nano Banana Pro + ComfyUI + Photoshop.
Как это работает:
Дизайн и композиция остаются полностью за художником. Инструмент берет на себя монотонную работу, оставляя нам самое интересное - творчество и поиск идей. Буду рад, если мой опыт окажется кому-то полезен!
Если возникнут вопросы, автора воркфлоу можно найти здесь.
@VAI_ART
#VAI_Authors
Всем привет! Прежде всего, огромное спасибо Алексею, автору канала VAI за возможность поделиться своими наработками здесь.
Я собрал воркфлоу способный сократить время на технический рендер, не теряя при этом авторского контроля над формой. Воркфлоу работает на базе Nano Banana Pro + ComfyUI + Photoshop.
Как это работает:
◻️ Вы задаете силуэт и дизайн через лайнарт и простую заливку (или 3D).
◻️ Цвет берется из заливки, а фактуры - из ваших референсов (будь то старый металл, камень или бумага).
◻️ Играть и чередовать заливку и материалы.
Дизайн и композиция остаются полностью за художником. Инструмент берет на себя монотонную работу, оставляя нам самое интересное - творчество и поиск идей. Буду рад, если мой опыт окажется кому-то полезен!
Если возникнут вопросы, автора воркфлоу можно найти здесь.
@VAI_ART
#VAI_Authors
🔥8👍7❤3🗿2⚡1
Мир понемногу просыпается и релизов стало значительно больше. Новостная рубрика.Погнали!
🔹 Anthropic (те кто делаю Claude)выпкустили Cowork. Cowork - это новый «агентский» режим в приложении Claude для компьютера (сейчас только macOS),который работает напрямую с вашими локальными данными.Вы даете ему доступ к конкретной папке, и он превращается в полноценного напарника: сам сканирует файлы,вносит правки в код, создает новые документы или наводит порядок в ассетах,не заставляя вас копировать текст в чат и обратно.В отличие от обычного диалога,Cowork действует автономно - он составляет план задачи и последовательно выполняет его прямо у вас на диске,запрашивая подтверждение только для важных действий,что фактически дает нейросети «руки» внутри вашей операционной системы.
Вообще последнее время очень много новостей про Claude Code.Например
один пользователь за рождественские каникулы создал полный оптимизирующий компилятор: 594 коммита, 3272 теста, 74 тысячи строк кода.Всё написал СС. Так же инженер из команды Gemini API в Google,написала что дала СС трёхабзацное описание проблемы - он за час сгенерировал то,что её команда строила в прошлом году.
Презентация в коментариях.
🔹 OpenAI реши конкурировать с Google (много где, список всех их проектов достаточно внушительный) и выпустили свой полноценный переводчик,который поддерживает 50 языков.Можно менять стиль перевода от разговорного до официального, но пока только текст. Изображения и аудио ввод обещают чуть позже.
🔹 Google практически одновременно с OpenAI выпустили TranslateGemma TranslateGemma - это узкоспециализированная «открытая» нейросеть от Google,созданная исключительно для максимально точного и качественного перевода.Модели поставляется сразу в трех вариантах (4B, 12B и 27B параметров): это позволяет гибко выбрать модель под любую мощность - от простого ноутбука до мощного сервера. В отличие от универсальных чат-ботов,она сфокусирована только на лингвистике, поэтому лучше справляется со сложным контекстом,техническими терминами и сохранением смысла в длинных текстах, при этом оставаясь достаточно компактной для запуска прямо на вашем локальном компьютере. Это идеальный и бесплатный инструмент для тех, кому нужна качественная локализация проектов или приватный перевод документов без необходимости отправлять данные в облако.Скачать локально тут, тут и тут.
🔹 FLUX.2 [klein] - это новое семейство ИИ-моделей для генерации изображений от Black Forest Labs. Название «klein» переводится как «маленький», и это главная фишка: модель настолько быстрая и компактная, что способна создавать или редактировать картинки меньше чем за секунду прямо на обычном домашнем компьютере. Модель объединяет в себе сразу две функции - генерацию по тексту и глубокое редактирование готовых фото (можно менять объекты или стили), при этом младшая версия (4B) полностью открыта и бесплатна для использования. По сути, это профессиональный инструмент, который «летает» даже на средних видеокартах, сохраняя при этом фотореалистичное качество и умение идеально прорисовывать текст. Попробовать тут. Скачать тут и тут.
🔹 Это должно было когда то произойти и произошло.Как говорится первый прецедент, дальше, думаю этот начнется идти у всех по накатанной.OpenAI заявили, что начинают вводить рекламу для бесплатного и тарифа за 8$(раньше были только для Индии, сейчас раскатали на всех).Ничего хорошего нет, теперь, скорее всего ИИ начнет заполнять реклама.
🔹 Появился новый апскейлер видео Crystal Upscaler.Есть Topaz, но он не дешевый, и вот появилась альтернатива.Его фишка в том, что при соотносимом качекстве, он намного дешевле. Стоимость от $0.10/сек за 720p до $0.80/сек за 4K.Попробовать можно на разных агрегаторах типа Replicate и тд.
🔹 И на последок, Higgsfield представила новую фишку под названием «Что было дальше?».Загружаете изображение, а нейросеть предлагает 8 вариантов развития сюжета. Можете выбираете лучший, также сделать апскейл картинки или использовать ее для анимации.Выглядит как игрушка, но интересная игрушка.Презентация в комментариях.
@VAI_ART
#VAI_News
🔹 Anthropic (те кто делаю Claude)выпкустили Cowork. Cowork - это новый «агентский» режим в приложении Claude для компьютера (сейчас только macOS),который работает напрямую с вашими локальными данными.Вы даете ему доступ к конкретной папке, и он превращается в полноценного напарника: сам сканирует файлы,вносит правки в код, создает новые документы или наводит порядок в ассетах,не заставляя вас копировать текст в чат и обратно.В отличие от обычного диалога,Cowork действует автономно - он составляет план задачи и последовательно выполняет его прямо у вас на диске,запрашивая подтверждение только для важных действий,что фактически дает нейросети «руки» внутри вашей операционной системы.
Вообще последнее время очень много новостей про Claude Code.Например
один пользователь за рождественские каникулы создал полный оптимизирующий компилятор: 594 коммита, 3272 теста, 74 тысячи строк кода.Всё написал СС. Так же инженер из команды Gemini API в Google,написала что дала СС трёхабзацное описание проблемы - он за час сгенерировал то,что её команда строила в прошлом году.
Презентация в коментариях.
🔹 OpenAI реши конкурировать с Google (много где, список всех их проектов достаточно внушительный) и выпустили свой полноценный переводчик,который поддерживает 50 языков.Можно менять стиль перевода от разговорного до официального, но пока только текст. Изображения и аудио ввод обещают чуть позже.
🔹 Google практически одновременно с OpenAI выпустили TranslateGemma TranslateGemma - это узкоспециализированная «открытая» нейросеть от Google,созданная исключительно для максимально точного и качественного перевода.Модели поставляется сразу в трех вариантах (4B, 12B и 27B параметров): это позволяет гибко выбрать модель под любую мощность - от простого ноутбука до мощного сервера. В отличие от универсальных чат-ботов,она сфокусирована только на лингвистике, поэтому лучше справляется со сложным контекстом,техническими терминами и сохранением смысла в длинных текстах, при этом оставаясь достаточно компактной для запуска прямо на вашем локальном компьютере. Это идеальный и бесплатный инструмент для тех, кому нужна качественная локализация проектов или приватный перевод документов без необходимости отправлять данные в облако.Скачать локально тут, тут и тут.
🔹 FLUX.2 [klein] - это новое семейство ИИ-моделей для генерации изображений от Black Forest Labs. Название «klein» переводится как «маленький», и это главная фишка: модель настолько быстрая и компактная, что способна создавать или редактировать картинки меньше чем за секунду прямо на обычном домашнем компьютере. Модель объединяет в себе сразу две функции - генерацию по тексту и глубокое редактирование готовых фото (можно менять объекты или стили), при этом младшая версия (4B) полностью открыта и бесплатна для использования. По сути, это профессиональный инструмент, который «летает» даже на средних видеокартах, сохраняя при этом фотореалистичное качество и умение идеально прорисовывать текст. Попробовать тут. Скачать тут и тут.
🔹 Это должно было когда то произойти и произошло.Как говорится первый прецедент, дальше, думаю этот начнется идти у всех по накатанной.OpenAI заявили, что начинают вводить рекламу для бесплатного и тарифа за 8$(раньше были только для Индии, сейчас раскатали на всех).Ничего хорошего нет, теперь, скорее всего ИИ начнет заполнять реклама.
🔹 Появился новый апскейлер видео Crystal Upscaler.Есть Topaz, но он не дешевый, и вот появилась альтернатива.Его фишка в том, что при соотносимом качекстве, он намного дешевле. Стоимость от $0.10/сек за 720p до $0.80/сек за 4K.Попробовать можно на разных агрегаторах типа Replicate и тд.
🔹 И на последок, Higgsfield представила новую фишку под названием «Что было дальше?».Загружаете изображение, а нейросеть предлагает 8 вариантов развития сюжета. Можете выбираете лучший, также сделать апскейл картинки или использовать ее для анимации.Выглядит как игрушка, но интересная игрушка.Презентация в комментариях.
@VAI_ART
#VAI_News
👍6❤4
Также показывает стоимость генераций, является ли модель открытой или закрытой и тд.
Помогает всегда быть в курсе и не тратить кучу времени на поиск информации!
Из минусов - не заходит без VPN.
P.S. Лично для меня стало новостью, что ElevenLabs - на втором месте, а на первом - Aura Stella (первый раз слышу))
@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
LLM Stats
AI Leaderboards 2026 - Compare All AI Models
Comprehensive AI leaderboards comparing LLM, TTS, STT, video, image, and embedding models. Compare performance, pricing, and capabilities.
👍7🔥3⚡2❤1
Уже писал про создание концепта персонажей и локации.Сейчас по плану, как и обещал,создание модели персонажа.
У нас используется только часть пайплайна через ИИ.Но даже эта часть ускоряет работу.
Сейчас уже можно еще больше внедрить ИИ в процессы.Есть идеи,но пока не добрался,так как те процессы реализовывались уже месяца 2-3 назад,а в эру ИИ это соизмеримо с несколькими годами ранее без ИИ в процессах.На новых персонажах уже попробую докрутить процессы и еще сильнее их оптимизировать.Опишу позже,как доберусь.
Создание персонажей все еще остается достаточно сложной с творческой и технической стороны задачей.Но сейчас современные технологии уже помогают ее решить.🔥
Можно:
1️⃣ Генерировать 3D под обрисовку. Сейчас генераторы практически идеально подходят под этот тип задач. Художники, которым было лень учить 3D,ваш день уже давно настал)
2️⃣ Для несложных проектов в техническом плане.Это подходит для таких проектов, как у нас,где больше важна подача,с которой генераторы уже неплохо справляются.А в совокупности с той же Nano Banana можно вытащить карты нормалей, рафнеса и т.д.Для несложных проектов сделать это уже можно.Писал тут.
3️⃣ Для сложных проектов.Зачастую большой пласт работы составляет скульпт и попадание в нужные формы. На таких проектах скульпты могут делать по несколько недель.При помощи генераторов даже сейчас можно сократить это время в раза два, сэкономив приличный пласт времени. Да,где-то он может ошибаться в формах, но в общем, при обладании нормальными скиллами,это не проблема исправить
Мы продолжаем развивать наши детские режимы и так же создавать для них персонажей.🐶
Как выглядит пайплайн:
Модель этой собаки была сделана за 2 дня.Это от генерации до финального результата.
Из нюансов:у нас нет лицевого рига, поэтому и авторетоп,по сути, нормально подошел.🤓
С виду кажется,что работа ИИ была незначительная.Но это не так.ИИ решил одну из основных проблем,а именно - попадание в характер персонажа.Люди,которые работают в этой сфере,понимают,что это один из основных моментов в создании персонажа,и зачастую на него может тратиться большая часть времени,так как это творческий процесс и многое зависит от скиллов.С технической частью уже все давно понятно,это измеримый процесс,а вот творчество пока мало чем измеряется и является субъективным.
Как вы справляетесь с подобными задачами в современных условиях.
Дальше поговорим про генерацию локаций.😎
@VAI_ART
#VAI_Practice
У нас используется только часть пайплайна через ИИ.Но даже эта часть ускоряет работу.
Сейчас уже можно еще больше внедрить ИИ в процессы.Есть идеи,но пока не добрался,так как те процессы реализовывались уже месяца 2-3 назад,а в эру ИИ это соизмеримо с несколькими годами ранее без ИИ в процессах.На новых персонажах уже попробую докрутить процессы и еще сильнее их оптимизировать.Опишу позже,как доберусь.
Создание персонажей все еще остается достаточно сложной с творческой и технической стороны задачей.Но сейчас современные технологии уже помогают ее решить.
Можно:
1️⃣ Генерировать 3D под обрисовку. Сейчас генераторы практически идеально подходят под этот тип задач. Художники, которым было лень учить 3D,ваш день уже давно настал)
2️⃣ Для несложных проектов в техническом плане.Это подходит для таких проектов, как у нас,где больше важна подача,с которой генераторы уже неплохо справляются.А в совокупности с той же Nano Banana можно вытащить карты нормалей, рафнеса и т.д.Для несложных проектов сделать это уже можно.Писал тут.
3️⃣ Для сложных проектов.Зачастую большой пласт работы составляет скульпт и попадание в нужные формы. На таких проектах скульпты могут делать по несколько недель.При помощи генераторов даже сейчас можно сократить это время в раза два, сэкономив приличный пласт времени. Да,где-то он может ошибаться в формах, но в общем, при обладании нормальными скиллами,это не проблема исправить
Мы продолжаем развивать наши детские режимы и так же создавать для них персонажей.🐶
Как выглядит пайплайн:
🔹 Загоняю концепт в 3D-генератор.Я считаю,что по цене/качеству сейчас все еще в топе Hunyuan 3D.Качество моделей получается неплохим а в совокупности с тем,что они дополнительно дают 20 генераций в день,делает модель в глазах бесплатных и экономных пользователей вообще «золотой».
🔹 Получаю полноценную модель персонажа.Беру с персонажа только голову.Тут и возникает момент,про который писал ранее.Когда делали раньше,было сложновато подогнать тела под нужные типы и стилистику, поэтому мы в большей части ориентировались на характер персонажа.А само тело делали руками.
🔹 Заранее была сделана болванка тела, которая отображала все нюансы, которые нам были нужны в пропорциях и сетке.Далее в планах было подгонять эту болванку под каждого персонажа,немного дорабатывая массы и формы.Если налажу процесс с созданием полноценных концептов с нужными пропорциями,то модель с сеткой можно будет просто проецировать на сгенерированную модель и быстро получать модель с правильной сеткой и правильными массами.
🔹 Голова была сделана авторетопом и немного доработана руками.
🔹 Быстро развернул тело,так как там нет ничего сложного.
🔹 Соединил голову с телом и добавил ошейник для того,чтобы не было видно шва соединения,так как сетка немного отличалась.
🔹 Текстура головы также была спроецирована со сгенерированной модели и доработана в редакторе,а вот тело было покрашено руками полностью.Но,опять же,модели простые, поэтому проблем больших не было.
🔹 Получил готовую модель.
🔹 Обвесы(одежда,часы,цепи и т.д.),которые на концептах,планирую делать отдельными объектами с отдельной текстурной картой,так как планируется сделать их много для каждого персонажа.
Модель этой собаки была сделана за 2 дня.Это от генерации до финального результата.
Из нюансов:у нас нет лицевого рига, поэтому и авторетоп,по сути, нормально подошел.
С виду кажется,что работа ИИ была незначительная.Но это не так.ИИ решил одну из основных проблем,а именно - попадание в характер персонажа.Люди,которые работают в этой сфере,понимают,что это один из основных моментов в создании персонажа,и зачастую на него может тратиться большая часть времени,так как это творческий процесс и многое зависит от скиллов.С технической частью уже все давно понятно,это измеримый процесс,а вот творчество пока мало чем измеряется и является субъективным.
Как вы справляетесь с подобными задачами в современных условиях.
Дальше поговорим про генерацию локаций.
@VAI_ART
#VAI_Practice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍8🔥4🤩1