У нас с вами новый челлендж.
Лента Мёбиуса.
Пытаемся сгенерить в чем угодно.
И тут мы обнаруживаем, что это тот случай, когда "руками" через промпт типа "кольцо из бумажной полоски, где один конец перевернули перед склеиванием" сделать это сложновато, скажем так.
И модель должна просто знать про старика Мёбиуса.
Но вопрос в том, как она его "видит".
Я попробовал везде, кроме Midjourney.
Как ни странно, ближе всего был Кандинский. DALL·E 3 и Stable Diffusion путались в бумажном серпантине.
Хотя chatGPT писал идеальные промпты для себя самого:
Illustrate a ring made from a strip of paper where one end has been twisted before being glued together. This should create a simple paper loop with a single 180-degree twist, characteristic of a Möbius strip. The paper's texture should be visible, emphasizing the craft and handmade quality of the loop. The illustration should focus on the twist point, showing how the paper seamlessly connects to form a continuous surface with a unique one-sided and one-edged property. Set against a soft, neutral background, the image should highlight the elegance and simplicity of this mathematical curiosity
Я присунул этот промпт в Фокус и в режиме Extreme Speed нагенерил странных оптических иллюзий, некоторые разламывали мозг, но все равно это не классические ленты Мебиуса.
В общем, ленты в студию! То есть в коменты.
Лента Мёбиуса.
Пытаемся сгенерить в чем угодно.
И тут мы обнаруживаем, что это тот случай, когда "руками" через промпт типа "кольцо из бумажной полоски, где один конец перевернули перед склеиванием" сделать это сложновато, скажем так.
И модель должна просто знать про старика Мёбиуса.
Но вопрос в том, как она его "видит".
Я попробовал везде, кроме Midjourney.
Как ни странно, ближе всего был Кандинский. DALL·E 3 и Stable Diffusion путались в бумажном серпантине.
Хотя chatGPT писал идеальные промпты для себя самого:
Illustrate a ring made from a strip of paper where one end has been twisted before being glued together. This should create a simple paper loop with a single 180-degree twist, characteristic of a Möbius strip. The paper's texture should be visible, emphasizing the craft and handmade quality of the loop. The illustration should focus on the twist point, showing how the paper seamlessly connects to form a continuous surface with a unique one-sided and one-edged property. Set against a soft, neutral background, the image should highlight the elegance and simplicity of this mathematical curiosity
Я присунул этот промпт в Фокус и в режиме Extreme Speed нагенерил странных оптических иллюзий, некоторые разламывали мозг, но все равно это не классические ленты Мебиуса.
В общем, ленты в студию! То есть в коменты.
🔥21👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Houdini + Stable Diffusion
Принес годноты для CG-взрослых.
Симуляция в Гудини, нейрорендер в Stable Diffusion (Комфи+КонтролНет).
В Гудини генерятся частицы, маска и глубина, потом все это забирается в Stable Diffusion и кормится в ControlNet и Animatediff.
Вот такой нейрорендер нам нужен!
Более того, держите:
Подробный тутор, где все это расписано.
Канал этого удивительного чувака, который скрещивает 3Д и нейрорендеринг.
И клондайк из разных полезных постов для тех, кто в кино и VFX.
Enjoy CG-Bros.
P.S. Представьте, лукдев теперь это текстовый промпт и выбор чекпойнта (утрирую, конечно).
Принес годноты для CG-взрослых.
Симуляция в Гудини, нейрорендер в Stable Diffusion (Комфи+КонтролНет).
В Гудини генерятся частицы, маска и глубина, потом все это забирается в Stable Diffusion и кормится в ControlNet и Animatediff.
Вот такой нейрорендер нам нужен!
Более того, держите:
Подробный тутор, где все это расписано.
Канал этого удивительного чувака, который скрещивает 3Д и нейрорендеринг.
И клондайк из разных полезных постов для тех, кто в кино и VFX.
Enjoy CG-Bros.
P.S. Представьте, лукдев теперь это текстовый промпт и выбор чекпойнта (утрирую, конечно).
🔥54👍8
This media is not supported in your browser
VIEW IN TELEGRAM
AnimateLCM - это огонь.
На сайте проекта полно анимаций сделанных с помощью четырех шагов.
LCM или LCM-LoRA - это метод ускорения Stable Diffusion, который позволяет ускорить просчет как бы в 10 раз, сохраняя (как-то) качество изображения.
LCM-поддержка картинок есть уже и в Автоматике и в Фокусе(Extreme Speed).
И вот только что подвезли поддержку генерации анимации AnimateLCM в ComfyUI:
Забирайте все ссылки вот отсюда:
https://www.reddit.com/r/StableDiffusion/comments/1ajjx4t/animatelcm_support_for_comfyui_just_dropped/
Много примеров тут:
https://animatelcm.github.io/
Код тут:
https://github.com/G-U-N/AnimateLCM
Даже демо есть, можете сами попробовать:
https://huggingface.co/spaces/wangfuyun/AnimateLCM
Ну и поглядите в шапку, не пора ли приподналить за анимацию?
На сайте проекта полно анимаций сделанных с помощью четырех шагов.
LCM или LCM-LoRA - это метод ускорения Stable Diffusion, который позволяет ускорить просчет как бы в 10 раз, сохраняя (как-то) качество изображения.
LCM-поддержка картинок есть уже и в Автоматике и в Фокусе(Extreme Speed).
И вот только что подвезли поддержку генерации анимации AnimateLCM в ComfyUI:
Забирайте все ссылки вот отсюда:
https://www.reddit.com/r/StableDiffusion/comments/1ajjx4t/animatelcm_support_for_comfyui_just_dropped/
Много примеров тут:
https://animatelcm.github.io/
Код тут:
https://github.com/G-U-N/AnimateLCM
Даже демо есть, можете сами попробовать:
https://huggingface.co/spaces/wangfuyun/AnimateLCM
Ну и поглядите в шапку, не пора ли приподналить за анимацию?
🔥59👍7👎7
Media is too big
VIEW IN TELEGRAM
Дифтун
Так, выпить за аниматоров захотелось все больше.
Смотрите, это уже очень хороший тун-шейдер.
Потому что разработчики уперлись именно в toon-style.
Я в шоке.
Кому-то удалось поставить это хозяйство?
https://ecnu-cilab.github.io/DiffutoonProjectPage/
Так, выпить за аниматоров захотелось все больше.
Смотрите, это уже очень хороший тун-шейдер.
Потому что разработчики уперлись именно в toon-style.
Я в шоке.
Кому-то удалось поставить это хозяйство?
https://ecnu-cilab.github.io/DiffutoonProjectPage/
🔥48👍6👎2
Forwarded from РЕПТИЛОИДНАЯ (Denis Rossiev)
Живите в проклятом мире, который сами и создали
Про мир, который заполнят боты и фейки на основе ChatGPT и подобных языковых моделей я уже несколько раз писал.
Ну, дохихикались — теперь это реальность. Иногда случаются вот такие курьезы: первый бот сломался и не смог выдать «правильный» пост, т.к. ответ не прошел цензуру OpenAI. Другие боты не думая откомментили.
Вполне вероятно, что людей в интернете скоро не останется вовсе.
Про мир, который заполнят боты и фейки на основе ChatGPT и подобных языковых моделей я уже несколько раз писал.
Ну, дохихикались — теперь это реальность. Иногда случаются вот такие курьезы: первый бот сломался и не смог выдать «правильный» пост, т.к. ответ не прошел цензуру OpenAI. Другие боты не думая откомментили.
Вполне вероятно, что людей в интернете скоро не останется вовсе.
🔥118👍11
This media is not supported in your browser
VIEW IN TELEGRAM
По поводу ИИ-видео. И Stable Video Diffusion 1.1
Основная масса убойных примеров в таких видео - это движение камеры. Панорамирование, зумчик, минимальные углы облета и косоватый параллакс.
Ну и в самых выразительных примерах, как правило, решает сама картинка, а не анимация (которой по сути нет). Объекты в кадре сами по себе двигаются вяло. Собранные ролики обычно кишат движением камеры и слоу мошенами объектов.
Поэтому если уж вы собираетесь поразить всех своими ИИ-видео, упарывайтесь в картинку, из которой будете делать ИИ-видео. Именно она будет цеплять зрителя. В операторское мастерство и в камеру вы все равно не умеете, а если вдруг умеете, то обнаружите, что не можете сделать почти ничего, что хотите.
Вот вам пример: картинка генерится в Midjourney, причем сочная, с деталями и с объемом, который будет подчеркивать движение камеры (внутренность объекта), а потом кормится в Stable Video Diffusion 1.1
И основная фишка Stable Video Diffusion - это не motion contol, а хорошее качество картинки, которое можно выпячивать с помощью Midjourney
Основная масса убойных примеров в таких видео - это движение камеры. Панорамирование, зумчик, минимальные углы облета и косоватый параллакс.
Ну и в самых выразительных примерах, как правило, решает сама картинка, а не анимация (которой по сути нет). Объекты в кадре сами по себе двигаются вяло. Собранные ролики обычно кишат движением камеры и слоу мошенами объектов.
Поэтому если уж вы собираетесь поразить всех своими ИИ-видео, упарывайтесь в картинку, из которой будете делать ИИ-видео. Именно она будет цеплять зрителя. В операторское мастерство и в камеру вы все равно не умеете, а если вдруг умеете, то обнаружите, что не можете сделать почти ничего, что хотите.
Вот вам пример: картинка генерится в Midjourney, причем сочная, с деталями и с объемом, который будет подчеркивать движение камеры (внутренность объекта), а потом кормится в Stable Video Diffusion 1.1
И основная фишка Stable Video Diffusion - это не motion contol, а хорошее качество картинки, которое можно выпячивать с помощью Midjourney
👍36🔥18👎1
Сегодня все тестируем новую игрушку от Эппле. Редактирование фоток инструкциями, типа удали эти кожаные объекты за заднем плане и поставь туда роботов.
Guiding Instruction-based Image Editing
via Multimodal Large Language Models
Тема не новая, таких проектов уже много, но китайские товарищи просто взяли и пристегнули к распознаванию исходных картинок опен-сорсную мультимодальную LLaVA и потренировали ее помогать распознавать объекты на картинках.
Сам проект тут:
https://mllm-ie.github.io/
https://github.com/apple/ml-mgie
Но демо на Хаггинг фейсе лежит намертво, точнее надо ждать 5 минут, поэтому я вам принес ссылку на другой серверок, где это крутится очень быстро (3-5 сек у меня).
http://128.111.41.13:7122/
Ну и я конечно сразу засунул в соломорезку рельсу - дал ему свою фотку и попросил снять очки.
Ваши тесты присылайте в коменты: даете картинку и пишете, что надо с ней сделать. Словесный композ.
Кстати, справа внизу будет развернутая инструкция - это то, во что превращает ваши неуклюжие команды большая языковая модель. Тут принцип такой же как с генерацией картинок в chatGPT - ваш промпт превращается в развернутый промпт, которые модель использует для работы с картинкой
Guiding Instruction-based Image Editing
via Multimodal Large Language Models
Тема не новая, таких проектов уже много, но китайские товарищи просто взяли и пристегнули к распознаванию исходных картинок опен-сорсную мультимодальную LLaVA и потренировали ее помогать распознавать объекты на картинках.
Сам проект тут:
https://mllm-ie.github.io/
https://github.com/apple/ml-mgie
Но демо на Хаггинг фейсе лежит намертво, точнее надо ждать 5 минут, поэтому я вам принес ссылку на другой серверок, где это крутится очень быстро (3-5 сек у меня).
http://128.111.41.13:7122/
Ну и я конечно сразу засунул в соломорезку рельсу - дал ему свою фотку и попросил снять очки.
Ваши тесты присылайте в коменты: даете картинку и пишете, что надо с ней сделать. Словесный композ.
Кстати, справа внизу будет развернутая инструкция - это то, во что превращает ваши неуклюжие команды большая языковая модель. Тут принцип такой же как с генерацией картинок в chatGPT - ваш промпт превращается в развернутый промпт, которые модель использует для работы с картинкой
🔥16👍2👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати, вот вам идея для стартапа.
Тренируете нейросетку снимать лыжную маску с головый пользователя Apple Vision Pro.
Ну то есть когда вы надели на голову эту байду и смотрите на соседа, который тоже в метаверсике от эппле, то нейросетка вам дает картинку его реального лица без маски.
И все делают вид, что эта байда на голове никому не мешает. И вообще ее нет. А есть только spatial computing.
По идее задача несложная, по идее у Эппле уже есть Face-ID и трехмерный скан личика. Это прям помогатор при тренировке нейросеточки.
Только как быть всем остальным, которые не могут развидеть этих машущих руками зомбаков на улицах и у себя на кухне?
Тренируете нейросетку снимать лыжную маску с головый пользователя Apple Vision Pro.
Ну то есть когда вы надели на голову эту байду и смотрите на соседа, который тоже в метаверсике от эппле, то нейросетка вам дает картинку его реального лица без маски.
И все делают вид, что эта байда на голове никому не мешает. И вообще ее нет. А есть только spatial computing.
По идее задача несложная, по идее у Эппле уже есть Face-ID и трехмерный скан личика. Это прям помогатор при тренировке нейросеточки.
Только как быть всем остальным, которые не могут развидеть этих машущих руками зомбаков на улицах и у себя на кухне?
🔥35👍9
Экспертный совет для картинок. Stable Diffusion Mixture of Experts
Помните недавно вышел Микстраль 8x7B, построенный на концепции Mixture of Experts. Там внутри как бы несколько LLM(экспертов) и раутер, которые решает, кому лучше отдать решение задачи-запроса, пришедшего от пользователя. Обычно промпт отдается двум экспертам, которых выбрал раутер, и они уже хлещутся друг с другом о том, как лучше ответить на входящий промпт.
А теперь представьте такое же, только для картинок!
Ну и встречайте: SegMoE: Segmind Mixture Of Diffusion Experts
Если кратко.
Модели SegMoE имеют ту же архитектуру, что и Stable Diffusion. Как и в Mixtral 8x7b, модель SegMoE представляет собой несколько моделей в одной. Это происходит за счет замены некоторых слоев Feed-Forward на разреженный слой MoE. Слой MoE содержит сеть маршрутизаторов для выбора экспертов, которые обрабатывают токены наиболее эффективно. Вы можете использовать пакет segmoe для создания собственных моделей MoE!
https://huggingface.co/blog/segmoe#what-is-segmoe
Господа Гупта, Вишну и Прабхала сотворили настоящую камасутру для генерации картинок - смотрите прмеры на сайте. И давайте погадаем, сколько видеопамяти понадобится для такой оргии диффузионных агентов.
Ну круто же. Даете промпт, а там под ковром начинается возня, кто и как сделает именно вашу картинку. Можете устраивать баттлы из чекпойнтов. Можно подгружать туда свои чекпойнты.
Код? Апажалста:
https://github.com/segmind/segmoe
Не верите, что это работает? Глядите сюда:
https://www.youtube.com/watch?v=6Q4BJOcvwGE
Не терпится попробовать без питонинга? Уже есть имплементейшен для ComfyUI:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-SegMoE
Помните недавно вышел Микстраль 8x7B, построенный на концепции Mixture of Experts. Там внутри как бы несколько LLM(экспертов) и раутер, которые решает, кому лучше отдать решение задачи-запроса, пришедшего от пользователя. Обычно промпт отдается двум экспертам, которых выбрал раутер, и они уже хлещутся друг с другом о том, как лучше ответить на входящий промпт.
А теперь представьте такое же, только для картинок!
Ну и встречайте: SegMoE: Segmind Mixture Of Diffusion Experts
Если кратко.
Модели SegMoE имеют ту же архитектуру, что и Stable Diffusion. Как и в Mixtral 8x7b, модель SegMoE представляет собой несколько моделей в одной. Это происходит за счет замены некоторых слоев Feed-Forward на разреженный слой MoE. Слой MoE содержит сеть маршрутизаторов для выбора экспертов, которые обрабатывают токены наиболее эффективно. Вы можете использовать пакет segmoe для создания собственных моделей MoE!
https://huggingface.co/blog/segmoe#what-is-segmoe
Господа Гупта, Вишну и Прабхала сотворили настоящую камасутру для генерации картинок - смотрите прмеры на сайте. И давайте погадаем, сколько видеопамяти понадобится для такой оргии диффузионных агентов.
Ну круто же. Даете промпт, а там под ковром начинается возня, кто и как сделает именно вашу картинку. Можете устраивать баттлы из чекпойнтов. Можно подгружать туда свои чекпойнты.
Код? Апажалста:
https://github.com/segmind/segmoe
Не верите, что это работает? Глядите сюда:
https://www.youtube.com/watch?v=6Q4BJOcvwGE
Не терпится попробовать без питонинга? Уже есть имплементейшен для ComfyUI:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-SegMoE
🔥20👍4
Forwarded from Венчурная Прожарка by Axevil
Все наверняка слышали про новый стартап Маска xAI. Его миссия — создать по-настоящему безопасный ИИ, от которого выиграет все человечество. Вне зависимости от размера кошелька и политических предпочтений
Формально xAI появился в марте 2023. Быстро собрали команду. За 4 месяца натренировали первую LLM модель Grok
К ноябрю ее апгрейднули и стала доступна в виде чатбота для пользователей Твиттера в США. Grok развивается на глазах, обучаясь на фидбеке юзеров соцсети, она сравнилась с лучшими open-source моделями (Llama2)
Казалось бы, зачем Маску идти в новый проект? Илон имеет на то веские причины. У него наболело. В этом есть огромный бизнес потенциал. Поясню
Но все шло против него. То Google поглотит DeepMind, то OpenAI сделает пивот в сторону коммерции и изменит своей open-source философии
Думаю, поэтому Илон решился на xAI. Причем у него есть реальные шансы добиться успеха. xAI объединяет в себе 3 ключевых преимущества:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥18👎6
Вчера писал про идею для стартапа для удаления лыжных масок с лиц зомби.
В принципе на уровне плашечек и с помощью разговора по фейстайму это уже можно сделать прямо сейчас.
Смотрите, двое чуваков в одной комнате звонят друг другу и прислоняют окошко с аватаром к голове собеседника.
Вытеснениеотрицательного лыжной маски из головы.
В принципе на уровне плашечек и с помощью разговора по фейстайму это уже можно сделать прямо сейчас.
Смотрите, двое чуваков в одной комнате звонят друг другу и прислоняют окошко с аватаром к голове собеседника.
Вытеснение
👍8🔥4
Stable Diffusion WebUI Forge
Тут вчера вышел полностью переписанный Automatic1111. Сделал это никто иной как Лвмин Жанг, автор ControlNet и Fooocus.
Просто взял и переписал этого монстра с целью оптимизации просчета на картах с небольшим количеством памяти. Веб-морда и привычный ацкий интерфейс остались на месте. Грубо говоря, он взял наработки из Фокуса по оптимизации просчета и вструмил их вместо ядра автоматика.
И теперь бодрый легкий автоматик заводится на картах типа 1060 и считает на них модели ветки SDXL, а полторашка там просто летает.
Обещана поддержка всех экстеншенов (есть некоторое визги по этому поводу на гитхабе - кое-что отваливается, кое-что (AnimDiff) в работе).
Более того, для нормальных людей есть просто однокнопочный инсталлер (скачиваешь архив, распаковываешь в папку, запускаешь update, потом run).
Это не решает проблему адового интерфейса Автоматика (да и Фокуса), но у меня все работает как будто я обновил комп - быстро, без тормозов.
Я напишу результаты тестов, он реально быстрее старого Автоматика, но не поддерживает оптимизацию sdp для карт с конским количеством памяти типа A100.
И самое приколькое оказалось, что туда уже нативно добавлена поддержка Stable Video Diffusion и Z123 от StabilityAI. Просто отдельные закладки. И даже можно генерить видосы у себя на лаптопе на карте с 8Гб видео-памяти.
Ну и там в интерфейс "прочищен", появились просто удобные легкие элементы, типа выключателя Refiner. Также там наворотили новых кунштюков в ControlNet, но это тема для отдельного поста.
А пока вот так.
Если вы используете обычный GPU, например 8GB vram, вы можете рассчитывать на 30~45% увеличение скорости вывода (it/s)
Для малохольного GPU, например с 6 Гбайт, вы можете рассчитывать на 60-75 % увеличение скорости
Для 4090 с 24 ГБ памяти, вы можете рассчитывать на 3~6% увеличение скорости
Если вы используете ControlNet для SDXL, максимальное количество ControlNetов увеличится примерно в 2 раза, скорость с SDXL+ControlNet увеличится примерно на 30~45%.
Забирайте отсюда
Тут вчера вышел полностью переписанный Automatic1111. Сделал это никто иной как Лвмин Жанг, автор ControlNet и Fooocus.
Просто взял и переписал этого монстра с целью оптимизации просчета на картах с небольшим количеством памяти. Веб-морда и привычный ацкий интерфейс остались на месте. Грубо говоря, он взял наработки из Фокуса по оптимизации просчета и вструмил их вместо ядра автоматика.
И теперь бодрый легкий автоматик заводится на картах типа 1060 и считает на них модели ветки SDXL, а полторашка там просто летает.
Обещана поддержка всех экстеншенов (есть некоторое визги по этому поводу на гитхабе - кое-что отваливается, кое-что (AnimDiff) в работе).
Более того, для нормальных людей есть просто однокнопочный инсталлер (скачиваешь архив, распаковываешь в папку, запускаешь update, потом run).
Это не решает проблему адового интерфейса Автоматика (да и Фокуса), но у меня все работает как будто я обновил комп - быстро, без тормозов.
Я напишу результаты тестов, он реально быстрее старого Автоматика, но не поддерживает оптимизацию sdp для карт с конским количеством памяти типа A100.
И самое приколькое оказалось, что туда уже нативно добавлена поддержка Stable Video Diffusion и Z123 от StabilityAI. Просто отдельные закладки. И даже можно генерить видосы у себя на лаптопе на карте с 8Гб видео-памяти.
Ну и там в интерфейс "прочищен", появились просто удобные легкие элементы, типа выключателя Refiner. Также там наворотили новых кунштюков в ControlNet, но это тема для отдельного поста.
А пока вот так.
Если вы используете обычный GPU, например 8GB vram, вы можете рассчитывать на 30~45% увеличение скорости вывода (it/s)
Для малохольного GPU, например с 6 Гбайт, вы можете рассчитывать на 60-75 % увеличение скорости
Для 4090 с 24 ГБ памяти, вы можете рассчитывать на 3~6% увеличение скорости
Если вы используете ControlNet для SDXL, максимальное количество ControlNetов увеличится примерно в 2 раза, скорость с SDXL+ControlNet увеличится примерно на 30~45%.
Забирайте отсюда
🔥51👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Погонял Stable Video Diffusion XT локально.
На A100, конечно, сладко. 4 секунды генерятся 20 секунд. Уже можно экспериментировать.
Не хватает X/Y/Z, чтобы ставить все в очередь - документации нет, труднопроизносимые параметры повсюду, только метод тыка и пристального взгляда.
Больше 4 секунд сгенерить в принципе ничего невозможно, либо закипает как в дефорумных видосах, либо разваливается. Контроля никакого, только эксперименты типа "а что будет если вот так".
Поменял разрешение - все разъезжается. Задрал fps - закипело. Все как с первыми картинками в Stable Diffusion.
Щас напишу еще про ИИ-видео.
Пишите про ваши уловки в коментах.
На A100, конечно, сладко. 4 секунды генерятся 20 секунд. Уже можно экспериментировать.
Не хватает X/Y/Z, чтобы ставить все в очередь - документации нет, труднопроизносимые параметры повсюду, только метод тыка и пристального взгляда.
Больше 4 секунд сгенерить в принципе ничего невозможно, либо закипает как в дефорумных видосах, либо разваливается. Контроля никакого, только эксперименты типа "а что будет если вот так".
Поменял разрешение - все разъезжается. Задрал fps - закипело. Все как с первыми картинками в Stable Diffusion.
Щас напишу еще про ИИ-видео.
Пишите про ваши уловки в коментах.
👍18🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-видео-новеллы.
Народ в интернете, тем не менее, основательно упарывается в ИИ-видео.
Как я уже писал тут - основная фишка этих видео - картинка из Midjourney. Именно она будет цеплят глаз. Не ваша гениальная работа с камерой или анимация в кадре (их нет в принципе). А легкий шевеляж картинки с очень хорошим визуальным контентом.
Помните лет 20 назад появились презентации и видосы, где фотки плавно зумировались и плавали в кадре.
Сейчас примерно также, только наряднее - ибо в кадре не фотки, а картинки из Midjourney и анимация камеры, чуть более ловкая, с шевеляжем фонов и параллаксами.
А еще помните лет несколько назад в мобайле взлетели "визуальные новеллы" - эдакие адовые истории в картинках (реинкарнация диафильмов), рассказанные под музыку или нарратив.
И то, что мы сейчас наблюдаем в интернетике, это те самые новеллы с эффектом параллакса и рандомными медленными движениями в кадре.
Картинка и нарратив - основа. В принципе можно было рассказать историю в шапке без анимации камеры, на одних картинках. Но пока есть эффект новизны - будет пользоваться успехом, как те самые плавающие фотки на видосах из прошлого. А когда надоест, придется подумать, где взять очередную новизну.
К тому времени ИИ что-то придумает...
Народ в интернете, тем не менее, основательно упарывается в ИИ-видео.
Как я уже писал тут - основная фишка этих видео - картинка из Midjourney. Именно она будет цеплят глаз. Не ваша гениальная работа с камерой или анимация в кадре (их нет в принципе). А легкий шевеляж картинки с очень хорошим визуальным контентом.
Помните лет 20 назад появились презентации и видосы, где фотки плавно зумировались и плавали в кадре.
Сейчас примерно также, только наряднее - ибо в кадре не фотки, а картинки из Midjourney и анимация камеры, чуть более ловкая, с шевеляжем фонов и параллаксами.
А еще помните лет несколько назад в мобайле взлетели "визуальные новеллы" - эдакие адовые истории в картинках (реинкарнация диафильмов), рассказанные под музыку или нарратив.
И то, что мы сейчас наблюдаем в интернетике, это те самые новеллы с эффектом параллакса и рандомными медленными движениями в кадре.
Картинка и нарратив - основа. В принципе можно было рассказать историю в шапке без анимации камеры, на одних картинках. Но пока есть эффект новизны - будет пользоваться успехом, как те самые плавающие фотки на видосах из прошлого. А когда надоест, придется подумать, где взять очередную новизну.
К тому времени ИИ что-то придумает...
👍22🔥9👎7
Вышла Гемини Ультра, про которую писал недавно.
Зная, как гугль шаманит с бенчмарками, я, пожалуй, обожду, апгрейдиться не буду. Сегодня ночью будет тонна отзывов от реальных людей. Пока мое общение с Бардом и генерация в нем картинок были очень удручающими экспериментами по сравнению с chatGPT.
Зная, как гугль шаманит с бенчмарками, я, пожалуй, обожду, апгрейдиться не буду. Сегодня ночью будет тонна отзывов от реальных людей. Пока мое общение с Бардом и генерация в нем картинок были очень удручающими экспериментами по сравнению с chatGPT.
👍12
Один из моих любимых сериалов - Better Call Soul.
Не скажу, что он круче Breaking Bad, он другой. Он невыносимо хорош, это все, что я скажу тут, чтобы не превращать пост в обсуждение сериалов.
А вот держите работу с невыносимо хорошим названием:
Better Call GPT!
Помните я тут писал, что средний американец (и не только) часто не может себе позволить даже первичную юридическую, медицинскую, налоговую или другую узкоспециализированную консультацию. А вот chatGPT может лихо ответить на 99% вопросов первичной консультации.
Теперь это взяли и подтвердили метриками.
В общем сравнили ответы LLM и младших юристов и аутсорсеров (Junior Lawyers and LPO).
Если вкратце: "Результаты показывают, что LLM демонстрируют сопоставимые, если не превосходящие, результаты в решении юридических вопросов по сравнению с младшими юристами и LPO"
В статье зачем-то (издевательски) сравнивается экономическая эффективность LLM - "С точки зрения затрат, LLM работают за небольшую часть цены, предлагая ошеломляющее снижение затрат на 99,97 процента по сравнению с традиционными методами"
Чем более стандартные контракты и договора, тем больше LLM-уделывают кожаных. Для сложных контрактов есть Seniour Lawyers - все как у программистов.
Тут некоторые могут потыкать в меня историей, когда адвокат перепутал chatGPT с Гуглом и привел в суде ответ ИИ, как аргумент. Ответ был некорректный, адвоката сильно нахлобучили.
Все верно, не надо путать ИИ и Гугл. Надо путать ИИ и младших юристов, которые тоже могут нести пургу за неимением опыта.
Вот за них и выпьем. Не чокаясь.
https://arxiv.org/pdf/2401.16212.pdf
Не скажу, что он круче Breaking Bad, он другой. Он невыносимо хорош, это все, что я скажу тут, чтобы не превращать пост в обсуждение сериалов.
А вот держите работу с невыносимо хорошим названием:
Better Call GPT!
Помните я тут писал, что средний американец (и не только) часто не может себе позволить даже первичную юридическую, медицинскую, налоговую или другую узкоспециализированную консультацию. А вот chatGPT может лихо ответить на 99% вопросов первичной консультации.
Теперь это взяли и подтвердили метриками.
В общем сравнили ответы LLM и младших юристов и аутсорсеров (Junior Lawyers and LPO).
Если вкратце: "Результаты показывают, что LLM демонстрируют сопоставимые, если не превосходящие, результаты в решении юридических вопросов по сравнению с младшими юристами и LPO"
В статье зачем-то (издевательски) сравнивается экономическая эффективность LLM - "С точки зрения затрат, LLM работают за небольшую часть цены, предлагая ошеломляющее снижение затрат на 99,97 процента по сравнению с традиционными методами"
Чем более стандартные контракты и договора, тем больше LLM-уделывают кожаных. Для сложных контрактов есть Seniour Lawyers - все как у программистов.
Тут некоторые могут потыкать в меня историей, когда адвокат перепутал chatGPT с Гуглом и привел в суде ответ ИИ, как аргумент. Ответ был некорректный, адвоката сильно нахлобучили.
Все верно, не надо путать ИИ и Гугл. Надо путать ИИ и младших юристов, которые тоже могут нести пургу за неимением опыта.
Вот за них и выпьем. Не чокаясь.
https://arxiv.org/pdf/2401.16212.pdf
Telegram
Метаверсище и ИИще
Ну и коль скоро меня сегодня понесло внутрь кожаной башки, то поговорим про технологический компот из VR, ИИ и психотерапии.
Смотрите, пациент что-то говорит своему ИИ-терапевту. ИИ конвертирует речь в текст, RAG-выкликает базу по когнитивно-поведенческой…
Смотрите, пациент что-то говорит своему ИИ-терапевту. ИИ конвертирует речь в текст, RAG-выкликает базу по когнитивно-поведенческой…
👍29🔥6