Рубрика крутые подписчики
Я уже писал про Умара...
Он за это время жутко прокачался в тренировке Лор.
Успел даже залететь в топ на Civitai и сорвал джек-пот из апвоутов на Реддите.
Поглядите, какая прелесть - 3Д-Лора для иконок, логосов и вообще.
Очень круто, предлагаю в коментах изорвать его на вопросы.
https://civitai.com/models/769042/tech-vibrant-3d-style-or-render-or-glass?modelVersionId=860157
@cgevent
Я уже писал про Умара...
Он за это время жутко прокачался в тренировке Лор.
Успел даже залететь в топ на Civitai и сорвал джек-пот из апвоутов на Реддите.
Поглядите, какая прелесть - 3Д-Лора для иконок, логосов и вообще.
Очень круто, предлагаю в коментах изорвать его на вопросы.
https://civitai.com/models/769042/tech-vibrant-3d-style-or-render-or-glass?modelVersionId=860157
@cgevent
🔥76👍14👎5
Я знаю Серегу еще по временам MUBR - приложение, где ты можешь смотреть, что слушают твои друзья в apple music & spotify. За полтора года аудитория продукта доросла до 3+ млн юзеров без инвестиций, после чего весной 2024 приложение было продано
Сегодня они запускают на Ханте новый стартап LovOn - приложение, которое поможет вам стать ближе к своему партнёру. Каждый день вы получаете простые и интересные задания, благодаря которым вы сможете лучше узнать друг друга и получать больше радости от ваших отношений.
Приложению всего 2 месяца, за это время ребята успели собрать пресид раунд, засетапить команду, сделать 17 итераций продукта и получить первый трекшен! И сейчас начинают рейзить сид 🤝
В общем надо поддержать!
https://www.producthunt.com/posts/lovon
Сегодня они запускают на Ханте новый стартап LovOn - приложение, которое поможет вам стать ближе к своему партнёру. Каждый день вы получаете простые и интересные задания, благодаря которым вы сможете лучше узнать друг друга и получать больше радости от ваших отношений.
Приложению всего 2 месяца, за это время ребята успели собрать пресид раунд, засетапить команду, сделать 17 итераций продукта и получить первый трекшен! И сейчас начинают рейзить сид 🤝
В общем надо поддержать!
https://www.producthunt.com/posts/lovon
👍21👎10
Forwarded from Сиолошная
Флеш-новости 4 (для тех, кто пережил два лонга за полторы недели 🚬 ):
— CEO GitHub тизерит появление моделей o1 завтра в своём продукте. Это может быть как рядовая замена модели, не привнёсшая ничего нового с точки зрения UX, так и кардинальное улучшение Copilot, который теперь будет гораздо лучше планировать изменения в коде и размышлять о том, что имел в виду пользователь.
— Ходят слухи, что, возможно, в ближайшее время (чуть ли не на этой неделе) Google представит новую Gemini (может быть 2.0, может быть Ultra — её же не обновили до 1.5). Особый упор будет сделан на программирование. Вообще Google точно делал исследовательскую работу в том же направлении, что и OpenAI для o1, потому не удивлюсь, если будут схожий анонс с теми же акцентами. Google даже может превзойти OpenAI за счёт большего количества вычислительных мощностей на тренировку LLM — Sam Altman озвучивал такие опасения менеджерам в Microsoft.
— несколько представителей AI индустрии сходили в Сенат США, где их опрашивали про регуляции. Там была и Helen Toner, бывший член совета директоров, уволившаяся после возвращения Sam Altman. В своём вводном слове она говорила, что большинство регуляций надо направить на системы будущего, а не текущего поколения, и что дипфейки и GenAI это конечно опасно, но нужно думать про более глобальное влияние. И последующие 2 часа в Сенате говорили про... дипфейки и подмену голоса в звонках🔥 .
— ещё в этих слушаниях поднялась интересная тема разницы компенсаций в индустрии и в гос. структурах, и что никакой шарящий человек не пойдет работать в агентство-регулятор на зп в 5-10 раз меньше. Что-то с этим нужно делать.
— Microsoft и BlackRock (крупнейшая в мире инвест-компания, под управлением которой находится имущества на 10 триллионов долларов, примерно 8% мирового ВВП) планируют открыть инвест-фонд на... 30 миллиардов долларов. А ещё он может быть расширен до $100B😨 . Цель фонда — инвестиции в инфраструктуру для AI. Обратите внимание, что это не то же, что инвестировать в OpenAI. Это именно про налаживание производства и цепочек поставок, про строительство датацентров и электростанций. Вероятно, BlackRock считает, что в ближайшие годы будет дефицит, и они хотят сыграть на опережение. Партнёрами также выступит MGX, крупный фонд из ОАЭ.
— неделю назад CEO OpenAI, Anthropic, Nvidia и президент Google ходили в Белый дом для обсуждения будущего электроэнерегетики, инфраструктуры под AI, производства полупроводников. Позже на той же неделе было объявлено о создании рабочей группы по AI Datacenter Infrastructure. Департамент энергетики (Department of Energy звучит несерьезно, но они отвечают за ядерное оружие и энергетику, а также под их контролем находятся самые мощные публичные суперкомпьютеры) выделит отдельную команду под AI-датацентры и общение с частным сектором. Также DOE будет рассматривать выведенные из эксплуатации места добычи угля в качестве источников сырья для выработки энерегии, на основе чего будет приниматься решени о размещении датацентров и фабрик.
— люди всё ещё не верят, что AI продолжит развиваться семимильными шагами (банально за счёт масштабирования), и думают, что вот-вот застопорится.
К этому часу у меня всё😁 😀
— CEO GitHub тизерит появление моделей o1 завтра в своём продукте. Это может быть как рядовая замена модели, не привнёсшая ничего нового с точки зрения UX, так и кардинальное улучшение Copilot, который теперь будет гораздо лучше планировать изменения в коде и размышлять о том, что имел в виду пользователь.
— Ходят слухи, что, возможно, в ближайшее время (чуть ли не на этой неделе) Google представит новую Gemini (может быть 2.0, может быть Ultra — её же не обновили до 1.5). Особый упор будет сделан на программирование. Вообще Google точно делал исследовательскую работу в том же направлении, что и OpenAI для o1, потому не удивлюсь, если будут схожий анонс с теми же акцентами. Google даже может превзойти OpenAI за счёт большего количества вычислительных мощностей на тренировку LLM — Sam Altman озвучивал такие опасения менеджерам в Microsoft.
— несколько представителей AI индустрии сходили в Сенат США, где их опрашивали про регуляции. Там была и Helen Toner, бывший член совета директоров, уволившаяся после возвращения Sam Altman. В своём вводном слове она говорила, что большинство регуляций надо направить на системы будущего, а не текущего поколения, и что дипфейки и GenAI это конечно опасно, но нужно думать про более глобальное влияние. И последующие 2 часа в Сенате говорили про... дипфейки и подмену голоса в звонках
— ещё в этих слушаниях поднялась интересная тема разницы компенсаций в индустрии и в гос. структурах, и что никакой шарящий человек не пойдет работать в агентство-регулятор на зп в 5-10 раз меньше. Что-то с этим нужно делать.
— Microsoft и BlackRock (крупнейшая в мире инвест-компания, под управлением которой находится имущества на 10 триллионов долларов, примерно 8% мирового ВВП) планируют открыть инвест-фонд на... 30 миллиардов долларов. А ещё он может быть расширен до $100B
— неделю назад CEO OpenAI, Anthropic, Nvidia и президент Google ходили в Белый дом для обсуждения будущего электроэнерегетики, инфраструктуры под AI, производства полупроводников. Позже на той же неделе было объявлено о создании рабочей группы по AI Datacenter Infrastructure. Департамент энергетики (Department of Energy звучит несерьезно, но они отвечают за ядерное оружие и энергетику, а также под их контролем находятся самые мощные публичные суперкомпьютеры) выделит отдельную команду под AI-датацентры и общение с частным сектором. Также DOE будет рассматривать выведенные из эксплуатации места добычи угля в качестве источников сырья для выработки энерегии, на основе чего будет приниматься решени о размещении датацентров и фабрик.
— люди всё ещё не верят, что AI продолжит развиваться семимильными шагами (банально за счёт масштабирования), и думают, что вот-вот застопорится.
К этому часу у меня всё
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍43🔥6👎3
Ну, за эфыксеров.
Я вчера отложил такую новость, но в коментах уже пригорает.
Lionsgate заключила сделку с Runway. В рамках сделки Runway будет обучать новую модель на библиотеке фильмов и телепередач Lionsgate, а Lionsgate будет использовать технологию "для разработки передовых, капиталоэффективных возможностей создания контента".
Некоторое время назад Гугл и Реддит провернули такое же. После чего Реддит закрыл доступ к своим данным для остальных.
Хотя подробностей пока мало, компании сообщают, что новая модель будет "адаптирована к собственному портфолио Lionsgate по кино- и телеконтенту" и будет эксклюзивной для студии. Ее цель - "помочь студии Lionsgate, ее кинематографистам, режиссерам и другим творческим талантам улучшить свою работу".
Как намекнул vice chair Lionsgate Майкл Бернс, в конечном итоге сделка служит для снижения затрат, в чем заинтересованы все студии, но особенно Lionsgate, которая уже давно делает ставку на фильмы и сериалы с более скромными бюджетами по сравнению с блокбастерами некоторых аналогов.
Ну и дальше много вопросов про массовые сокращения.
А у меня странные ощущения. Если так дальше пойдет, то культура будет потихоньку атомизироваться, точнее кластеризироваться, распадаясь на те самые пузыри мнений\восприятий. Отдельная модель для фильмов Lionsgate, отдельная для Netflix, отдельная для Apple Originals. И у всех жестокая цензура, лоры на повестки и диверсити. У кого больше архив, у того больше вариативности в контенте. У кого-то соглашения с Сора, у кого-то с Люма, у кого-то вообще с Vidu.
Вся система авторского права щас поднимется в праведном гневе и жажде наживы и ну заключать вот такие соглашения.
И тут из-за угла приходит опенсорс, китайцы и фильмы с торрентов. И ну тренироваться.
Мне кажется история повторяется. Когда-то одну тетеньку посадили за файл mp3 на ее компьютере.
Когда будете генерить что-то на данных из интернетика, подумайте, не придут ли к вам с вопросом - ты как это сделал?
Когда будете рисовать в Фотошопе - не придут ли к вам с вопросом, ты чем вдохновлялся, нейронный мешок?
Также вспоминаем, что недавно Сэм Альтман гонял в Голливуд общаться за Sora.
В общем речь, конечно, о снижении костов и погребальных тостах за VFX-еров. Но меня сильно резанули вот такие вот картельные peer-to-peer соглашения между отдельными участниками рынка.
https://www.hollywoodreporter.com/business/business-news/lionsgate-deal-ai-firm-runway-1236005554/
@cgevent
Я вчера отложил такую новость, но в коментах уже пригорает.
Lionsgate заключила сделку с Runway. В рамках сделки Runway будет обучать новую модель на библиотеке фильмов и телепередач Lionsgate, а Lionsgate будет использовать технологию "для разработки передовых, капиталоэффективных возможностей создания контента".
Некоторое время назад Гугл и Реддит провернули такое же. После чего Реддит закрыл доступ к своим данным для остальных.
Хотя подробностей пока мало, компании сообщают, что новая модель будет "адаптирована к собственному портфолио Lionsgate по кино- и телеконтенту" и будет эксклюзивной для студии. Ее цель - "помочь студии Lionsgate, ее кинематографистам, режиссерам и другим творческим талантам улучшить свою работу".
Как намекнул vice chair Lionsgate Майкл Бернс, в конечном итоге сделка служит для снижения затрат, в чем заинтересованы все студии, но особенно Lionsgate, которая уже давно делает ставку на фильмы и сериалы с более скромными бюджетами по сравнению с блокбастерами некоторых аналогов.
Ну и дальше много вопросов про массовые сокращения.
А у меня странные ощущения. Если так дальше пойдет, то культура будет потихоньку атомизироваться, точнее кластеризироваться, распадаясь на те самые пузыри мнений\восприятий. Отдельная модель для фильмов Lionsgate, отдельная для Netflix, отдельная для Apple Originals. И у всех жестокая цензура, лоры на повестки и диверсити. У кого больше архив, у того больше вариативности в контенте. У кого-то соглашения с Сора, у кого-то с Люма, у кого-то вообще с Vidu.
Вся система авторского права щас поднимется в праведном гневе и жажде наживы и ну заключать вот такие соглашения.
И тут из-за угла приходит опенсорс, китайцы и фильмы с торрентов. И ну тренироваться.
Мне кажется история повторяется. Когда-то одну тетеньку посадили за файл mp3 на ее компьютере.
Когда будете генерить что-то на данных из интернетика, подумайте, не придут ли к вам с вопросом - ты как это сделал?
Когда будете рисовать в Фотошопе - не придут ли к вам с вопросом, ты чем вдохновлялся, нейронный мешок?
Также вспоминаем, что недавно Сэм Альтман гонял в Голливуд общаться за Sora.
В общем речь, конечно, о снижении костов и погребальных тостах за VFX-еров. Но меня сильно резанули вот такие вот картельные peer-to-peer соглашения между отдельными участниками рынка.
https://www.hollywoodreporter.com/business/business-news/lionsgate-deal-ai-firm-runway-1236005554/
@cgevent
The Hollywood Reporter
Lionsgate Inks Deal With AI Firm to Mine Its Massive Film and TV Library
The deal will see Runway train a new AI model on Lionsgate's film and TV library as the entertainment company uses the tech "to develop cutting-edge, capital-efficient content creation opportunities."
1👍29👎16🔥13❤1
Forwarded from Dreams and Robots
У Unity, пожалуй самая крутая команда производства синематиков среди всех игровых движков. Они регулярно делают супер-качественные демки для новых технологий.
В этом году они выпустили очередную короткометражку под названием Time Ghost.
https://www.youtube.com/watch?v=o1JIK5W3DRU
Это видео полностью отрендерено в реальном времени и дает представление о новых графических фишках из Unity 6.
Для нас же самое интересное -- это, наконец-то, адекватное практическое использование нейросетей для "симуляции тканей".
В Юнити есть Sentis, фреймворк для инференса ONNX-моделей, написанный на C#. Так вот, для этого ролика авторами была сделана симуляция всей одежды на персонаже в Гудини. Потом на этих данных была обучена нейросеть.
Теперь эта нейросеть с помощью Sentis в реальном времени деформирует одежду в зависимости от анимации персонажа. При этом модель весит всего 50 мегабайт, а сам инференс занимает меньше миллисекунды на фрейм, если верить авторам.
Так что вот, не картинками едиными. Интересно будет посмотреть, какие еще применения для нейросетей появятся в геймдеве, где особые требования к быстродействию.
#gamedev #unity #sentis
В этом году они выпустили очередную короткометражку под названием Time Ghost.
https://www.youtube.com/watch?v=o1JIK5W3DRU
Это видео полностью отрендерено в реальном времени и дает представление о новых графических фишках из Unity 6.
Для нас же самое интересное -- это, наконец-то, адекватное практическое использование нейросетей для "симуляции тканей".
В Юнити есть Sentis, фреймворк для инференса ONNX-моделей, написанный на C#. Так вот, для этого ролика авторами была сделана симуляция всей одежды на персонаже в Гудини. Потом на этих данных была обучена нейросеть.
Теперь эта нейросеть с помощью Sentis в реальном времени деформирует одежду в зависимости от анимации персонажа. При этом модель весит всего 50 мегабайт, а сам инференс занимает меньше миллисекунды на фрейм, если верить авторам.
Так что вот, не картинками едиными. Интересно будет посмотреть, какие еще применения для нейросетей появятся в геймдеве, где особые требования к быстродействию.
#gamedev #unity #sentis
YouTube
Time Ghost | Unity 6
Time Ghost is the latest Unity Originals real-time cinematic demo developed by the team behind projects like The Blacksmith, Adam, Book of the Dead, The Heretic, and Enemies. Presented at Unite 2024 in Barcelona, it showcases what can be achieved with Unity…
3🔥50👍14
Forwarded from Нейронавт | Нейросети в творчестве
Tripo 2.0
Новый генератор 3D моделей с PBR текстурами по тексту и по изображению.
Генерация занимает несколько минут, и вы получаете 4 варианта модели.
На старте дают 600 кредитов, это на 10 генераций по 60 кредитов.
После генерации вам предлагают сделать риг за 20 кредитов и можно назначить на модель анимацию.
Конвертирование и сохранение модели, кстати, тоже стоит - 10 кредитов.
Можно сделать ретопологию.
Короче, инструмент серьезный+-
Тест Бендера - хорошо.
Го тестить!
#textto3d #imageto3d
Новый генератор 3D моделей с PBR текстурами по тексту и по изображению.
Генерация занимает несколько минут, и вы получаете 4 варианта модели.
На старте дают 600 кредитов, это на 10 генераций по 60 кредитов.
После генерации вам предлагают сделать риг за 20 кредитов и можно назначить на модель анимацию.
Конвертирование и сохранение модели, кстати, тоже стоит - 10 кредитов.
Можно сделать ретопологию.
Короче, инструмент серьезный+-
Тест Бендера - хорошо.
Го тестить!
#textto3d #imageto3d
👍38🔥6👎3
А мне пока из всех 3Д генераторов больше всех нравится нравится Родэн.
Они недавно внедрили фичу multiple images to 3D. Ну то есть на входе несколько картинок-ракурсов.
И это окончательно стало напоминать нейрофотограмметрию.
Однако они крутят ролики, где их качество сильно побивает фотограмметрические сканы.
Плюс у них куча ништяков - pbr, нормали, картун шейдер и даже ретопология.
Более того, они позавчера прикрутили рейтрейсер во вьюпорте! Причем на базе WebGPU! Там теперь наноВирейГПУ в реалтайме крутит материалы.
Цены примерно как у всех. Есть бесплатные планы. Можно логиниться гуглом.
https://hyperhuman.deemos.com/
@cgevent
Они недавно внедрили фичу multiple images to 3D. Ну то есть на входе несколько картинок-ракурсов.
И это окончательно стало напоминать нейрофотограмметрию.
Однако они крутят ролики, где их качество сильно побивает фотограмметрические сканы.
Плюс у них куча ништяков - pbr, нормали, картун шейдер и даже ретопология.
Более того, они позавчера прикрутили рейтрейсер во вьюпорте! Причем на базе WebGPU! Там теперь наноВирейГПУ в реалтайме крутит материалы.
Цены примерно как у всех. Есть бесплатные планы. Можно логиниться гуглом.
https://hyperhuman.deemos.com/
@cgevent
👍32🔥16❤1
Хотя Motion Brush был давно в Пике и Рунвее, но реализация в Клинге выглядит довольно интересно.
Там и Segmentation Anything, и замес из InstantDrag, Drag Diffusion, DragVideo и других драгонов.
Нейропротокомпоз силой мысли и мышки.
Не уверен, что работает в Kling 1.5
И прежде чем взорать, что сапоги некрасивые, поглядите, как он "понимает" динамику грязи, взаимодействующей с сапогами. Это real world simulation, воистину vfx.
@cgevent
Там и Segmentation Anything, и замес из InstantDrag, Drag Diffusion, DragVideo и других драгонов.
Нейропротокомпоз силой мысли и мышки.
Не уверен, что работает в Kling 1.5
И прежде чем взорать, что сапоги некрасивые, поглядите, как он "понимает" динамику грязи, взаимодействующей с сапогами. Это real world simulation, воистину vfx.
@cgevent
🔥68👍20👎3❤2
Media is too big
VIEW IN TELEGRAM
Это видео я хотел прикрепить к посту про то, что Lionsgate заключила сделку с Runway.
Но забыл.
Исправляюсь. Это картинки из Флюкса+Лоры, присунутые в Runway. В большом количестве.
На реддите отчаянно ищут блох - зубы кривые, башка большая, тело маленькое..
Стадия гнев. Скоро депрессия и принятие.
Обратите внимание, ничего (почти) не кипит, это вам не AnimDiff, это video генерация
Заберите девочку и скормите ея в video2video. Она и так хороша, но можно будет снимать сериалы и накидывать на них скины: аниме, пластилин, киберпанк..
И тут мне пришла в голову идея выпить за модный эмоциональный интеллект.
Берем актеров и студентов актерских вузов, курсов, тусовок. Размечаем датасет. Тут радость, тут грусть, тут нереальное сопререживание, тут чудовищная эмпатия.
Дальше пишем промпты. Точнее пишем, что надо выдавить из кожаного зрителя, а chatGPT или Жан Клод напишет оптимальный промпт для генерации.
Ну, за эмоциональный интеллект, которые плавно приватизирован искусственным интеллектом.
@cgevent
Но забыл.
Исправляюсь. Это картинки из Флюкса+Лоры, присунутые в Runway. В большом количестве.
На реддите отчаянно ищут блох - зубы кривые, башка большая, тело маленькое..
Стадия гнев. Скоро депрессия и принятие.
Обратите внимание, ничего (почти) не кипит, это вам не AnimDiff, это video генерация
Заберите девочку и скормите ея в video2video. Она и так хороша, но можно будет снимать сериалы и накидывать на них скины: аниме, пластилин, киберпанк..
И тут мне пришла в голову идея выпить за модный эмоциональный интеллект.
Берем актеров и студентов актерских вузов, курсов, тусовок. Размечаем датасет. Тут радость, тут грусть, тут нереальное сопререживание, тут чудовищная эмпатия.
Дальше пишем промпты. Точнее пишем, что надо выдавить из кожаного зрителя, а chatGPT или Жан Клод напишет оптимальный промпт для генерации.
Ну, за эмоциональный интеллект, которые плавно приватизирован искусственным интеллектом.
@cgevent
7🔥59👍22👎4
This media is not supported in your browser
VIEW IN TELEGRAM
В Рунвей завезли вертикальные видео.
Пока только в модель Gen-3 Alpha Turbo.
Странно, что так поздно.
Или это ответочка на гугловскую интеграцию Veo в генерацию Shorts.
@cgevent
Пока только в модель Gen-3 Alpha Turbo.
Странно, что так поздно.
Или это ответочка на гугловскую интеграцию Veo в генерацию Shorts.
@cgevent
👍42🔥16
Странно, что никто не пишет про OmniGen.
Я честно почитал статью, но мне не хватает мозгов понять, в чем подвох.
Я также честно прочитал 104 комента на реддите, и вынес следующее:
Все, что они делают, это прикручивают SDXL VAE и немного меняют стратегию маскировки токенов, чтобы они лучше подходили к изображениям.
Если все получится так, как написано в статье, можно полностью отказаться от текущего пайплайна Stable Diffusion (кодировщики текста, латентное пространство и т.д.). И почти полностью сосредоточиться на LLM, частично обучить их мультимодальности, а затем выгрузить это в VAE. Нам больше не нужно будет возиться с кодировщиками текста, ведь LLM - это, по сути, кодировщики текста на стероидах. Не говоря уже обо всех чудовищных возможностях, которые это может дать. Когерентное видео - одна из них.
В то же время трудно поверить, что ИИ, обученный только текстах, сможет понять пространственные отношения, формы, цвета и тому подобное. LLM как бы уже "знает", как выглядит Мона Лиза, но у нее нет "глаз", чтобы ее увидеть, и нет "рук", чтобы ее нарисовать. Все, что ему нужно, - это небольшое изменение, чтобы дать ему "глаза" и "руки"
Народ уже обсуждает, что если это работает, то это можно прикручивать и к музыке и даже к сигналам, снимаемым с башки кожаного.
Но вот это вот "если это работает" встречается почти в каждом коменте в твитторе и реддите.
Причем даже обещан код:
https://github.com/VectorSpaceLab/OmniGen
Там же ссылка на бумагу:
https://arxiv.org/pdf/2409.11340
И вот тут есть даже разговоры с chatGPT за OmniGen, и chatGPT малость охреневает от красоты подхода(впрочем это ничего не значит):
https://www.reddit.com/r/StableDiffusion/comments/1fl46sk/omnigen_a_stunning_new_research_paper_and/
Есть тут умные люди, которые пояснят за Omnigen?
Выглядит слишком сладко, чтобы быть правдой. И в статье иногда можно принять данные из датасета, за картинки, которые они генерят, будьте внимательны.
@cgevent
Я честно почитал статью, но мне не хватает мозгов понять, в чем подвох.
Я также честно прочитал 104 комента на реддите, и вынес следующее:
Все, что они делают, это прикручивают SDXL VAE и немного меняют стратегию маскировки токенов, чтобы они лучше подходили к изображениям.
Если все получится так, как написано в статье, можно полностью отказаться от текущего пайплайна Stable Diffusion (кодировщики текста, латентное пространство и т.д.). И почти полностью сосредоточиться на LLM, частично обучить их мультимодальности, а затем выгрузить это в VAE. Нам больше не нужно будет возиться с кодировщиками текста, ведь LLM - это, по сути, кодировщики текста на стероидах. Не говоря уже обо всех чудовищных возможностях, которые это может дать. Когерентное видео - одна из них.
В то же время трудно поверить, что ИИ, обученный только текстах, сможет понять пространственные отношения, формы, цвета и тому подобное. LLM как бы уже "знает", как выглядит Мона Лиза, но у нее нет "глаз", чтобы ее увидеть, и нет "рук", чтобы ее нарисовать. Все, что ему нужно, - это небольшое изменение, чтобы дать ему "глаза" и "руки"
Народ уже обсуждает, что если это работает, то это можно прикручивать и к музыке и даже к сигналам, снимаемым с башки кожаного.
Но вот это вот "если это работает" встречается почти в каждом коменте в твитторе и реддите.
Причем даже обещан код:
https://github.com/VectorSpaceLab/OmniGen
Там же ссылка на бумагу:
https://arxiv.org/pdf/2409.11340
И вот тут есть даже разговоры с chatGPT за OmniGen, и chatGPT малость охреневает от красоты подхода(впрочем это ничего не значит):
https://www.reddit.com/r/StableDiffusion/comments/1fl46sk/omnigen_a_stunning_new_research_paper_and/
Есть тут умные люди, которые пояснят за Omnigen?
Выглядит слишком сладко, чтобы быть правдой. И в статье иногда можно принять данные из датасета, за картинки, которые они генерят, будьте внимательны.
@cgevent
2👍33🔥9
По одеваторы и раздеваторы я много писал.
Сегодня речь скорее не о трендах, а о масс адопшене и интеграциях с телегой.
Смотрите, один из лучших ботов для одевания и раздевания Slook теперь умеет принимать Stars из телеги. Я не понимаю, как это сделано, но оно работает. У меня, благодаря вам, накопилось немного старзов, я их, конечно, использовал с большим умом.
Взял свои генерации во Флюксе, сделанные с меня же (об этом отдельная история, как "я" завирусился везде).
Присунул их в бот и получил спикера в униформе. Забавно, что он даже попадает в 3Д-мульт стиль, но в картун ему, конечно, попасть сложнее.
Поэтому родился быстрый пайплайн для тех, кому надо погорячее. Генерим во Флюксе, раздеваем в Slook. Да, он прекрасно кушает генерации.
Всем фана.
@cgevent
Сегодня речь скорее не о трендах, а о масс адопшене и интеграциях с телегой.
Смотрите, один из лучших ботов для одевания и раздевания Slook теперь умеет принимать Stars из телеги. Я не понимаю, как это сделано, но оно работает. У меня, благодаря вам, накопилось немного старзов, я их, конечно, использовал с большим умом.
Взял свои генерации во Флюксе, сделанные с меня же (об этом отдельная история, как "я" завирусился везде).
Присунул их в бот и получил спикера в униформе. Забавно, что он даже попадает в 3Д-мульт стиль, но в картун ему, конечно, попасть сложнее.
Поэтому родился быстрый пайплайн для тех, кому надо погорячее. Генерим во Флюксе, раздеваем в Slook. Да, он прекрасно кушает генерации.
Всем фана.
@cgevent
1🔥44👎21👍9