Метаверсище и ИИще
47.8K subscribers
6.05K photos
4.51K videos
46 files
6.95K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from e/acc
Впервые новое научное знание было создано с помощью LLM (а не просто AI-assisted software).

Буквально месяц назад читал комментарий на канале что «LLM никогда не смогут делать научные открытия, чертовы стохастические попугаи», а сегодня Гугл публикует в Nature статью, что они сделали открытие в математике используя LLM.

Метод довольно универсален и я ожидаю решение новых задач из математики именно таких способом в ближайшее время.

Ребята из DeepMind использовали LLM для написания, изменений и оценки кода, который стремится максимально эффективно решить открытые задачи в математике. Для того используется, по их заявлениям «medium-sized LLM», то есть, я думаю между 20 и 70 млрд параметров. Что важно, алгоритм FunSearch не просто находит ответ на задачу, а создаёт код для внедрения решения в реальные процессы. В частности, они решили задачу оптимизации «упаковки» объектов в минимальное количество контейнеров, задачу циклических графов, и задачу нахождения максимального сета, в котором точки не лежат на прямой.
🔥52👍15👎1
На реддите на серьезных щах обсуждают GPT_4.5.
Похоже кто-то поправил в Хроме сорцы, и судя по ценам и наличию фразы про 3Д, это всё-таки фейк.
Но мысль про 3Д мне нравится...
https://www.reddit.com/r/OpenAI/s/JqujMILOhl
👍10🔥5
Это очень смешно, спасибо подписчику. У нас совершенно волшебный чат в коментах - никакой школоты, умные начитанные люди с отличным чувством юмора. Я ручками в конце для аппрувлю запросы на добавление в чат. Поэтому он не превращается в наплыв ботов и гопников. Даже гифки и мемы перестали постить в ответ на мою просьбу. И вот такие перлы от chatGPT - прям новые мемы с постметаиронией.
🔥94👍5
Новый челлендж.
Генерим картику, где циркуль рисует квадрат.
Обязательные условия: одна нога стоит именно в центре квадрата, а вторая на одной из линий квадрата. Он именно рисует квадрат, поэтому одна нога в центре.
Желательные условия: лайн арт, на картинке не должно быть рук и минимум деталей.
В идеале сделать это в chatGPT и DALL·E 3. Но на другие варианты тоже интересно поглядеть. Ну и ControlNet - будет читом, проще тогда фотошоп расчехлить.
Кидайте в коменты варианты.
Совет, скажите ему, что это шутка и демонстрация противоречия.
👍20
Задача оказалась не такая простая. Это похоже проблему с пальцами - ну нет в датасетах разметок типа "фотка с четырьмя пальцами". И циркулей, рисующих квадраты, там тоже нет.
И если с семицветиком оказалось, что ИИ в курсе про сказки Бажова, то сказок про циркули никто не написал.
Челендж продолжается. Иногда нога - это просто нога))
👍31🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Озвучка текста от RunwayML!
Утечки с частной презентации из Discord channel for Creative Partners

"text-to-speech" позволяет генерировать закадровый голос и диалоги на несколько разных голосов, и все это в рамках Runway".


EleventLabs нервно закуривает в облаке.

И это очень круто по трем причинам.

1. Только что писал, что для нового нормального кино с 4-секундным монтажом будет очень важен нарратив, озвучка того, что вам сгенерит ИИ в виде сценариев.

2. Коль скоро это авторы GEN-2 (ну и Stable Diffusion, что греха таить), то интеграция в их продукты будет просто киллер-фичей.

3. И я ожидаю, что следующим шагом будет липсинк. Wav2Lip почил в бозе 3 года назад и нормальных решений пока не видно.

https://help.runwayml.com/hc/en-us/articles/23859696734611-Runway-Text-to-Speech-tool
👍17🔥3
Ну, началось.
Совет по надзору за финансовой стабильностью правительства США включил использование искусственного интеллекта в перечень возможных рисков для финансовой системы, заявила министр финансов страны Джанет Йеллен.
👍23
Тут в телеге гуляют ссылки на сотенку отчетов от разных онолитегов, которые народ успешно кормит в chatGPT, чтобы не делать overflow собственных мозгов.
Тут подтверждается моя гипотеза, что скоро один ИИ будет писать и надувать отчеты по просьбе одних кожаных, а второй будет их сжимать для прочтения другими кожаными. И все будут делать вид, что все отлично, ибо трафик вырастет в разы. И интернетик приподраздуется до размеров луны.
Но я вам принес другой отчет и он очень любопытный.
Это Pornhub 2023 Year in Review.
И там первая часть посвящена поисковым запросам.
В общем, если скормить эту информацию ИИ, но он, я уверен, поставит очень точные диагнозы кожаным мешкам, а по дороге сделает пару научных открытий, ибо территория, где дедушка Фройд копался своей нейросеткой, редко становится предметом публичных исследований. Но ИИ все равно на правила приличия.
Чего стоит только географическое распределение.. расчехляйте теории..

https://www.pornhub.com/insights/2023-year-in-review
👍21🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
MusicFX.
Гугл выкатил новый генератор музыки
https://aitestkitchen.withgoogle.com/tools/music-fx

Там пока нет работы с текстами и Suno.ai может спать спокойно.
Но не забываем, что у Гугла есть TextFX: https://textfx.withgoogle.com и там прямо сказано, что это для писателей и рэпперов.

Можете послушать образцы тут:
https://aitestkitchen.withgoogle.com/audio/carousel-hero-1.mp3
https://aitestkitchen.withgoogle.com/audio/carousel-hero-2.mp3
https://aitestkitchen.withgoogle.com/audio/carousel-hero-3.mp3
https://aitestkitchen.withgoogle.com/audio/carousel-hero-4.mp3
https://aitestkitchen.withgoogle.com/audio/carousel-hero-5.mp3
Последний хорош.

Это скорее территория Mubert и Aiva.

Но показательно то, что рано или поздно большие мальчики спускаются с горы и делают свои решения там, где раньше паслись выводки стартапчиков.

Доступ:
→ Go to labs. google

→ Scroll down and click on 'Try it now' in the MusicFX category

→ You will then need to log in to a Google account.

Но только для Штатов, Австралии и Кении.
👍14🔥3👎2
This media is not supported in your browser
VIEW IN TELEGRAM
В общем к сторителлингу с помощью видео-генераторов пока есть вопросы, а вот в моушен-дизайн это может зайти очень скоро. Просто жмете кнопку "Еще". И это не стоки эффектов, это новые эффекты по нажатию кнопки (ну мы уже это проходили на картинках год назад). Да, еще кривокосо и разъезжается, но вспомните Халка из DiscoDiffusion.

Поглядите, уже даже появляются туторы.

Ну и можно аккуратно, по 30г, начать выпивать на дизайнеров титров. ИИ идет за ними.
В первом коменте пример.
🔥21👍6
Media is too big
VIEW IN TELEGRAM
Хочу показать еще одну работу от подписчика, а не из твитторов.
И заметить, что рассказывание историй - это определенный талант и/или скил, прокачанный годами. Одно дело намельтешить шевеляжа с помощью генераторов, другое - рассказать что-то.
Вот тут как раз пример опыта анимации, преломленного через новые инструменты. И этот опыт чувствуется. И мне нравится, что все это сшивается по стилю.

Также Маша прислала бесценные детали производства.
Картинки: Midjourney
Анимация: runway gen-2, pika labs
Монтаж: iMovie на айфоне, музыку наложил инстаграм (чтобы кадры попадали в музыку я сначала крутила ролик в iMovie, а музыку на YouTube и так подбирала сцены и кадры).
Проблемы:
- очень сложно сделать кота без искажений в runway. Хотя, кот, который тянется к бабочке , это как раз runway сделал - тут прямо мне очень нравится, как получилось.
- Midjourney категорически отказывался делать лошадей, пришлось подсовывать ему картинку, как базовую;
- runway не может пока делать в aspect ratio 9:16 только из текста, поэтому сначала картинка в Midj, а потом генерация - мне кажется, что при таком flow у анимации меньше шансов получится симпатичной.
По времени сюда ушло около 16 часов на все вместе.


Спасибо, Маша. Ждем версий с нарративом от ИИ.
🔥95👍29
Давно хотел написать про Phygital+, мы общались с Олегом еще в 2021, когда он задумал проект.

За это время они запилили довольно мощную систему - это нодовый конструктор всех возможных нейросеток для генерации контента, что-то типа Комфи, но только там собраны не только решения на основе Stable Diffusion, а вообще все доступные сетки с рынка.

Midjourney, DALL-E 3, Stable Diffusion XL, Control Net, обучение своих моделей Lora и Dreambooth, ChatGPT4 и GPT4-Vision, а также еще 20 AI ништяков и все они могут соединяться и комбинироваться друг с другом.

Композерам со стажем такое такое привычно и очень заходит, а людям не из поста должно взорвать мозг, ибо получается конструктор реально всего. Также в Phygital+ больше 40 кастомных моделей Stable Diffusion, готовые темплейты и туториалы.

И да, там есть дообучение своих моделей и лор.

И меня больше всего удивляет и радует, что ребята берут, перетряхивают интернетик (и мой канал) и внедряют к себе все, что шевелится. Там есть 360 панорамы или превью текстур на объектах, карты глубины или даже 3D human from photo.

Часть моделей бесплатны (Stable Diffusion), но чтобы юзать DALL·E 3 или Midjourney (и вязать их в общую сеть), вам, естественно, придется купить подписку. API вызовы небесплатны пока на этой планете. И можно платить с любых карт, без впн и смс. Там даже можно дарить подписку, в отличие от chatGPT Plus.

Идея и кураж мне нравятся, для тех, кто занимается графикой, нодовый подход - самое то.

Пробуем тут.
👍60🔥19👎5
Forwarded from Ai molodca (Dobrokotov)
Media is too big
VIEW IN TELEGRAM
Слово Пацана? А может быть лучше Слово Пиксара?

Сделал добрую версию того самого. Да еще и с песней.

Ссылка на ютуб, если захотите пошерить где-то еще (буду благодарен).

Пайплайн: тонна SD + две тонны Фотошопа + центнер Suno AI (для пеcни) + киллограм GEN-2 (для видео) + монтажка.
🔥91👍19👎15
This media is not supported in your browser
VIEW IN TELEGRAM
Китайцы уверенно вторгаются на территорию open-source, где когда-то солировала Stability AI.

Alibaba Group, похоже не имеет проблем с деньгами, инвесторами и странным CEO и за последнее время они выпускают просто огромное количество интересных работ.

Смотрите, новый генератор видео I2VGen-XL (анонсирован в ноябре, а в пятницу выпустили исходный код). Поглядите очень интересные примеры тут:
https://i2vgen-xl.github.io/
Там же ссылки на код.

I2VGen-XL работает в два этапа: базовый этап направлен на поддержание согласованности с входным текстом и изображениями, а этап доработки повышает детализацию и разрешение видео, достигая 1280x720 пикселей. По питу рефайнерв в SDXL.
Alibaba Cloud утверждает, что для обучения модели использовался обширный набор данных, включающий около 35 миллионов пар "текст-видео" и 6 миллиардов пар "текст-изображение".

Также Алибаба недавно взорвали интернетик демонстрацией Animate Anyone: некипящим решением для анимации персонажей со своим ControlNet-ом под названием ReferenceNet.
Код появится вот-вот, а конкуренты (Тик-Ток) поспешно выпускают решения с готовым кодом типа Magic Animate (выглядит хуже).
https://humanaigc.github.io/animate-anyone/
https://showlab.github.io/magicanimate/

Хотите пилить стартап? Делайте удобный интерфейс для всех этих видео и анимационных генераторов. Пока это просто говно и палки. Даже для генерации картинок, все эти веб-интерфейсы, где программисты переизобретают инструменты конца 90-х, представляются собой разношерстный зоопарк.
👍36
This media is not supported in your browser
VIEW IN TELEGRAM
Нейрокомпоз.
А вот еще одна работа от Алибабы, за которой я советую пристально следить. Ждем код.
Тут они лихо вкомпаживают объекты с одной картинки в другую. Без вот этого вот ротоскопа, вырезания, камераматчинга, растягивания, релайтинга и прочей подгонки ручками.
Просто указали, что и куда перенести.
Фишка в том, что при обучении они использовали видео в датасетах, поэтому внутри возникает "представление" о разных ракурсах и освещениях объекта, чтобы вставлять его в новый план со своим освещением и камерой.

Выгляди многообещающе (хотя пользователи Нюка сейчас, конечно, начнут ныть про качество, 8К, плохие маски и вообще объект изменяется..). Дайте время.

Ну и самое горячее применение этого уже сейчас - это все эти виртуальные примерочные.
Берем шмот с витрины и кидаем его на кожаного потребителя (себя). И ну примерять.

Ну, за композеров!
https://damo-vilab.github.io/AnyDoor-Page/

Оу! Три часа назад появился код!!!
https://github.com/damo-vilab/AnyDoor
👍26🔥15
This media is not supported in your browser
VIEW IN TELEGRAM
Outfit Anyone: Ultra-high quality virtual try-on for Any Clothing and Any Person
Ну и в подтверждении того, что Алибаба упаковывает все это безобразие (видео, анимацию, нейрокомпоз) в продуктовые решения, держите вот такую примерочную от Алибабы.
Тут ваши манекены еще и пляшут в выбранной одежде.
Под капотом та самая two-stream conditional diffusion model, позволяющая ловко справляться с деформацией одежды и анимацией для получения более реалистичных результатов.
Выглядит огненно. Если приглядеться, то фон немного плывет, но это уже не традиционное диффузионное мельтешение.
https://humanaigc.github.io/outfit-anyone/
Кода пока нет.
🔥30
Ну и закрывая сегодняшний марафон по виртуальным примерочным, замечу, что у Superlook.AI появился новый интерфейс. И он стал очень крутым.

Пример того, что можно быстро собирать из опенсорсных решений работающие продукты под реальные запросы с рынка. И пока Алибаба и Амазончик будут раскатывать свои решения, можно успеть собрать User Base на дичайшем коротком Time To Market.

Кстати, про User Base, там уже:
220.000+ пользователей

которые сгенерировали 17.300.000 картинок

из них 189.000 картинок пользователи добавили в избранное

среднем ежедневно регистрируется от 2.000 до 3.000 новых пользователей и делают в сутки до 300.000 картинок!

web версия
iOS версия
Android версия
👍6🔥1
Тестирую несколько ботов в телеге по генерации аватаров, одежды и вообще.
Меня всегда удивляло, что я загружаю фотки с бородой, а они довольно точно рисуют мою морду без бороды. Я прям вспоминаю те редкие моменты, когда я по каким-то причинам оголял подбородок - один в один. Ну и омолаживают конкретно, лесть похоже была зашита еще в веса Stable Diffusion...
👍66🔥38👎2