Метаверсище и ИИще
47K subscribers
5.96K photos
4.39K videos
45 files
6.85K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Вот небольшой тест на промпте:

goddess princess beautiful face portrait ram skull zbrush sculpt. jellyfish phoenix head, nautilus, orchid, skull, betta fish, bioluminiscent creatures, intricate artwork by Tooth Wu and wlop and beeple. octane render, trending on artstation, greg rutkowski very coherent symmetrical artwork. cinematic, hyper realism, high detail, octane render, 8k

Тут можно оценить, что датасет у Адобченко был немного иной.
🔥46👍2
Интересное и практичное использование генеративных текстовых нейросеток для решения самых разных задач. Выбираешь, с кем хочешь пообщаться и какую задачу решить: HR, юрист, психолог, бухгалтер, повар(!), переводчик.
И все это прямо в телеге!

NoPeople — первый cервис заказа услуг, в котором все исполнители - нейросети.

Сотни задач выполняются за ~10 секунд:
— составить резюме или мотивационное письмо;
— разработать контент-план или готовый пост;
— написать или переработать программный код;
— задать любой вопрос нейросети и получить грамотный ответ.

Теперь это незаменимый инструмент. Внедряйте: @nopeople_bot
#промо
👎23👍16🔥2
В ожидании ИИ-метахьюманов.
Наткнулся на вот такую новость.
Ждать ли клона Metahuman Creator от Synthesia.io?
Параметризация 3Д-сканов кожаных голов нейросетками, с целью получить их параметрическое представление. А оттуда и до метахьюманов недалеко.
Тренировали модель на датасете из 2000 высококачественных 3D-моделей голов, созданных с помощью фотограмметрии.
Детали тут: https://xn--r1a.website/twin_3d/237

Но! Буквально в ту же минуту Synthesis AI пригнали мне фантастическую новость про то, что они уже сделали ИИ-Метахьюмана!! Читайте следующий пост и постарайтесь не перепутать synthesis.ai и synthesia.io - это совершенно разные компании.
👍11🔥1
Чистый, без примесей, text-to-3D!

Коль скоро Epic Games до сих пор выясняет этичность использования ИИ, кто-то должен был сделать ИИ-Метахьюмана!

Мне написал Макс П. из Synthesis AI и пригнал вот такую новость.

Synthesis AI, стартап из Сан-Франциско, специализирующийся на производстве синтетических данных, сегодня объявил, что разработал новый способ создания реалистичных ТРЕХМЕРНЫХ цифровых людей из текстовых подсказок.

Компания анонсирует, что ее новая технология преобразования текста в 3D, использует "пайплайны генеративного искусственного интеллекта и визуальных эффектов для создания цифровых людей с высоким разрешением кинематографического качества, которые можно использовать для различных приложений, таких как как игры, виртуальная реальность, фильмы и симуляторы".

Ну и дело не столько в качестве, а в подходе. Кто-то наконец-то сделал брутфорсный тренинг моделей на классических полигональных сетках, без всяких нерфов, 2Д-проекций, читов в духе kaedim и вот этого вот всего. На выходе реальные текстурированные 3Д-меши.

Synthesis AI сделала собственные модели, используя генеративные архитектуры на основе диффузии для создания разнообразного набора сеток, которые регулируются критическими параметрами, такими как пол, возраст, этническая принадлежность и пр. Слои текстур создаются с использованием отдельной(!) генеративной модели, которая обеспечивает детальное независимое управление(!)

Комплексная 3D-модель с высоким разрешением создается путем слияния этих двух основных компонентов.

В общем это такой ИИ-Метахьюман с голосовым(текстовым) управлением (хотя управление слайдерами тоже есть).

Еще раз - на выходе чистое, рафинированное, генетически немодифицированное 3Д!

Synthesis AI специализируется на синтетических данных, поэтому немудрено, что собственная библиотека Synthesis AI, содержащая более 100 тысяч цифровых людей, является базовыми данными, используемыми для обучения моделей. Другие продукты компании, Synthesis Humans и Synthesis Scenarios, уже используют эту библиотеку для решения задач компьютерного зрения с размеченными данными для поддержки разработки возможностей идентификации лиц, мониторинга водителей, аватаров и многого другого.

В общем, наконец-то кто-то обГАНил (обдиффузил) полигональные 3Д-сетки, пусть на определенном, но очень востребованном классе объектов - кожаные головы.

Это только начало, цитирую: "сочетая генеративный ИИ с пайплайнами кинематографических визуальных эффектов, компании смогут синтезировать мир, включая людей, окружающую среду и объекты".

Мы с Максом обсудили дальнейшее обГАНИвание 3Д, а я срочно записался в бету, благо есть административный ресурс влияния. Макс неоднократно зажигал у меня на Ивенте, а психоделические посиделки в киевском "Любимом дяде" с Дэном и Максом до сих пор оказывают на меня влияние.


https://venturebeat.com/ai/synthesis-ai-debuts-text-to-3d-technology-for-cinematic-quality-digital-human-synthesis/
👍35
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia дропнула новую модельку
text2video. Качество заметно подросло по сравнению с предыдущими, но это все еще не идеальный вариант.

К сожалению попробовать пока негде, есть только страница проекта с описанием.

Так что пока любуемся Штурмовиком пылесосящим пляж. В комменты можете кидать удачные примеры использования.
🔥38👍1👎1
Немного мыслей UI/UX, Automatic и Адобченко.
Раз уж меня вчера пробило на Адобченко, закрою гештальт громогласным нытьем про интерфейсы, которые пишут программисты.
Почему Адобченко всех сожрет на этом поле?
Потому что даже интерфейс FireFly уже сейчас очень прост и понятен.
В нем большие картинки слева сверху и привычная колонка параметров справа. Внизу дополнительные элементы управления.
В большинстве 3Д и 2Д софтов уже выработался такой стандарт - огромный вьюпорт слева, параметры справа, внизу таймлайн(если есть).
Ибо результат - это картинка. И хочется быть к ней "как можно ближе".
Она - центр внимания.

Что мы имеем в Automatic1111?
Маленькая картинка справа, слева нагромождение параметров, промпты под потолком и феерично-хаотично разбросанные кнопочки по экрану (типа доступа к лоре и гиперсетям).
Более того, редактируете вы картинку(инпайнт) в одном окошечке, генерите во втором, а скелет идете выставлять вообще в другую вкладку.
В результате получаются метания среди маленьких картинок, вместо того, чтобы всё рисовать, выставлять, маскировать на одной большой картинке-вьюпорте.

Почему Адобченко всех сожрет? Да потому что у него все будет делаться на одной и той же картинке. И не нужны будут отдельные экстеншены, чтобы зумировать(!) изображение.

Даже в 3Д додумались рендерить картинку прямо во вьюпорте, поверх моделей в окне. ИИ-генерация - это чистый рендер, поэтому в идеале иметь один вьюпорт, а котором все и настраивается. А справа скрол из сгруппированных параметров. И в идеале, чтоб на двух мониторах работало - на одном картинка, на втором цифры в клеточках.

Про дискорд я вообще молчу...
👍52🔥4👎1
Media is too big
VIEW IN TELEGRAM
Вы все видели хит "Уилл Смит жрет спагетти".
Держите ответочку от Олега Трешера.
Психологический дриллер "Спагетти жрет Уилла Смита".
Modelscope плюс опыт монтажа, экшен начинается на 00:40.
Нервным и олдскульным смотреть запрещено!
Полтора года назад DiscoDiffusion генерил подобное, только в статике, картиночками.
Что будет в конце 2024?
ИИ жрет Халивуд?
🔥58👎11👍1
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Мы все ближе к генеративной сингулярности:
Nvidia показала работу алгоритма text2video, и он работает сильно лучше чем все предыдущие примеры.

Смонтировал примеры в одно видео, тут по ссылке технические детали про архитектуру и больше примеров.

Модель, поиграться, кажется, нам не дадут 🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥14
Media is too big
VIEW IN TELEGRAM
Я немного помониторил, что показывали на NAB 2023 в плане ИИ.
В основном это решения по автоматизации работы с видео контентом (ибо NAB - это National Association of Broadcasters).

В основном народ обсуждал на круглых столах, как сделать контент еще персонифицированнее и как можно наживаться на контенте еще более эффективно с помощью ИИ. На NAB собираются взрослые мальчики, которым не до тянок в Stable Diffusion, там разговор в основном за бизнес.

Например о том, как создавать описания для конского количества видеоконтента с помощью ИИ. Индексация и аннотирование.

Также мне приглянулось решение с адовым названием Spherexgreenlight, которое берет ваш контент (кино, сериал, видео) и ИИ-смотрит, какие культурные коды будут нарушены в том или ином регионе. И помечает нужные сцены, чтобы не спалить контент в разных странах, получив жесткий ограничительный рейтинг.

Ну и упаковщики Stable Diffusion тоже не дремлют.
На видео в шапке продукт Кубрик - это закатывание Stable Diffusion в привычный определенному кругу лиц (постпродакшен) интерфейс, со знакомыми терминами и процессами. По сути это удобный генератор фонов с помощью Stable Diffusion, обустроенный так, чтобы это можно было быстро редактировать на съемочной площадке или около нее.
Немного смахивает на инхаусные костыли, быстро упакованные для выставки.
(хотя я могу ошибаться, поглядите сайт сами).
Думаю рано или поздно, одна из таких систем выстрелит, ибо интерфейс и привычный пайплайн решают (это к вопросу о моем нытье про интерфейсы к Stable Diffusion).
🔥21👍1
StableLM - языковая Stable Diffusion

Stability AI выпустила свою языковую модель с открытым исходным кодом, StableLM. С 3-мя и 7-ю миллиардами параметров (3В и 7В), за ней последуют модели 15В, 30В и 65В.

Модели StableLM умеют в текст и в код и обучались на новом экспериментальном наборе данных, построенном на базе The Pile, но в три раза большем, 1.5 триллиона токенов.

Модели есть на GitHub. Планируется дообучение на кожаных оценках (RLHF) на основе краудсорсинга и сотрудничество с Open Assistant, чтобы создать набор данных с открытым исходным кодом для ИИ-ассистентов.

Интересно будет посмотреть на требования к памяти: An upcoming technical report will document the model specifications and the training settings.
Но модели компактные, похоже можно гонять под столом и в Убабуге (это как бы аналог Automatic1111).
Пишите про успехи в этом нелегком деле.
https://stability.ai/blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models

Есть демо для модели 7В:
https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat
🔥28👍1
Противостояние Микрософта и Гугла будет очень интересным и мультимодальным.
Тут недавно Самсунг намекнул, что может вонзить в свои новые телефоны Бинг, как поисковик по умолчанию. Акции Гугла сходили вниз, держатели акций немного облегчились.
А теперь все муссируют утечку про собственные ИИ-чипы от Микрософта. Что в принципе похоже на правду, ибо полагаться на милость Нвидия было бы недальновидно. Гугль тренирует свои модели на своих TPU, Амазон пользует свои гравитоны. А карты Нвидия - это монстры общего назначения, которые как бы overqualified для специализированных ИИ-операций. Плюс то майнеры, то датасайентисты постоянно создают дефициты и скачки цен.
Интересно, а появятся ли аналоги асиков для майнинга, для тех, кто генерит картинки и гоняет языковые модели под столом.
https://www.bigtechwire.com/2023/04/18/microsoft-is-developing-its-own-ai-chip-to-compete-with-google-tpu-and-aws-graviton/

Для справки:
Google TPU и AWS Graviton - это пользовательские чипы ИИ, предназначенные для ускорения рабочих нагрузок машинного обучения в облаке. Google TPU - это тензорный процессор, который может выполнять крупномасштабные матричные операции для моделей глубокого обучения. AWS Graviton - это процессор на базе ARM, который может выполнять широкий спектр рабочих нагрузок общего назначения, оптимизированных для вычислений, памяти, хранения данных и ускоренных вычислений, таких как серверы приложений, кодирование видео, высокопроизводительные вычисления, выводы машинного обучения на базе процессора и базы данных с открытым исходным кодом.
👍18🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам россыпь идей для ИИ-стартапов.
Берете любой звук, например младенческий плач, говорите, что обучили нейронку, которая умеет переводить с младенческого на человеческий. Никто же не проверит.

Я уже писал про такое же решение, только для котиков. Также читал, что нейронки тренируют анализировать звук автомобильного движка на предмет неисправностей.
Но так как кожаные больше всего зациклены на себе, то предлагаю стартапы для анализа:
звука отрыжки и прочих воздуховыделений из тела
урчания в животе
постукивания по черепу
храпа
почесывания разных участков
скрипа зубов

про домашних питомцев все очевидно, я полагаю.

Если все это еще упаковать с астрологией, то будет просто бомбический fartGPT, который вам все расскажет про вас.
🔥38👍9
Идея для стартапа
Похоже пора выпускать клавиатуры с наклейкой NO AI.
Текст, набранный на такой клавиатуре, сразу будет помечен как "не разрешенный" к обучению ИИ.
Более лайтовые варианты: плагины для текстовых редакторов с таким же функционалом.
Но в пределе появится новая кодировка UNAICODE, где у каждого символа будет доп бит, отвечающий за согласие автора использовать этот гениально набранный талантливый символ для обучения ИИ.
Нажал рычажок или альткапслок на клавиатуре и печатаешь в режиме NOAI. И никто твои тексты не даст злому ИИ, а если и даст, то ИИ подавится этим ядовитым битом.
Это я к чему так топорно исшутился?
Реддит будет брать плату (через свой API) у алкателей текстовых данных, которые буквально пасутся на Реддите.
"компаниям, которые «сканируют» Reddit в поисках данных и «не возвращают никакой ценности» пользователям, придется заплатить" - заявили в Реддите!

Для справки: GPT-2 обучалась на корпусе текстов, который называется WebText и содержит чуть более 8 миллионов документов, в общей сложности 40 гигабайт текста. Все это хозяйств было сформировано так: взяли ссылки из постов с Реддита с более, чем тремя лайками(RLHF, чо) и спарсили тексты по этим ссылкам (лайки жеж).

А я вам так скажу, когда вы сели за компьютер и начали тыкать в клавиатуру набирая глупости или кликать мышкой, рисуя еще большие глупости, вы уже продали душу дьяволу. Ибо ваши тексты и картинки они больше не ваши. Вы нарциссически вываливали ваши умные комментарии в сеть, и сладострастно считали лайки под вашими смешными картинками. А теперь вдруг взорали, а чо он учится на моих данных!
Как только вы оцифровали ваше драгоценное словотворчество, оно больше не ваше, оно принадлежит Хозяину Цифры. И он может делать с ним, что хочет. Точнее уже сделал. Понял, как устроены кожаные мешки.

chatGPT, напиши мне код, как парсить страницы с реддита, минуя официальный апи.
Апажалста.
https://techcrunch.com/2023/04/18/reddit-will-begin-charging-for-access-to-its-api/
🔥27👍9👎51
This media is not supported in your browser
VIEW IN TELEGRAM
Кому UnrealDiffusion - Stable Diffusion внутри UE5 с контролем позы с помощью ControlRig.
В общем нейрорендер внутри UE5.

StabilityAI SDXL model via the Dream Studio REST api inside our UE5 editor utility + Control Rig for fast pose editing
https://twitter.com/i/status/1648702789525073920
🔥24👍2
This media is not supported in your browser
VIEW IN TELEGRAM
h2oGPT - The world's best open source GPT

Похоже вот он, Stable Diffusion Moment для больших языковых моделей.
Каждую неделю новости о новом xxxGPT, а теперь еще и про open source GPT.

Вчера постил про StableLM от Stability AI, сегодня обнаружил вот такое:

Our goal is to make the world's best open source GPT!
20B-parameter LLM Model from H2O.Ai

Требования к памяти там конечно жесткие.
Для гиков:
Some training code was based upon March 24 version of Alpaca-LoRA.
Used high-quality created data by OpenAssistant.
Used base models by EleutherAI.
Used OIG data created by LAION.

https://github.com/h2oai/h2ogpt

Попробовать 20В модель можно тут: https://gpt.h2o.ai/
🔥16👍2
Вот держите очень полезную таблицу, в которой сделана попытка систематизировать все это безумное животноботство.
На первой вкладке базовые модели (там уже есть вчерашняя StableLM), с указанием типа лицензии.
На второй вкладке файн-тюнингованый зоопарк, что-то типа хаоса с Civitai.
На третьей немного датасетов
Также есть оценки производительности и даже сравнения разных версий chatGPT.
https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit

P.S. Сергей Марков прислал ссылку, где есть гораздо более полный список базовых моделей.
https://docs.google.com/spreadsheets/d/1FCRq3ir78FrSmZUOAwjV-C07YOEzWE6Cg34GtvpXZXs/edit#gid=0
🔥37
Вчера болтали с Лешей Кролом и сошлись на том, что одно из огромных преимуществ общения с chatGPT состоит в том, что ты не боишься задавать тупые, глупые, идиотские и просто бессмысленные вопросы.
Для людей воспитанных в совецкой образовательной традиции типа "хочешь спросить - подними руку и жди, сиди тихо - делай как все, не задавай глупых вопросов, не умничай, не высовывайся и вощенемешай" - это прямо челлендж.

Когда после ответа "вот тебе код", можно спросить "а чо с ним делать".
А после "положи на сервер", можно взорать "а как?".
И получить ответ. Спокойный такой. Для тупых.
И понять, что вот это вот "для тупых" сидит у тебя в голове со школы, с детства, со двора. Ибо за тупые вопросы принято высмеивать.
А chatGPT не считает тебя тупым. Он тебя держит за ... человека.
И это реально терапевтично.

Про глупые вопросы и образование это не психотравма, это системное явление, про которое я писал ниже.

- У меня знакомая студентка прямо на лекции уточняет у GPT что только что рассказал препод. Говорит что по нервам дороже вьіходит просить у препода - https://xn--r1a.website/cgevent/5357
👍68🔥30
Мутный философский пост.
Помните в детстве, вы читаете книжку, а на 32-й странице, наконец, первая картинка.
И вы такие - хоп, стопэ - непохоже же!
Вы уже напридумывали в голове, кто как выглядит, а тут вам подсовывают иллюстрацию, на которой воще все не так.
И вы такие читаете дальше, а через 30 страниц снова картинка, вы снова спотыкаетесь, но уже меньше.
К концу книги вы уже перестроились и мыслите навязанными образами, по крайней мере частично. Нейрончики дообучились. Файнтюниг, чо.
По крайней мере у меня так было.
А потом вы идете в кино, снятое по книге.
И тут снова - хоп, стопэ! - опять все не так! Не так как в голове.
И ваш мозг скрипит, ругается, но за два часа встает на рельсы новых образов.

Это я к чему.

Вот вы пишете промпт: "розовый пони на закате в окружении котиков".
И тут Stable Diffusion или Midjourney вам выдают 40 вариантов, а потом еще 80.

Если раньше вы читали текст и что-то там представляли, то теперь жмете кнопку, а ИИ фантазирует и воображает за вас. Причем разнообразно так.

Есть гипотеза, что ваша мышца "воображения" дрябнет, при каждом нажатии кнопки.

Раньше бывало, вы навоображади себе чего-то и попытались это нарисовать (ну или описать словами, для таких бездарей как я). Стали рисовать, не получается сходу, но методом градиентных проб, ошибок и ластика спустились к результату. А щас промпт, кнопка, готово.

Есть гипотеза, что мышца целеполагания и удержания фокуса дрябнет, при каждом нажатии кнопки.

ИИ берет на себя "усилия по воображению", сразу предоставляя вам результат. Пока 80 картинок на выбор, но он подучится на ваших лайках и будет давать вам одну, именно ту, которая именно для вас.

Ну а итогом будет промпт: "chatGPT, что я хочу вообразить сегодня?".
ИИ, такой: "судя по по вашим умным часам, скорости набора(произношения) промпта, сахару в крови и местоположению, вы хотите вообразить "розовых пони на закате в окружении котиков".

А вы просто жмете рычажок "Давай".

Мышцы воображения и желания вам больше не нужны.
Кстати, я не сказал, что это плохо. Думаю, что доить коров или сделать из теленка обед на 30 человек и запас на неделю, вы точно не умеете. Но никто не говорит, что это плохо. Я в стройотряде быстро научился, но это мне никак не пригодилось в жизни. И не пригодится, я надеюсь.
На первый план выходят другие навыки. Например, коммуникативность, которая очень помогает писать промпты. И получать результат.
Новые времена, новые мышцы.

Кстати, я знаю много людей, которые выросли уже без книг. На видосах. У них нет вот этого пайплайна: текст->воображение->картинка. У них сразу картинка. Я не вижу, что они сильно отличаются от читающих сверстников. Но у них бешеная способность к коммуникациям, а значит и к промптам (тут я возможно обобщаю, выборка маленькая, а научных работ на эту тему я не встречал).
👍52🔥6👎3